この本の続き。クラス分類(classification)


初めにサンプルデータを使って、データを可視化してみる。

figure1.py を実行すると 本の図 2-1 にあるグラフが生成される。
本の pythonコマンドと figure1.py のコマンドとは若干異なるが、本質は同じなので
気にせず進める。



次に、「2.3 より複雑なデータセットとクラス分類」で、

小麦データセット(seeds data set)を

http://archive.ics.uci.edu/ml/

から落としてきた。ファイル名を seeds.tsv にして、../data/ ディレクトリに置いた。

以下のエラーがでた。


$ python seeds_threshold.py 
Traceback (most recent call last):
  File "seeds_threshold.py", line 12, in <module>
    features, labels = load_dataset('seeds')
  File "/home/pi/bmlswp/ch02/load.py", line 27, in load_dataset
    data.append([float(tk) for tk in tokens[:-1]])
ValueError: could not convert string to float: 
$  

これは、seed.tsv ファイルが nan を含んでいると見えるらしい。
seed.tsv ファイルを見ると、単に tab がずれている箇所がいくつかあった。これを修正したら動いた。


git からダウンロードした ch02 のサンプルプログラムの中身を見ながら、本を読み進めていく。