機械学習において「データは石油である」と例えられるほど、データは非常に重要であり、これによってAIプロジェクトの成功が左右されると言われています。
実際に、機械学習のモデルを作ろうとしたとき、データの収集やデータの前処理に6~8割ほどの時間が割かれることになります。
そんな機械学習に必要不可欠であるデータセットですが、現在では、無償で利用可能なものとして公開されているデータセットが数多く存在します。これを使えば、自分で1からデータセットを作る必要もなく、比較的簡単に機械学習の練習などができます。
今回は、日本だけでなく海外で公開されているものまで、代表的なものをデータセットの分野別に、まとめてご紹介します。
画像データ
スマートフォンの顔認証や、工場での不良品の自動検知システム、自動運転など、様々なところで画像認識の技術は活用されています。ここでは、画像認識を実装するために必要な画像のデータセットを公開しているサイトを紹介します。
1400万枚以上もの「カラー写真」を保有する大規模な教師ラベル付きデータベースです。
7万枚の「0~9までの手書き数字画像」のデータセットです。
6万枚のカラー画像で構成された「飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラック」の10種類の動物や乗り物がラベリングされているデータセットです。
7万枚のグレースケール画像で構成された「服などのファッションの画像」が10クラスでラベリングされているデータセットです。
数値データ
ここでは、人口の推移から、仮想通貨や株価の予想、さらには1年後の新型コロナウイルスの感染者数まで、分析するために使われる数値データが公開されているサイトをいくつか紹介します。
1000種類以上の仮想通貨ペアの情報を配信しています。利用に関して、詳しくは利用規約(英語)をご確認ください。
金融、経済に関するデータをCSVなどのフォーマットでダウンロードが可能で、経済指標や株価の予想に使用することができます。
世界銀行約8000の開発指標を無料で公開しているのが、世界銀行です。分野別データとしては、貧困、経済、気候変動、保健、教育、ジェンダーなどに関するデータが公開されています。
人口・世帯や家計、物価に関する統計データが公開されています。
地域(地点)、項目(気温、降水量、天気など)、期間を選択してダウンロードすることができます。
機械学習・データ分析のコンペティションのプラットフォームで、様々なデータセットが格納されており、アカウント登録をすれば誰でも使うことが可能です。
テキストデータ
ここでは、感情分析や翻訳、自動変換などの自然言語処理の技術を実装するために不可欠なテキストデータ(文字データ)が公開されているサイトを紹介します。
青空文庫の作品に対し、形態素解析を行ったCSVデータをダウンロードすることができます。
日本語を対象とする機械翻訳システムの構築に利用できます。
京都大学の黒橋・褚・村脇研究室によるテキストデータで、自然言語処理用のツールやデータセット情報が公開されています。
会誌「自然言語処理」に掲載された論文のLaTeXのソースファイルです。