機械学習用のデータセットまとめ

機械学習において「データは石油である」と例えられるほど、データは非常に重要であり、これによってAIプロジェクトの成功が左右されると言われています。

実際に、機械学習のモデルを作ろうとしたとき、データの収集やデータの前処理に6~8割ほどの時間が割かれることになります。

そんな機械学習に必要不可欠であるデータセットですが、現在では、無償で利用可能なものとして公開されているデータセットが数多く存在します。これを使えば、自分で1からデータセットを作る必要もなく、比較的簡単に機械学習の練習などができます。

今回は、日本だけでなく海外で公開されているものまで、代表的なものをデータセットの分野別に、まとめてご紹介します。

画像データ

スマートフォンの顔認証や、工場での不良品の自動検知システム、自動運転など、様々なところで画像認識の技術は活用されています。ここでは、画像認識を実装するために必要な画像のデータセットを公開しているサイトを紹介します。

ImageNet

1400万枚以上もの「カラー写真」を保有する大規模な教師ラベル付きデータベースです。

MNIST

7万枚の「0~9までの手書き数字画像」のデータセットです。

CIFAR-10

6万枚のカラー画像で構成された「飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラック」の10種類の動物や乗り物がラベリングされているデータセットです。 

Fashion-MNIST

7万枚のグレースケール画像で構成された「服などのファッションの画像」が10クラスでラベリングされているデータセットです。

数値データ

ここでは、人口の推移から、仮想通貨や株価の予想、さらには1年後の新型コロナウイルスの感染者数まで、分析するために使われる数値データが公開されているサイトをいくつか紹介します。

CoinMarketCap

1000種類以上の仮想通貨ペアの情報を配信しています。利用に関して、詳しくは利用規約(英語)をご確認ください。

Quandl

金融、経済に関するデータをCSVなどのフォーマットでダウンロードが可能で、経済指標や株価の予想に使用することができます。

World Bank Open Data

世界銀行約8000の開発指標を無料で公開しているのが、世界銀行です。分野別データとしては、貧困、経済、気候変動、保健、教育、ジェンダーなどに関するデータが公開されています。

総務省統計局

人口・世帯や家計、物価に関する統計データが公開されています。

国土交通省気象庁

地域(地点)、項目(気温、降水量、天気など)、期間を選択してダウンロードすることができます。

Kaggle

機械学習・データ分析のコンペティションのプラットフォームで、様々なデータセットが格納されており、アカウント登録をすれば誰でも使うことが可能です。

テキストデータ

ここでは、感情分析や翻訳、自動変換などの自然言語処理の技術を実装するために不可欠なテキストデータ(文字データ)が公開されているサイトを紹介します。

青空文庫 形態素解析データ集

青空文庫の作品に対し、形態素解析を行ったCSVデータをダウンロードすることができます。

日本語対訳データ

日本語を対象とする機械翻訳システムの構築に利用できます。

自然言語処理のためのリソース 

京都大学の黒橋・褚・村脇研究室によるテキストデータで、自然言語処理用のツールやデータセット情報が公開されています。

言語処理学会 論文誌LaTeXコーパス

会誌「自然言語処理」に掲載された論文のLaTeXのソースファイルです。

プログラミング未経験からでもAIスキルが身につくAidemy Premium Plan

PythonやAIプログラミングを学ぶなら、オンライン制スクールのAidemy Premium Planがおすすめです。
「機械学習・ディープラーニングに興味がある」
「AIをどのように活用するのだろう?」
「文系の私でもプログラミング学習を続けられるだろうか?」
少しでも気になることがございましたら、ぜひお気軽にAidemy Premium Planの【オンライン無料相談会】にご参加いただき、お悩みをお聞かせください!