機械学習用のデータセットまとめ

2020-12-09 5:54

IT用語解説

機械学習

機械学習において「データは石油である」と例えられるほど、データは非常に重要であり、これによってAIプロジェクトの成功が左右されると言われています。

実際に、機械学習のモデルを作ろうとしたとき、データの収集やデータの前処理に6～8割ほどの時間が割かれることになります。

そんな機械学習に必要不可欠であるデータセットですが、現在では、無償で利用可能なものとして公開されているデータセットが数多く存在します。これを使えば、自分で1からデータセットを作る必要もなく、比較的簡単に機械学習の練習などができます。

今回は、日本だけでなく海外で公開されているものまで、代表的なものをデータセットの分野別に、まとめてご紹介します。

画像データ

スマートフォンの顔認証や、工場での不良品の自動検知システム、自動運転など、様々なところで画像認識の技術は活用されています。ここでは、画像認識を実装するために必要な画像のデータセットを公開しているサイトを紹介します。

1400万枚以上もの「カラー写真」を保有する大規模な教師ラベル付きデータベースです。

7万枚の「0～9までの手書き数字画像」のデータセットです。

6万枚のカラー画像で構成された「飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラック」の10種類の動物や乗り物がラベリングされているデータセットです。

・Fashion-MNIST

7万枚のグレースケール画像で構成された「服などのファッションの画像」が10クラスでラベリングされているデータセットです。

数値データ

ここでは、人口の推移から、仮想通貨や株価の予想、さらには1年後の新型コロナウイルスの感染者数まで、分析するために使われる数値データが公開されているサイトをいくつか紹介します。

・CoinMarketCap

1000種類以上の仮想通貨ペアの情報を配信しています。利用に関して、詳しくは利用規約（英語）をご確認ください。

金融、経済に関するデータをCSVなどのフォーマットでダウンロードが可能で、経済指標や株価の予想に使用することができます。

・World Bank Open Data

世界銀行約8000の開発指標を無料で公開しているのが、世界銀行です。分野別データとしては、貧困、経済、気候変動、保健、教育、ジェンダーなどに関するデータが公開されています。

・総務省統計局

人口・世帯や家計、物価に関する統計データが公開されています。

・国土交通省気象庁

地域（地点）、項目（気温、降水量、天気など）、期間を選択してダウンロードすることができます。

機械学習・データ分析のコンペティションのプラットフォームで、様々なデータセットが格納されており、アカウント登録をすれば誰でも使うことが可能です。

テキストデータ

ここでは、感情分析や翻訳、自動変換などの自然言語処理の技術を実装するために不可欠なテキストデータ（文字データ）が公開されているサイトを紹介します。

・青空文庫　形態素解析データ集

青空文庫の作品に対し、形態素解析を行ったCSVデータをダウンロードすることができます。

・日本語対訳データ

日本語を対象とする機械翻訳システムの構築に利用できます。

・自然言語処理のためのリソース

京都大学の黒橋・褚・村脇研究室によるテキストデータで、自然言語処理用のツールやデータセット情報が公開されています。

・言語処理学会　論文誌LaTeXコーパス

会誌「自然言語処理」に掲載された論文のLaTeXのソースファイルです。

プログラミング未経験からでもAIスキルが身につくAidemy Premium

PythonやAIプログラミングを学ぶなら、オンライン制スクールのAidemy Premiumがおすすめです。
「機械学習・ディープラーニングに興味がある」
「AIをどのように活用するのだろう？」
「文系の私でもプログラミング学習を続けられるだろうか？」
少しでも気になることがございましたら、ぜひお気軽にAidemy Premiumの【オンライン無料相談会】にご参加いただき、お悩みをお聞かせください！

Aidemy Premiumを詳しく見る

オンライン無料相談会を予約する

前の記事

Aidemy Premium Plan卒業生の記事を紹介します【前編】
次の記事

【AIを学びたい方必見！】アイデミーマガジン活用マニュアル

記事検索

よく読まれている記事

主成分分析と固有値問題

画像認識の入門編知識を解説！概要や仕組み、事例について

【機械学習】LSTMを使ってFX予測を行ってみた【未来予測】

ディープラーニングで文章を自動生成したい！

データを水増しする際の注意点！

カテゴリ一覧

タグ一覧