2018年3月25日日曜日

機械学習で使えるデータセット一挙勢揃い!

https://www.codexa.net/ml-dataset-list/

機械学習でもっとも重要な存在と言っても過言ではないのが、データセットです。本記事では、保存版として、インターネットで公開されている機械学習用のデータセットをまとめました。まだまだ日本国内では、公開されているデータセットが少ないので、海外で公開されているデータセットも含めています。

常時、リストを更新してますが、もしまだ含まれていないデータセットをご存知の方は、コメント欄にてお知らせ頂けますと幸いです!

【最終更新 : 2018年01月22日】

データセットまとめ系

様々なデータセットをまとめているサイトです。中でもKaggleは特に有名で簡単にデータセットの利用が簡単なので、おすすめです。
  • Kaggle
    データの量・知名度ともに最も有名な予測モデル/分析を競い合うプラットフォーム。企業や研究機関などが様々なデータを公開。英語のみ。無料会員登録必要

*Kaggle関連 チュートリアル*
> Kaggleとは?
> Kaggle 入門 タイタニック予測
> メルカリチャレンジ価格予測チャレンジ
> ホットペッパー予約来客数予測チャレンジ
> Amazon SageMakerとKaggle

  • 国立情報学研究所
    数少ない日本のデータセットを提供。Yahooや楽天のレビューデータセットもあります。原則として研究者またはNTCIR参加者。利用は無料ですが、無料申請および覚書締結あり。
  • Harvard Dataverse
    米ハーバード大学が公開してるデータセットです。オープンソースのデータレポジトリ「Dataverse」のソフトウェアが必要。
  • UC Irvine Machine Learning Repository
    こちらも米カルフォルニア大学アーバイン校が管理しています。現時点で約400件ほどのデータセットが公開されています。知名度も高く、また無料で簡単にダウロード可能。英語のみ。

動画

  • YouTube-8M Dataset
    Googleの研究チームが公開している、700万件の動画が4800件のナレッジグラフのエンティティでタグ付けされているデータセットです。TensorFlow(テンソルフロー)ファイルとしてダウンロード可能。
  • YouTube-BoundingBoxes Dataset
    同じくGoogleから公開されている、動画のBouding Boxがラベリングされているデータセット。24万件のYouTubeの動画のデータセットが公開されています。
  • Kinetics
    DeepMindが公開している、約30万件のYouTube動画に、400種に分類された人間のアクションがラベリングを行ったデータセットです。こちらでデータセットがブラウザからも確認できます。
  • UCF101 – Action Recognition Data Set
    セントラル・フロリダ大学が提供をしている人間のアクション認識を判別するための動画です。101個のアクションラベル(行動の分類)が付与されており、13320動画が分類されています。また各アクションはさらに大枠で5つのカテゴリ(スポーツや楽器を引いてるなど)に別れています。特に会員登録などが必要なく利用が可能ですが、利用される場合はデータ発行元のクレジットの記載が必要となります。
  • AVA
    2017年10月にGoogleから公開された人間のアクションのラベルがついている動画データセットです。AVAとはAtomic Visual Actions(最小単位の視覚的なアクション)の略となっており、他の動画データセットとの大きな違いとして、一つのシーンでも複数のラベルが付与されており、複雑な人間のアクションに対して機械学習を行うことが可能です。利用はサイト上の「Download」リンクより可能です。(捕捉:Googleによると、より詳細のデータセットとなるAVA 2.0も近日公開予定)
  • 20BN-JESTER DATASET V1
    ドイツをベースとしている人工知能スタートアップの「twentybn」が公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。全動画数は148,092ど非常にでかいデータセットとなっており、ラベル数は27個の事前に定義されたハンドジェスチャーのラベルが付与されています。ラベルの例として、「Swiping Left(左へスワイプ)」や「Thumb Up(親指を立てるジェスチャー)」などあります。学術的な研究目的であれば会員登録と規約の同意で利用が可能ですが、商用利用の場合は別途ライセンスの申請が必要となりますので、ご注意ください。
  • Moments in Time Dataset
    米大学MIT(マサチューセッツ工科大学)とIBM ワトソンAIラボが共同で行なっている研究プロジェクトが公開している動画のデータセットです。3秒の動画にアクションラベルが付与されています。動画数は100万、ラベル数は339個あり、かつ全てのラベルで必ず1000以上の動画が提供されています。データセットの利用ですが、特設されてるフォームからお申し込みをして、提供元からの審査があります。

画像

  • MNIST
    おそらく機械学習で誰もが一度は触ると思われる、有名なデータセットです。手書きの文字「0〜9」に正解ラベルが付与されています。データサイズも大きくありませんので、気軽に利用が可能。ちなみに読み方は「エムニスト」です。

*参考記事*
カプセルネットワーク(CapsNet)をKeras で構築してMNISTをやってみました

  • CIFAR-10
    こちらも非常に知名度の高い、トロント大学が公開しているデータセットです。6万件の32×32画像に、10個のクラスがラベリングされています。クラスは飛行機、自動車、鳥、猫、鹿、犬、カエル、船、トラックの10種です。
  • Fashion-MNIST
    60,000のトレーニングセットと10,000のテストセットで構成されている、ファッションの画像が10クラス(例:Tシャツ、ドレス、サンダル)でラベリングされています。ファッションECのZalandoが提供しています。
  • Food 101
    Computer Vision Laboratoryが提供している、101,000個の食品画像を101個のカテゴリでラベリングしたデータセットとなります。会員登録などなく、簡単に利用が可能です。

  • MegaFace
    ワシントン大学が開催している、顔認識アルゴリズムの公開競争となります。ノイズデータを混ぜた顔認識、超大規模なデータセット(67.2万人分、470万枚の画像)の認識モデルの2つのチャレンジが現在行われています。
  • CelebA Dataset
    香港中文大学が提供する、20万人以上の世界中のセレブの顔に、40のアトリビューションを付与したデータセットとなります。アトリビューションの例としては、「メガネ」「帽子を被っている」「笑顔」などです。商用での利用は禁止、イメージのコピーは同一組織内での使用に限りOKですが、その他の使用は原則禁止となります。
  • The FERET Database
    Facial Recognition Technologyの略のFERETですが、1199名の異なる角度の顔が11338イメージ含まれています。アメリカ国防総省が提供しているデータで、利用ですが、リリース規約を読んで、規定のメールアドレスへ同意した旨を送ることで、自動返信で返信が来るようです。
  • VGGFace2 Dataset
    331万件もの大規模なデータとなっており、9131名の画像が含まれています。1名あたりで362.6イメージあります。データセットの利用には会員登録が必要です。特徴として、様々な人種、年齢や職業などバリエーションが意図的に高くなっています。

医療

 


本記事ですが、常時更新をしていきます!本リストに未だ掲載されていないデータセットがございましたら、コメント欄にて御指摘をいただけますと幸いです!


0 件のコメント:

コメントを投稿