機械学習の勉強に使えそうなオープンデータのメモ。

  • テキスト
    • WordNet: 英語の語彙データベース。名詞、動詞、形容詞、副詞ごとに階層的にグルーピングされたDBが提供されている。ライセンスはWordNet Licenseで、著作権表示さえしておけば、目的の制限なく、使用、複製、改変、再配布を無料でできる。
    • 日本語ワードネット: 日本語版WordNet。ライセンスはJapanese WordNetライセンスで、著作権表示さえしておけば、目的の制限なく、使用、複製、改変、再配布を無料でできる。
  • 画像
    • ImageNet: WordNetの名詞の階層構造に従ってラベル付けされた1400万個以上の画像データ。バウンディングボックスも付いてる。画像はFlickrとかに上がっているもので、そこから自分で無料でダウンロードできる。非商用(研究か教育)目的ならImageNetのサイトから画像をダウンロードできる。
    • Open Images: 900万個の画像に数千クラスのラベルとバウンディングボックスを付けたデータ。ライセンスはCreative Commons BY 4.0。
    • MNIST: 手書き数字のラベル付きデータセット。訓練データとテストデータ合わせて7万個。機械学習のHello Worldに使われる。
  • 動画
    • YouTube-8M: 800万個のYouTube動画を4800クラスでラベル付けしたデータ。ライセンスはCreative Commons BY 4.0。
    • YouTube-Bounding Boxes: 24万個のYouTube動画に23クラスのラベルと560万個のバウンディングボックスを付けたデータ。ライセンスはCreative Commons BY 4.0。
    • Atomic Visual Actions(AVA): 5.76万個のYouTube動画を、80種の動作についてラベル付けしたデータ。ライセンスはCreative Commons BY 4.0。
  • 音声
    • Speech Commands Datase: 6.5万個の1秒音声データで、30種の言葉を数千人が発音してる。ライセンスはCreative Commons BY 4.0。
    • AudioSet: 200万個の10秒音声データで、527クラスでラベル付けされてる。ライセンスはCreative Commons BY 4.0。
  • データカタログサイト
    • DATA GO JP: 日本政府が公開してる公共データ集。
    • UCI Machine Learning Repository: 現時点で426のデータセットが配布されている。有名なアヤメのデータセットのソースはここ。
  • 単語ベクトル
    • HR領域の単語ベクトル: 約9.95億個の日本語のHR系の単語からWord2Vecで学習した単語ベクトル。ベクトル長は100か200。
  • 学習済みモデル
    • Caffe Model Zoo: Caffe用のモデル集。
    • Detectron Model Zoo: Facebookが開発した物体検知モデルの学習済みモデル。Caffe2。ライセンスはCC BY-SA 3.0。