データセットの活用は、人工知能の開発において非常に重要な項目です。しかし、データセットとは一体何なのか、実際その内容を正しく把握できていないという方も多くいるでしょう。
本記事では、「データセットって一体何なの?」「どんな活用事例があるか知りたい」「データセットってどうやって見つければいいの?」などの疑問を一挙に解決いたしますので、ぜひご覧ください。
AI・機械学習に元も重要なデータセットとは?
データセットとは、特定の目的や対象について集められたデータの集合です。ある一定の形に整えられており、人工知能に学習させる機械学習の際などに活用されることが多く、コンピューターが自動処理するために準備された標本データを指す場合がほとんどです。データセットは3つに分類され、それぞれに重要な役割があります。それぞれを詳しく見ていきましょう。
トレーニングセット
一番最初に用いるデータセットです。最も規模の大きなもので、機械学習アルゴリズムを与えることによって開発モデルのトレーニングを行い、基本モデルを構築します。この、トレーニングセットで得られた結果をもとに、次に進めます。
バリデーションセット
上記で説明したトレーニングセットの訓練を行った後、機械学習アルゴリズムの動きを制御するパラメーター「分類器のハイパーパラメーター」をチューニングをするために活用されるのがバリデーションセットです。その際、様々なハイパーパラメーターに対して同様の訓練を行い、バリデーションセットを使い特にパフォーマンスが優れているものを選択します。
テストセット
その名の通り、最終テスト時に使用する、モデルの制度を確認するためのデータセットですよく前述したバリデーションセットと混同されがちになりますが、パフォーマンスのテストの為だけに用いられるのがですとセットです。同じではありませんので注意しておきましょう。最後に改めて違ったデータで検証する事により、念入りに確認する事が出来ます。
データセットの見つけ方
現在、データセットは多種多様なものが存在しています。しかし、どんなデータセットでも使えばいいという訳ではありません。最も大切なのは、数多くある中から自社に合った最適なデータセットを正しく選別するという点です。そこで活用すべきなのが、データセットをまとめているサイトの存在です。ここでは、様々なデータセットをまとめている特に有名な代表的サイトを厳選して5つご紹介致します。
Kaggle
政府や企業などの組織と機械学習エンジニアやデータ分析をするデータサイエンティストを繋げるためのプラットフォームです。登録も無料なため活用しやすく、様々なデータセットをダウンロードできますが、英語のみに対応となっているため注意が必要です。
DATA GO JP
日本の政府が公開しているデータセットがまとめられたサイトです。国民一人一人の生活状況や企業活動などの公共データを公開しており、横断的な検索も可能となっています。営利目的の二次利用も認められているため、多くの企業が活用している代表的なデータセットのまとめサイトと言えます。
国立情報学研究所
NII(国立情報科学研究所)が公開しているデータセットです。研究者に向けて、大学や民間企業のデータを提供しています。無料の利用が可能ですが、NTCIR参加者、もしくは研究者の利用が原則として定められています。利用する際は申請をする必要があるので注意してください。
Google Dataset Search
Googleが提供しているデータセットの検索サービスです。Google Dataset Searchは2020年に提供がスタートしたばかりでまだ比較的新しいデータセットとなります。しかし、世界各国の研究所や行政がネット上で気軽に検索する事が出来るため、新しいながらもその利用者は非常に多く、Googleが提供しているという事もあり大きな安心感もあります。
楽天データセット
大手企業である楽天の技術研究所が提供しているデータセットです。公的の研究機関や大学に向けた公開を行っており、楽天に掲載されている商品のレビューやアノテーション付き文字画像など豊富なデータが提供されています。無料で利用できますが、使用するためには登録が必須となります。
データセットの活用事例
データセットは様々な活用事例があります。実際の例を正しく知ることで、データセットの効率的な活用方法を知ることが出来るでしょう。ここでは、3つのデータセットにおけるリアルな活用例をご紹介致します。
日本古典籍データセット
「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」において、源氏物語や徒然草など、誰しも一度は聞いたことのある日本古典の名作を含むデジタル化された古典籍画像などを公開しています。日本古典籍データセットの活用例では、2018年、インフォコム株式会社から発売されたカレンダーでは、データセットの画像を利用したものが作成されました。
また、株式会社ハースト婦人画報社から発刊されている「婦人画報」では、光琳画譜の仔犬を使用したステンシルが作成されました。戌年の年賀状に合わせて付録として付属され、3つの表情がそれぞれ優し気で非常に人気を集めた付録です。
SSDSE(教育用標準データセット)
独立行政法人統計センターが公開しており、統計教育やデータサイエンス演習などの統計データです。SSDSEは、日本統計協会の月刊誌「統計」において、授業に使える統計教材のデータとして活用されました。2019年から2020年まで、合計12回も掲載されています。SSDSEは地域別、都道府県別、都道府県県庁所在地別など、分類が様々で正しくされているため、授業の教材としての活用も可能となります。
日本政府の公共データセット
「推奨データセット」という政府が推奨するデータセットがあります。推奨データセットは様々な分野のものがあり、公衆トイレの一覧、介護サービス事業所一覧、無線LANアクセスポイント一覧など、多くのデータを閲覧する事が出来ます。
例えば介護サービス事業所一覧を参考に、ミルモというアプリが開発されました。これは福祉に関するデータを収集し、行政と連携をとることによって簡単に情報検索が出来るアプリです。また、消防水利施設一覧データセットの場合、火災が起きた際にその場所から近い水利を迅速に検索可能なアプリ「全国水利台帳」が開発されました。
データセット活用の注意点
豊富なデータを無料で活用することのできるデータセットですが、使用する際には注意すべき大切なポイントがあります。データセットを適切に正しく活用するためにも、この注意点に関してはしっかりと押さえておくようにしましょう。
適切なデータセットの選択
データセットは非常に豊富な種類があるため、その中から用途に合わせた目的のものを正しく選択する必要があります。この選択をしっかりと行わなければ、イメージした通りの機械学習アルゴリズムを実現させることは出来なくなってしまいます。また、機械学習の性能をより高めるためには、なるべく平均的なデータを選択するという事も大切になります。
使用しないデータの削除
様々なデータセットから適切なものを選ぶ際には、実際に使用するデータ分別は人の手で行う必要があります。検証の際、もしも解析しにくいデータが含まれていると、システムの精度が低くなってしまうという事があります。余計なデータが含まれることで精度低下を引き起こす原因を作ってしまいますので、使用しないデータはその都度必ず削除するようにして下さい。
著作権
人工知能の機械学習では、豊富な種類の画像データやテキストデータを扱います。そのため、データの著作権関連に関しては常にしっかりと気を配らなければいけません。特に商用利用の際には、この著作権に注意した上でデータの利用をしてください。データセットはそのほとんど商用利用に支障がないものではありますが、活用する際には著作権の確認は必ず行うように癖をつけておくと安心です。
完成後も検証や改善をする
完成したとしても、それで常にベストな状態であるという訳ではありません。完成したからと言ってそのまま放置せず、定期的に検証や改善をしていく事が肝心です。使用しないデータなどがあった場合はすぐに削除し、ベストな状態を保てるようにしておきましょう。
まとめ
データセット(data set)は、機械学習に最も重要なポイントです。莫大なデータを学習させることにより、人工知能はより精度を高めていく事が出来るでしょう。今後さらに開発需要が高まっていくであろうAI・人工知能において、こうしたデータセットは欠かせない要素となっています。まずはデータセットが何なのか、どのようなものがあるのかをよく理解し、本記事で紹介したような例を参考に、ぜひ色々なデータセットを効率よく活用していきましょう。