2023年11月7日の開催のAI戦略会議において、政府保有データを生成AIの学習データとして使用することを目的に提供を促進するとのアクションプランが策定されました。
政府等が保有するデータは、インターネット上のデータと比べて、作成者・作成時期・作成場所が明確である点が学習データとして有用だと考えられています。また、著作権法上の問題として、あらかじめ公開や二次利用等の承認が得られており、権利処理の問題がクリアできます。
加えて、多様な分野のデータがあり、データ自体の質は正確性に優れており、不適切な情報を含まない点においても有用性が高く、学習データとして利用がしやすくなっています。
さらに、プライバシーの側面においては個人情報が含まれていないデータが使用され、匿名化処理がされているデータが提供されるため、個人情報を機会学習に利用される問題にも対応しています。
提供が予定されている主なデータ
提供が予定されている主なデータとしては、
- 政府の報告書
- 統計データ
- 土地・地図データ
- 判例
- 法令
- 特許情報
- 国立国会図書館の収蔵データ
- 国立公文書館デジタルアーカイブ内の画像保存手書き文書
などなども公開されるようで、幅広いものとなっています。
政府は、これらAI学習データ提供について広報・周知を行うとともに、AI開発者型の学習データに関する相談を受け、学習データのニーズ等の情報を把握・蓄積することにも注力するようです。
加えて政府自らも公的機関が保有するデータを用いてAI学習を試行することで、政府関与のプロジェクトや事業の中でAI学習を実施する場合には、AI学習データに関する課題と解決方法に関する知見を集約させ、公的機関の業務効率やサービス向上が期待されます。
まとめ
従来AI学習用のデータはインターネット公開されているデータを無作為に抽出したデータを用いたり、著作権のない文献データなどを用いられることが多くなされていました。しかし、データの質やプライバシー、著作権法上の問題が多々存在しており、学習データとして用いることがグレーなデータも用いられる問題も指摘されていました。
今回の学習データの提供施策によって、政府公開のAI学習用データがこれらの問題を解消し、さらなるAI技術の発展が期待されます。