「データサイエンス」とはデータの収集から分析、結果の共有に至るまで、データを活用するために必要な知識や技術を総合的に扱う学問です。近年では、「現代社会の『読み・書き・そろばん』」、つまり、現代に生きる誰もが習得すべき重要な知識だとされています。このコラムでは、なぜデータサイエンスがこんなにも重要視されているのか?なぜすべての人がデータサイエンスを学ぶ必要があるのか?という点に注目していきます。
1. 社会で活用されているデータサイエンス
私たちは日々、大量のデータを生み出しています。例えばSNSを考えてみましょう。投稿した文章、写真、動画だけでなく使用時間やフォロー中のユーザー、クリックした広告等もすべてデータです。では、このようなデータを活用できると、どんな良いことがあるのでしょうか?
まず考えられるのが、今までになかった新しいサービスの提供です。例えば、動画配信サイトでゲーム動画を視聴することを考えてみてください。視聴後に、同じゲームタイトルや同じゲームジャンルの別動画がお勧め動画として表示されることがありますね。このようなお勧め機能(レコメンド機能)では、大量の過去の再生データを分析し、動画同士の“似ている度合い”を数値化する技術等を用いることにより精度の高いレコメンドを可能にしています。実際、ある動画配信サービスでは視聴されたコンテンツの75%程度がこのレコメンド機能によるものだといわれています。
また、データを活用し将来の予測をすることもできます。例えばコンビニで賞味期限が切れたお弁当の大量廃棄を防ぎたいとします。このためには、過去の販売実績データだけでなく、天気や気温、近隣の学校・会社の数、駅から店舗までの徒歩での移動時間等のさまざまな要因を考慮できる“お弁当の販売数予測用計算式“を作成する技術を用いることで、精度の高いお弁当の需要予測をするのが効果的だと考えられます。これもデータサイエンスの知識です。
このように、日々大量のデータが生み出される現代社会において、データを活用し社会に大きなインパクトを与えるための知識がデータサイエンスなのです。
2. プロに任せればデータ分析の知識は不要?
ここまで読んでいただいた方のなかには、「データ活用が重要なのはわかったけど、そんなのプロがいれば十分。全員が学習する必要は無いのでは?」と思うかもしれませんね。しかし実際のデータ活用はそんなに簡単ではありません。例えば、ある国内向けスマホゲームのプレイデータを分析することを想像してみましょう。データを確認したところ、国内向けにも関わらず日本人の人口より多い10億件ものIDがあったとします。このデータすべてを分析に使用しても良いでしょうか?
もしかしたら、データ数が多い方が良い分析ができるのでは?と思うかもしれませんね。
しかしスマホゲームをプレイしたことがある方なら、いわゆる“リセットマラソン(登録時にランダムに貰えるアイテム等のなかから希望するアイテムを当てるために、何度も登録・退会を繰り返す行為)”で作成されたIDが大量に含まれている可能性が高く、このままではプレイデータの分析には適さないことに気付けると思います。このようなデータが収集された業界等に関する固有の知識をドメイン知識と呼びます。そしてこのドメイン知識こそがデータ活用の成否を分けることもあるのです。
つまり、今後、社会のあらゆる業種・分野でデータを活用していくためには、誰かひとりだけデータサイエンスのプロがいればどんなデータでも分析ができるのではなく、データサイエンスという“共通言語”を持った各分野の専門家が協力することにより、真のデータ活用につながるのです。冒頭の「現代社会の『読み・書き・そろばん』」はまさにこのことを意味しています。
3. 「データサイエンス入門」のご紹介
最後に私の担当する「データサイエンス入門」について紹介します。本科目では課題の発見から、データの収集、分析、そして結果共有までの一連のデータ活用の流れのなかで、大学生なら誰もが知っておきたいデータサイエンスの基礎知識を紹介します。また、実データを使用した簡単なデータ分析例を実演することで、学習内容をより具体的にイメージできるようにしています。
皆さんが、本科目で学習するデータサイエンスの基礎知識と、本学の他の科目で学べるITやビジネスに関する専門知識を融合させることで、将来、データを活用し社会で大きく活躍する専門性の高い人材へと成長していただけることを期待しています。