巨大テック企業は機械学習を如何に活用しているのか

日時

2019年9月17日(火)14:00-15:30 、16:00-17:30
2019年9月18日(水)11:00-12:30 、14:00-15:30

 

場所

京都大学理学研究科 3号館 108室 
アクセス 建物配置図(北部構内)【5】の建物

 

講師

渡辺 有祐氏(Amazon.com, Inc., Seattle)

 

要旨

近年、アメリカのテック企業では機械学習は欠かせない技術になっている。特に Deep Learning の有効性が示されて以来、その傾向は著しい。
 機械学習に必要なツール・サービスの開発が進み、機械学習は誰でも使えるようになってきてはいるものの、依然として機械学習の専門家が必要とされる場面も沢山残っている。

この講義では、アメリカのテック企業において、機械学習の開発の一連のプロセス ― すなわちデータを集め、モデルを学習し、サービスに組み込み、それを検証する ― がどのように行われているのかを解説する。公開されている実例を交えながら、どのあたりが応用上の勘所で、日々サイエンティスト&エンジニアが注力していのかをお伝えする予定である。また、データと機械学習の活用が、なぜ巨大テック企業にとって有利なゲームなのかも伝わるようにしたい。余談的に、アメリカのテック企業での仕事の様子や、日本企業との文化的な違いなどにも触れる予定である。

 以下のトピックをカバーする計画である: 
- 教師あり学習の基本
- 教師あり学習モデル開発の流れとそれを助けるツール群
- 教師データを集める方法 (人手で集める/自動で集まる)
- 学習したモデルを実データで評価する仕組み (仮説検定)
- 転移学習の基本
- 転移学習が有効なケース
- 様々な問題に応用される機械学習


開催報告

9月17日、18日の2日間にわたってAmazon.com, Inc., Seattle所属の渡辺有祐さんにお越しいただき、「巨大テック企業は機械学習を如何に活用しているのか」という題目で集中講義形式のセミナーを行っていただきました。

 

初日は、Amazon.com, Inc.を中心に4つの巨大テック企業の総称であるGAFAの最近の成長傾向や人事採用傾向など様々な角度から紹介していただきました。その中で機械学習がどのように使われているか、実際の事例に基づいてわかりやすく説明していただきました。そこから機械学習とは何かについて、数式を使った定式化を示し、その特別な場合としてDeep learningの具体的定式化を説明していただきました。Deep learningのアルゴリズムは、一般にその学習ネットワークの組み方によって性能が変わりますが、最近ではより良い性能を持つネットワークを探索する自動アルゴリズムも開発され、アルゴリズム開発の自動化がかなり進んでいる状況を示されました。そのような状況の中で、現実の世界に適用していくためには、機械学習アルゴリズムの学習データ用のデータ取得が肝要であり、データ取得の仕方、コストの面からGAFAなどの巨大テック企業だからこそ取得可能なデータの例について説明していただきました。

 

2日目は、あるデータセットAについて学習済みの機械学習アルゴリズム(事前学習)を、他の種類のデータセットBを学習する際の初期値として使用し、データセットBを学習するコストを劇的に下げるという、転移学習について説明していただきました。現実の世界に適用する際には、多くの場合、事前学習にかかる時間的または経済的コストが大きいことと、またそれに必要なデータセットの性質から、事前学習済みアルゴリズムをGAFA(Facebookなど)からオープンソースで公開されているものを使うことが慣例となっていることなど、転移学習の文脈でも巨大テック企業が機械学習の発展の大きな一翼を担っていることが伝わってきました。

 

現在は、AIや機械学習のコースが大学の部門や教育カリキュラムに急速に導入されていますが、今回の集中講義の内容は、それらに関わる次世代人材のスタンダードな知識となっていくのだろうな、と終始ひしひしと感じながら聞くことができる貴重な機会となりました。
(文責: 太田洋輝)