企画名

理学におけるデータ科学実践:機械学習で自然科学を読み解けるか

参加教員

教員名 所属 職名
中野 直人 理学研究科 連携講師
余田成男 地球惑星科学専攻 教授
その他調整中    

関連専攻

専攻名  
数学・数理解析
物理学・宇宙物理学
地球惑星科学
化学
生物科学
●:参加教員の専門分野(所属専攻)・学生を募集する主な分野(専攻)
○:学生・教員から希望があれば参加可能な分野(専攻)
 

実施期間(開講曜日・時間等)

年度・期 開講曜日 時間 場所
平成30年度・通年 未定(月1・2回) 未定 未定

企画要旨・目的

実験や観測からデータを取得してそれを解析することは,自然科学のいずれの分野においても普遍的に必要とされることである.昨今は機械学習などのデータ科学的手法が発達し,計算機能力の向上に伴い,様々な目的でデータが潜在的に持つ情報の抽出が試みられている.しかし,実際の理学研究においてもこれらの手法はどこまで有効なのであろうか.本SGでは,データ科学的手法を簡単なものから習得して,データ科学を身近なものにすることを目的とする.さらに,既存手法との比較による再確認,既存手法では得られない新たな理解,ここで学ぶ新しい手法ではできないこと,手法の数学的構造,などを整理することで,各手法の本質の理解を目指す.

具体的なSGの進め方としては,まず各手法の大まかなサーベイを行ってデータ科学を俯瞰した後,サンプルデータで手法に慣れるようにする.その後,数名ごとの班に別れて機械学習的手法を実践する.各自が実習課題を持つこととし,月に1・2回のペースで結果を持ち寄り全体で議論をおこなう.数学的構造について検討し,手法の改善や対象範囲を理論的に整理する班も設置可能とする.解析に用いるデータは,各自の研究に関わるデータを持ち寄るか,興味のある分野のデータの提供を受けるなどする.本SGでは機械学習の手法に主眼をおくため,RやPythonを用いて実習を行うが,初めのサーベイ時にチュートリアルを行うなど,計算環境の準備も行う.専門分野毎に得意とする理論や手法があるため,本SGを介して専攻横断的に方法論の共有も行えると尚良い.

問い合わせ先

中野 直人 n_nakano*math.kyoto-u.ac.jp
(*を@に変えてください)
 

スタディグループへの登録は締め切りました。
関心のある方は macs *sci.kyoto-u.ac.jp(*を@に変えてください)までご連絡ください。

 


Reservoir Computing (RC) について。RC は入出力の時系列データからそれを再現する機械学習手法。左上:11月5日のSUURI-COOLでの様子。RCを実装中。右上:RCの学習方法の概要。左下:出力の推定方法の概要。右下:closed loop 時の予測方法の概要



 

TensorFlowを用いて AutoEncoder を実装。 図は MNIST 手書き文字データセットを2次元で Encode した結果。AutoEncoderはデータセットの低自由度(非線形)表現を目的とした教師なし学習手法の一つ。



 

強化学習の一つである方策勾配法を用いて、迷路を迷うことなく出口まで到達するエージェントを作成した。教師データがなくとも、ストラテジがわかっている場合のモデリングや生存戦略等の理解につながる可能性がある。

 

報告会資料ダウンロード(4.93MB)

活動目的・内容

【活動目的】実験や観測からデータを取得してそれを解析することは、自然科学のいずれの分野においても普遍的に必要である。昨今は機械学習などのデータ科学的手法が発達し、計算機能力の向上に伴い、様々な目的でデータが潜在的に持つ情報の抽出が試みられている。理学研究科にはデータが豊富に存在しており、それらの現実に得られるデータに対する機械学習的手法の適用範囲の調査は大いに有意義である。本SGではそれに繋げるための手法の習得を行った。データ科学的手法を簡単なものから順次習得し、自在に各手法を活用可能になることが第一の目的である。既存手法との比較検討や手法の理論的考察を含め、包括的に整理することで、各手法の本質の理解につなげ、自然科学を読み解く「学習」の体得が第二の目的である。

 

【内容】本SGでは参加希望者が多かったため、前期期間は2つのグループに分けて実施した。Group Aは4回実施し、主に北部総合教育研究棟2階のSUU RI-COOLを利用、人数は各回8〜15人である。 Group Bはこれまで3回実施(1回はGroup Aと合同)し、理学研究科6号館208情報演習室を利用、人数は各回5〜6人。後期期間は1グループのみSUURI-COOLにて4回実施、人数は各回4〜7人であった。各回の演習内容としては、言語はPython、開発環境はJupyter Notebook を用いて、初心者でも導入が容易となるように配慮した。

 

活動成果・自己評価

【成果報告】参加者の簡便性を重視し、SGミーティングは代表教員が準備したサンプルプログラムをなぞる形で実施した。内容としては、機械学習手法ライブラリである scikit-learn を用いて、多層パーセプトロン(MLP)、決定木等の一通りの解析手法を習得した。また、深層学習に特化した環境を提供するTensor Flow を導入し、AutoEncoderと畳み込みニューラルネットワークの手法を習得した。時系列解析で用いられる Reservoir Computing と方策勾配法による強化学習をライブラリの利用なしで実装した。各自で取り組む問題としては、気象庁55年長期再解析を用いた相関の抽出、理学研究科附属地磁気世界資料解析センター提供の気象庁柿岡地磁気観測所のデータからのパターン抽出、決定木・MLP による回帰で必要層数の調査、画像解析手法を用いた乱れたトポロジカル超伝導体の相判定研究の再現等が挙げられる。

 

【自己評価】登録学生の所属専攻や系は数学、物理、地球物理、化学と幅広く、専門分野を問わず機械学習的手法の潜在的ニーズの実態が顕となった。学生の学年も2回生から博士課程までと多岐にわたり、どの学習・研究段階においても普遍的な興味の内容であることも窺い知れた。SGの問題点を挙げると、前提知識のあるなしが大きく作業効率に響いたことである。サンプルプログラムはSG内で共有したが、プログラミングに不慣れな参加者にとっては依然として自在に扱えるまでのハードルは高かったようだ。また、ミーティングの時間が十分取れず、作業は各自に任せていたため、学生の興味を満足に伸ばせられなかったことは残念に思っている。学生との議論や指導の在り方と教員と学生双方のSGでの時間の使い方については今後検討すべき課題である。

 

参加メンバー

氏名 所属 職名・学年
中野 直人 理学研究科 連携講師
余田 成男 地球惑星科学専攻 教授
田口 聡 地球惑星科学専攻 教授
宮崎 真一 地球惑星科学専攻 准教授
市川 正敏 物理学・宇宙物理学専攻 講師
能勢 正仁 地磁気世界資料解析センター 助教
石塚 裕大 数学・数理解析専攻 MACS特定助教
MITRA, RIMALI 地球惑星科学専攻 研究生
更科 明 数学・数理解析専攻 D2
上野 賢也 生命科学研究科 D1
吉野 将旭 数学・数理解析専攻 D1
佐々木 裕文 数学・数理解析専攻 D1
小林 沙織 物理学・宇宙物理学専攻 D1
別所 拓実 物理学・宇宙物理学専攻 M2
大井川 智一 地球惑星科学専攻 M2
原 将太 地球惑星科学専攻 M1
岡田 凌太 地球惑星科学専攻 M1
Cai Zhirong 地球惑星科学専攻 M1
高須 浩平 地球惑星科学専攻 M1
長房 勇之介 地球惑星科学専攻 M1
村上 涼 地球惑星科学専攻 M1
佐藤 健人 数理科学系 B5
小金丸 和穂 数理科学系 B4
渡邊 絵美理 生物科学系 B4
多胡 徹也 生物科学系 B3
澤崎 義仁 理学部 B2