企画名

理学におけるデータ科学実践:機械学習で自然科学を読み解けるか
 

参加教員

教員名 所属 職名
中野 直人(代表教員) 理学研究科 連携講師
宮路 智行 数学・数理解析専攻 准教授
その他調整中    
 

企画の概要

問題意識:実験や観測からデータを取得してそれを解析することは,自然科学のいずれの分野においても普遍的に必要とされることである.昨今は機械学習などのデータ科学的手法が発達し,計算機能力の向上に伴い,様々な目的でデータが潜在的に持つ情報の抽出が試みられている.特にBioinformatics, Cheminformatics, Materials informaticsは発展が目覚ましい.他の分野でも機械学習の適用の機運は高まり,機械学習コミュニティの参入で,新しい手法は矢継ぎ早に生み出されている.それらが生み出す成果は玉石混淆かもしれないが,真贋を見極めるためにもそれらの手法の何たるかを知っておく必要がある.

 

本SGの目的:そのため本SGでは,データ科学的手法を,簡単なものから発展的なものまで,とにかく習得することを目的とする.さらに,既存手法との比較による再確認,既存手法では得られない新たな理解,ここで学ぶ新しい手法ではできないこと,手法の数学的構造,などを整理することで,各手法の本質の理解を目指す.とはいえ,最重要なことは何はともあれ機械学習ができるようになることである.

 

参加要件:どの専攻,どの系でも構わない.興味のあるデータや手法があれば良い.具体的な課題やデータがあれば尚良い.

 

SGの進め方:まず各手法の大まかなサーベイを行ってデータ科学を俯瞰した後,サンプルデータで手法に慣れるようにする.その後は,個人もしくはグループで課題を設定して進めることとする.設定課題は,自身の研究室の課題に必ずしも限定しない.Kaggle等のデータサイエンスコンペティションへの参加もその範疇に含めて良い.ミーティングは隔週程度の頻度で開くこととし,その場では新しい手法の習得やそれぞれの設定課題の進捗状況を報告して,SG全体で共有することとする.


実習について:本SGでは機械学習の手法に主眼をおくため,主にPythonを用いて実習を行う.ミーティングの初回にチュートリアルを行うなど,計算環境の準備も行う.このSGではとにかく手を動かすことが重要であるため,参加者には各自でプログラムを組んで主体的に活動することを強く期待する.実習を進めるにあたってはプログラミングスキルや機械学習の経験差の影響が出やすいが,経験者がTAとして参加するようであれば,2018, 2019年度のSG11のコンテンツを用いた初心者用速習コースも設置可能である.コンテンツ自体はSGのページで公開する予定で,コースの整備にも力を入れたい.  

代表教員の個人的な興味:個人的には画像診断,時系列解析に興味があるが,Generative Adversarial Networks (GAN)などの生成モデルと強化学習を組み合わせたり,Convolutional Neural NetworkにReservoir Computingのアイディアを混ぜたりすることでモデルフリーのシミュレータをデータ駆動的に構築することをやってみたい.

 

実施期間・頻度 

隔週

 

TA雇用の有無


 

問い合わせ先

中野 直人 n_nakano*math.kyoto-u.ac.jp
(*を@に変えてください)
 

スタディグループへの登録は締め切りました。
関心のある方は macs *sci.kyoto-u.ac.jp(*を@に変えてください)までご連絡ください。

 



Figure 1: 内部結合をランダム行列で与えた場合の誤差のcontour plot.ランダム行列の各成分を平均 J0/N,分散 J2/N で取り(Nはサイズ),(J0/J, 1/J) の常用対数軸の相図を用いた.黒点線はスペクトル半径の期待値が1の等高線.上段は学習誤差,下段は汎化誤差.誤差の傾向はスペクトル半径に対して一様ではなく,さらに相の3重転移点(この図では中心)近傍で誤差の極小を取ることがわかった.


 

 

活動報告

活動目的・内容

【活動目的】データ解析手法としての機械学習は自然科学の分野でも市民権を得てきている.見た目の華々しさも伴い脚光を浴びているが,なぜそれが学習できるのかは完全には理解されていない.単に写像の近似といえばそれまでだが,学習に対する理論的な理解なしでは単に手法を当てはめただけに過ぎない.代表教員としてはそれではつまらないので,本SGでは理論的に学習可能性について考察を進めることを目的とした.

【内容】本SGでは全てオンラインで活動を行なった.基本的な情報交換はSlack,コードの共有は GitHub,進捗や計算結果の共有はMiroを用い,隔週程度の頻度で Zoom で打ち合わせした.計算の使用言語は主に Python,開発環境は Jupyter Notebook を用いた.後に大規模計算が必要になり大型計算機センターのスパコンを利用したが,その並列計算環境の都合から Fortran を用いた.参加院生の2名はTAとしてコードの開発,数値計算データ作成のみならず,背景の物理の知識を活用して理論的な議論に至るまで非常に積極に参加してくれた.

 

活動成果・自己評価

【活動成果】本SGでは再帰的ニューラルネットワークの1つである Echo-State Networkに着目した.この手法はネットワーク内部の結合はランダムのまま,出力写像のみ学習する.学習可能性は内部ネットワークの設計に依存するため,ランダムネットワークの性質を詳しく調べることをTAから提案してもらった.さらに統計物理の模型の理論のアナロジが効くのではないかというアイディアを提示してもらい,その視点での研究を行った.この分野ではしばしば「edge of chaos」が重視されているが,これに対しての新たな知見を得ることができた.

【自己評価】今年度はコロナ禍で前年度のような活動はできず,参加登録者全員の希望に沿うことはできなかったのは残念だった.一方でTAが自走してくれたのは大きな助けとなった.TAの2人はふんだんに彼らの背景の物理のアイディアを注入してくれており,今年度のSGで一番多く学ぶことができたのは代表教員かもしれない.分野横断で実を結ぶには相互の理論を基に議論を繰り返し交わすことが必要不可欠だということを再認識できた.

 

参加メンバー

氏名 所属 職名・学年
中野 直人(代表教員) 理学研究科 連携講師
宮路 智行 数学・数理解析専攻 准教授
兎子尾 理貴 物理学・宇宙物理学専攻 D1
春名 純一 物理学・宇宙物理学専攻 D1