NeurIPS2018読み会@PFN 聴講メモ(テーマ発表)

先日 1/26に NeurIPS2018読み会@PFN に聴講参加してきました. この投稿はそのメモ(+振り返りでの補完)にります.

実はブログに公開するつもりはなかったのですが, 用事で参加できなくなった会社の先輩に「後でメモを共有して欲しい」と言われてメモの整理のために振り返ってたらやたら時間がかかったので「これだけ労力かかったしブログにも載せとくか」というのが背景です.

あくまで「こんな発表があったよ！」という雰囲気が伝わればいいかなというものなので, リンクを張っている資料などと一緒に見る前提です. できるだけ論文のリンクも張りました.

イベントの内容としては

NeurIPS2018 全体の概要についての発表
特定のテーマに関する発表: 5件
個別論文に関する発表: 9件(ただし1件は発表者が体調不良(インフル?)によりスライドのみ上がっている)

です.テーマ発表に関しては少し長めに, 個別論文に関しては一口メモ程度... という予定だったのですが, テーマ発表振り返るだけで力尽きたので個別論文紹介に関してはまとめるにしても別の記事にしようと思います. (そうしないといつまで経っても公開できないので... )

※僕の興味の程度(& 集中力)によって詳細度が大きく異なります(特にテーマ1: disentangled representations は「めっちゃ興味があった+一番最初のテーマ発表で集中力があった」ので後から見返すとメモが異常に詳しい)。詳細を知りたい場合はスライドを参照。

NeurIPS全体概要
テーマ発表1: Generative Adversarial Networks and Disentangled Representations @ NeurIPS2018
テーマ発表2: Automatic Machine Learning @ NeurIPS2018
テーマ発表3: Neural Networks for Graph Data @ NeurIPS2018
テーマ発表4: Reinforcement Learning @ NeurIPS2018
テーマ発表5: Modeling the Physical World @ NeurIPS2018
- 概要
- talk
感想

NeurIPS全体概要

発表者: 比戸将平さん(PFN)
資料: 多分未公開

今年のトピック：名前が変わった

ロゴも一緒ならURLも一緒.結構混乱が起こっている感じ
「皆さんもNIPSって言っちゃいそうになると思うので, 30回ぐらい NeurIPS と唱えてください」
経緯としては,
- 前々回ぐらいの閉会パーティで下ネタジョークが飛び問題が表面化
- 変えようとして案がいくつか出たものの多数の合意が取れる案がない
- NIPS のままにすると宣言 => 炎上
- 苦肉の策として,名前を読み変えることで一応の決着を見た

統計情報

参加者数: 〜9000人
- 前回同様チケットが一瞬で売り切れた(workshop用に席を残していたためでもあるらしい)
- 大分伸びは落ち着いている(資料のグラフより). AIブームの落ち着きを示しているか..?
論文投稿数: 昨年の1.5倍
- 参加者数と比べてとても伸びている
- こちらの勢いはまだ衰えなさそう
発表形式について
- 有名な話ですがほとんどが poster
- oral に関しては発表者が豆粒みたいな距離になる広さ(写真見るとでかいライブ会場みたいな距離感)
- poster 会場は前回の反省を踏まえてレイアウトが改善された
  - poster 間の間隔がとても広くなった
  - 発表の時間・場所に調整を加えた
  - それでも人が多すぎて発表者に話しかけることがほぼできない状態
  - 気になった poster の写真撮りながらぐるっと回る感じ
- 話者「じゃあ行かないでいいのかと言うと,行った方が良い」
  - poster はぱっと見わかるように作られてるので, ぐるっと回るだけでもかなり為になる
  - もちろん, 気になったやつの論文を後で読むのは必須である

資料など

tutorial や invited speak は web上に上がっている
その他 web に発表videoや発表資料が上がっている場合もあるので, 気になる論文があれば調べると良い

その他

Expo day: 企業の出展的なもの. 丸一日使っている
深層強化学習の再現性に関する批判の talk がされた
- twitter などでも画像が出回った気がしますが,Hyper Parameter の決め方が謎だったり統計的優位性が確認されなかったり validataion, test の切り方がしっかりしてなかったりと闇が多い.
- 話者:「特にハイパラの決め方とかDeepMind が完全に隠してるので, アカデミアから DeepMind への批判みたいにも聞こえる(笑)」

#NeurIPS2018 Eye-opening survey result on the reproducibility on deep RL papers by Joelle Pineau. pic.twitter.com/1o0FCZphc1
— Shohei Hido (@sla) 2018年12月5日

開催場所について
- 2019-2020 はバンクーバー. これは元々NIPSが始まったのがバンクーバーであることから原点回帰らしい
- 2021 はエチオピア. アフリカ開催は史上初で, 「AI技術を全世界に」と言う意図があるとのこと

テーマ発表1: Generative Adversarial Networks and Disentangled Representations @ NeurIPS2018

発表者: 濱田晃一さん(DeNA)

毎年この読み会でGANについて発表しているらしく, 恒例らしい
DeNA 全サービスを対象として, 大規模機械学習を活用したサービス開発を行っている
今回のテーマである「Disentangled Representations」は話者がDeNAで行っている新キャラクター生成・アニメーション生成とかなり関連があるとのこと

資料: slideshare

はじめに

GAN については,生成について近年凄まじい品質向上が実現している
論文数の推移
- 2014: 1(original)
- 2015: 1
- 2016: 6
- 2017: 34
- 今年の場合: 60本超
上記はあくまで GANs がメイントピックである論文で, 性能向上のために使用している論文はもっと多い
=> 話者曰く,「GANs や Adversarial Training はそれだけ広く使われる学習の方法論となっている」とのこと

GANs と Disentagled Representations の関係

GANs のおさらい
- Generator と Discriminator を戦わせて生成精度の向上を図る
- 均衡に至ればきっと真の分布になる(はず)
生成のクオリティはどんどん向上している
- 大きな画像(1024x1024)の安定的な生成を実現した progressive GANs
  - Generator と Discriminator を進歩的に成長させる(※「進歩的に」の意味をよくわかってないです)
- class Conditional な生成で多様な高品質画像生成を実現した BigGAN
  - ここに至るまでに, 様々な(ヒューリスティックなものも含めた)テクニックが蓄積され学習の安定性が増してきている
  - 学習の方法論が大きく進展したとも言える

話者:「NeurIPS2018で単に「GANsの生成品質を向上する」というだけの採択論文はもう一本もない => GANs の研究は次の stage に移りつつあるということ

GANsに未だある課題: 人の全身のような複雑な構造の生成は困難
- 高品質に生成するだけでは解決できない
- コンテンツ・構造と言った, 潜在的に独立な要素・表現を制御した生成が重要になってくる
  - 例: 人物写真について「その人が誰であるか」と「その人の姿勢」は独立(なはず)
- 潜在的に独立な要素・表現 => disentagled representations
関連
- Progressive Structure-conditional GANs (ECCVW2018) <= 話者らの研究
  - 各解像度で構造の条件付けを行い,Generator と Discriminator を進歩的に学習させる
  - 構造とコンテンツ表現を独立に表現. キャラクターの全身といった複雑な構造での高解像度生成を可能に
  - キャラクター生成・アニメーション生成に使用している
- Style-Based Generator
  - 各解像度で表現を学習する
  - 低解像度で姿勢や髪形といった構造変化(大まかなもの)の表現を獲得
  - 高解像度で色や表情といった詳細変化(細かいもの)を表現を獲得

NeurIPS2018 での GANs and disentagled representations(論文紹介)

disentagled representations の観点で, 話者が選んだNeurIPS2018の論文(5本)を紹介

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification

論文リンク
pose と person identity の表現分離
person の re-identification の SOTA を達成
任意のperson に対して任意の pose の image 生成できるように学習する
画像から抽出する identity 情報に pose 情報が混ざらないようにするのが重要

Unsupervised learning of Object Landmark

論文リンク
タイトル通り,教師なしの object landmark 学習
味噌となるのは, 同一の対象物の構造が異なる画像ペアを用いて学習をすること
- それぞれの画像から identity と landmark の表現を抽出
- identity と kandmark 特徴からそれぞれの画像を再構成して reconstruction loss を計算
- 画像ペアの identity 特徴同士は同じものを指しているはずという仮定から content loss を計算
教師なしの facial object landmark detection で SOTA を達成.
- identity(誰であるか)とlandmark の表現を分離することが性能向上につながっている(はず)

A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation

論文リンク
※この論文は個別論文紹介でも紹介されているので, 更に詳しい資料があります.
cross domain で共通表現と domain 固有表現を分離・学習する
連続的な cross-domain image translation
特徴
- encoder は domain によらない共通表現のみを抽出
- decode(generator に通す) 時に,domain を示す vector (one-hot vectorらしい)をくっつけて生成を行う
個別論文紹介の方でもQAがあったし僕も思ったのですが,domain を示すのが one-hot vector だと Generator の負担が大きすぎる気がします

Image-to-image translation for cross-domain disentanglement

論文リンク
こちらもcross-dmain. 共通表現と domain 固有表現に分離を行う
特徴的なのは Cross Domain AutoEncoder
- 異なるドメインから共通表現が一致している入力ペア(x, y)を取得
- x, y それぞれについて共通表現と固有表現に分離
  - 例: 数字(共通表現)と背景(ドメイン表現)
- 共通表現を入れ替えてくっつけて再生成を行う
  - => 共通表現は一緒のはずなので,入れ替えたとしても元の画像が生成できるはずというアイデア
応用例
- 共通表現:物体の種類(car, chair), ドメイン: 向き(前 <=> 側面 <=> 後ろ)
- 共通表現:地図情報, ドメイン: 表現方法(通常の地図表現 <=> 航空写真)

Unsupervised Adversarial Invariance

論文リンク
予測のための特徴表現を任意のノイズから分離したい
予測のための特徴を e1, ノイズ特徴を e2 としてお互いを予測できないように分離・学習を行う
- ノイズとラベルが独立であるという仮定のもとだと思います
- ノイズが観測点に依存していて,観測点ごとに予測に寄与するものが違うとしたら話は変わるかも
  - ただこの場合も,観測点に依存しない予測を行うという意味では有効かもしれないです

宣伝

2/6 の DeNA TechCon 2019でも関連する内容(アニメ生成)を発表するとのこと
- これ全体的に面白そうなので誰か行きませんか?僕はちょっと予定的にきつそうです...
GANsを用いた新たな価値提供に一緒に挑戦する人を募集中

Q&A

数学的な定義はあるか？ => A. ないのではないか
- 生成対象に対して, ある表現を固定したときに独立である表現?
- 予測したい表現と潜在的に独立と考えられる表現?
学習の安定性の話は解決したのでしょうか? A. まだです
- 任意のモデルで収束できるかというとそうでもない
- 色々な収束テクニックを用いてうまくいくようにしている(Big GAN の発展の過程は色々なものを組み込んでいる)
- 限られた条件下でうまくいく方法がたくさんある

テーマ発表2: Automatic Machine Learning @ NeurIPS2018

発表者: 佐野正太郎さん(PFN)

optuna を開発している方
Google AI Open Images - Object Detection Track で準優勝したPFDetチームの一人
kaggle meetup#05 (PFDetの取り組み)でも chainer meetup#08(optunaの機能) でも発表されていた

資料URL: slideshare

what is AutoML?

めっちゃざっくり言うと: data を与えるといい感じのモデルが返ってくると言うもの
主に以下の3つが考えられる

Hyper Parameter Optimization(HPO): ハイパラの自動探索
Neural Architecture Search(NAS): ネットワーク構造を自動探索
Meta Learning: 異なるタスクのdataを有効に用いる

AutoML@NeurIPS2018

tutorial は上にあげた HPO, NAS, Meta Learning の三部構成
本会議: 特に meta learning 寄りの話が多かったらしい
関連WSもいくつか存在

HPO@NeuriPS2018

Bayesian Optimization と Meta-Learning を組み合わせる話が多い
本会議で10本程度の発表
WS(Sytems for ML) ではシステム化・並列化・評価戦略の話など

NAS@NeurIPS2018

連続最適化への落とし込み, semantic segmentationへの応用
本会議で4本程度の発表
2019年は AutoDL コンペが開催される

AutoDL…Neural Architecture Searchのコンペ…GPUの数の殴り合い… #neurips18yomi
— Yusuke Uchida (@yu4u) 2019年1月26日

Meta Learning@NeurIPS2018

MAML(Model-agnostic Meta-Learning), Few shot learning, Transfer Learning などが keyword.
本会議で20本以上の発表があった
WS も大盛況だったらしい

Conpetition Track: AutoML3

複数の table data task を解くコンペ
副題は「AutoML for Lifelong Machine Learning」であり,データが時系列で変化するなど「持続性」も問うている
Tree-parzen estimator(HPOの一種) + GBDT が上位を占めた

論文紹介(2本)

Massively Parallel Hypaerparameter Tuning

論文リンク
HPO系の論文. 本会議ではなく Workshops on Systems for MLからの紹介
- HPO では探索戦略と評価戦略が重要になるが,この論文は後者の話が主
一言で言うと：Successice halving (SHA) を非同期並列にすることで高速化
- SHA は学習曲線を用いた枝刈り手法.(optuna にも導入されている)
  - 学習曲線による早期終了を,最適腕選択のバンディッド問題に帰着させて解く
    - 少しの iteraton だけ各 setting を試す (rung1) => 上位を残す => また少し回す (rung2)=> 上位を残す ... を繰り返す
  - 都度都度の評価で,うまくいかなさそうな setting の学習を打ち切る
- シンプルかつ高性能であるこの手法を更に効率的にすることが目的
今回の論文は SHA を更に並列化する
- 一番 simple なのは各ワーカに同じ rung(stage) のものを割り当てる(Synchronous SHA)
- ただし,worker ごとの処理時間が異なると空き時間が発生してしまう
  - 特に学習時間に影響を与えるようなハイパラを探索する場合はよくある話
- そこで, 暫定で昇進させるという処置をとる(つまり非同期に並列SHAを行う)
  - 利点: 同一 rung (stage)を待つためのボトルネックを解消
  - 欠点: 暫定順位で評価してしまうと mis-promote が発生
- config の数・並列数が増えるにつれて改善すると論文では主張
実験
1. 並列化なしの場合 => single node だとただの劣化
2. 並列化した場合 => 高速に優れたconfig を発見

Neural Architecture Optimaization

論文リンク
関連: Neural Architecture Search
- NASNet の名前を聞いたことがある方は結構居ると思います
- 構造を文字列に置き換えて, 強化学習で探索を行う
  - 全体像は固定で,ローカルな構造だけ探索していた
- ImageNetに対し, 人間が tuning したモデルでの SOTA を超える結果を残した
- ただし「気持ち悪い構造ですよねえ」by 話者
論文の特徴を一言で言うと: Neural Architecture Search に連続最適化を適用する
- NASNet は構造探索が離散的だったため、組み合わせが爆発する
- そこで問題を連続最適化に置き換えたいと言うのがメイン
Proposed model(NAONet) の探索の仕方(イメージを掴むにはスライドを参照)
- ネットワーク構造を文字列に置き換える
- 学習
  - 文字列 <=> 連続表現(embedding) を変換する LSTM-Encoder, LSTM-Decoder を学習
  - embedding から, 「その構造での予測精度」を予測するよう学習
- 探索
  - embedding 表現を, 出力される予測精度が向上するように変化させる
    - 話者「adversarial example の作り方の逆だと思うとわかりやすいですかね」
  - 変化させた embedding を学習済みの Decoder で decode することで構造が出てくる
実験
- CIFAR-10でSOTAを達成
- CIFAR-10で学習したものをCIFAR100に適用 => SOTA
- Text 系のタスクでも有効性を確認

テーマ発表3: Neural Networks for Graph Data @ NeurIPS2018

発表者: 亀澤諒亮さん(DeNA)

修士時代の研究はガウス過程, PAC Bayes
現在はAI創薬に携わっている(このテーマとの関係性が深い)

資料URL: slideshare

Graph のおさらい

頂点(node)と辺(edge, link) からなるデータ構造
- 基本的に今回の話は全て無向グラフ
- 頂点 v が特徴ベクトル x_v を持つ
具体的な表現方法は以下
- 特徴行列 X: 各ノードの特徴ベクトルが行に対応
- 隣接行列 A: (i,j)成分はノード v_i と v_j の結合の有無を表す
グラフ構造を用いた機械学習の主なタスク
- node classification : node ごとのラベルなどを予測
- graph classification: graph 全体に対するラベルなどを予測
- link prediction: link ごと. node 間に辺があるかを予測

GNN @ NeurIPS2018

本会議の論文数が2017より増えた (6 => 17)
特筆すべき点
- graph generation に関する論文が登場
- computer vision 系との combination (写っているものの関係性など)

論文紹介

spotlight paper に選ばれた論文から3本を紹介

Hierarchical Graph Representation Learning with Differentiable Pooling

論文リンク
graph classification における階層性の欠如を指摘し, 階層性を利用した pooling を提案
- CNN はGrid Graph を扱っていると見なせるので, GNN はその一般化
- 通常の Convolution に対して Graph Convolution が提案されている
- ただし, pooling に当たるものは今まで存在していなかった(らしい)
提案手法: Differentiable Pooling (DiffPool)
- graph 上での pooling をソフトクラスタリングとして定義
- かなり大雑把に言うと, 同一クラスタに属する node を線形和で(重みは所属確率)まとめ上げたものが次の層での node となる(slideの 15 page 参照)
  - これを繰り返すので階層クラスタリングを行なっているような見た目に.
- クラスタへの所属確率はどうやって算出するか? => 別のnetwork を用意して予測させる
- ただし, 正則化を加える
  - 隣接 node が同じクラスタに出来るだけ属するように
  - ある一つのクラスタへの所属確率が大きくなるように
実験
- 多くのベンチマークでSOTAを達成している
- 正則化の効果も見た目(クラスタリング結果)でわかる

Link Prediction Based on Graph Neural Networks

論文リンク
link prediction に関する heuristics の多くが gamma-dcecaying heuristicsであり, enclosing-subgraph から近似計算できることを示した
- (おそらく) graph 全体ではなく対象としている node 対の周辺の情報のみで予測しても誤差は少ないということ
- なので, GNN が link prediction の heuristics を学習するのだとすれば, enclosing subgraph のみを用いた prediction でも良いのではなかろうか => 提案手法につながる
提案手法: SEAL(learning from Subgraphs, Embedding, and Attributes for Link Prediction)
- link prediction を行うために, 対象 node 対の enclosing subgraph を対象とする graph classification を行う
- 使用するモデルは DGCNN(Zhang++, AAAI2018)
- ただしこれはあくまで graph に対する classification を行うモデルなので, どれが link prediction の対象の node 対なのかを教えてあげる必要がある
- => enclosing subgraph の各 node を対象 node 対からの距離に応じてラベリングし, 各 node の embedding に組み込む
実験結果: 多くのベンチマークでSOTA達成

Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

論文リンク

※正直理解できてません

強化学習を用いた分子グラフの生成を提案
- 逐次的なグラフ生成を行えることから, 構造上の制約を扱いやすい
- 目的関数の設定が柔軟(報酬に組み込める)
- RNN で問題になりやすい long term dependency の影響が少ない
概要
- 1 node から start して徐々に node を追加する
  - 状態: graph そのもの
  - 行動: 生成中の graph 上の node の選択 => もう一方の頂点の選択 => 与える辺のラベルの選択
  - 状態遷移: 生成した graph が有効(構造制約を満たす?)なら, その graph に遷移
- 報酬の設定で特徴的なもの
  - step reward: 生成された graph が有効(無効)かで +(-) の報酬を与える
  - adversarial reward: slide 上の式を参照.(わからない...)
    - 論文の主張によると, 実在する分子の情報を事前知識に用いて分子生成を行うのが困難なのを adversarial 要素で解決したいらしい
実験
- 報酬設計により, 目的を切り替えて分子生成ができる
- 既存手法より高い validity で「望んでいる」分子の生成ができる

まとめ

話者の所感「GNN 用のライブラリが段々揃ってきており, 何にどう応用するかが焦点となってきている」
スライドの終わりにGNN関連の論文のタイトルをまとめて下さっているので, 興味のある方はご参照下さい.

テーマ発表4: Reinforcement Learning @ NeurIPS2018

発表者: 甲野佑さん(DeNA)

強化学習が専門分野(大学でも専攻)
強化学習の逆転オセロニアへの応用を行っている
因みに:会議に参加してはいないが他の二人に触発されて発表することにしたらしい