俵言

しがない社会人が書く、勉強とかのこと。最近は機械学習や kaggle 関連がメイン。

NeurIPS2018読み会@PFN 聴講メモ(テーマ発表)

先日 1/26に NeurIPS2018読み会@PFN に聴講参加してきました. この投稿はそのメモ(+振り返りでの補完)にります.

connpass.com

実はブログに公開するつもりはなかったのですが, 用事で参加できなくなった会社の先輩に「後でメモを共有して欲しい」と言われてメモの整理のために振り返ってたらやたら時間がかかったので「これだけ労力かかったしブログにも載せとくか」というのが背景です.

あくまで「こんな発表があったよ!」という雰囲気が伝わればいいかなというものなので, リンクを張っている資料などと一緒に見る前提です. できるだけ論文のリンクも張りました.


イベントの内容としては

  • NeurIPS2018 全体の概要についての発表
  • 特定のテーマに関する発表: 5件
  • 個別論文に関する発表: 9件(ただし1件は発表者が体調不良(インフル?)によりスライドのみ上がっている)

です.テーマ発表に関しては少し長めに, 個別論文に関しては一口メモ程度... という予定だったのですが, テーマ発表振り返るだけで力尽きたので個別論文紹介に関してはまとめるにしても別の記事にしようと思います. (そうしないといつまで経っても公開できないので... )

※僕の興味の程度(& 集中力)によって詳細度が大きく異なります(特にテーマ1: disentangled representations は「めっちゃ興味があった+一番最初のテーマ発表で集中力があった」ので後から見返すとメモが異常に詳しい)。詳細を知りたい場合はスライドを参照。

NeurIPS全体概要

発表者: 比戸将平さん(PFN)
資料: 多分未公開

今年のトピック:名前が変わった

  • ロゴも一緒ならURLも一緒.結構混乱が起こっている感じ
  • 「皆さんもNIPSって言っちゃいそうになると思うので, 30回ぐらい NeurIPS と唱えてください」
  • 経緯としては,
    • 前々回ぐらいの閉会パーティで下ネタジョークが飛び問題が表面化
    • 変えようとして案がいくつか出たものの多数の合意が取れる案がない
    • NIPS のままにすると宣言 => 炎上
    • 苦肉の策として,名前を読み変えることで一応の決着を見た

統計情報

  • 参加者数: 〜9000人

    • 前回同様チケットが一瞬で売り切れた(workshop用に席を残していたためでもあるらしい)
    • 大分伸びは落ち着いている(資料のグラフより). AIブームの落ち着きを示しているか..?
  • 論文投稿数: 昨年の1.5倍

    • 参加者数と比べてとても伸びている
    • こちらの勢いはまだ衰えなさそう
  • 発表形式について

    • 有名な話ですがほとんどが poster
    • oral に関しては発表者が豆粒みたいな距離になる広さ(写真見るとでかいライブ会場みたいな距離感)
    • poster 会場は前回の反省を踏まえてレイアウトが改善された
      • poster 間の間隔がとても広くなった
      • 発表の時間・場所に調整を加えた
      • それでも人が多すぎて発表者に話しかけることがほぼできない状態
      • 気になった poster の写真撮りながらぐるっと回る感じ
    • 話者「じゃあ行かないでいいのかと言うと,行った方が良い」
      • poster はぱっと見わかるように作られてるので, ぐるっと回るだけでもかなり為になる
      • もちろん, 気になったやつの論文を後で読むのは必須である

資料など

  • tutorial や invited speak は web上に上がっている
  • その他 web に発表videoや発表資料が上がっている場合もあるので, 気になる論文があれば調べると良い

その他

  • Expo day: 企業の出展的なもの. 丸一日使っている

  • 深層強化学習の再現性に関する批判の talk がされた

    • twitter などでも画像が出回った気がしますが,Hyper Parameter の決め方が謎だったり統計的優位性が確認されなかったり validataion, test の切り方がしっかりしてなかったりと闇が多い.
    • 話者:「特にハイパラの決め方とかDeepMind が完全に隠してるので, アカデミアから DeepMind への批判みたいにも聞こえる(笑)」
  • 開催場所について
    • 2019-2020 はバンクーバー. これは元々NIPSが始まったのがバンクーバーであることから原点回帰らしい
    • 2021 はエチオピア. アフリカ開催は史上初で, 「AI技術を全世界に」と言う意図があるとのこと

テーマ発表1: Generative Adversarial Networks and Disentangled Representations @ NeurIPS2018

発表者: 濱田晃一さん(DeNA)

  • 毎年この読み会でGANについて発表しているらしく, 恒例らしい
  • DeNA 全サービスを対象として, 大規模機械学習を活用したサービス開発を行っている
  • 今回のテーマである「Disentangled Representations」は話者がDeNAで行っている新キャラクター生成・アニメーション生成とかなり関連があるとのこと

資料: slideshare

はじめに

  • GAN については,生成について近年凄まじい品質向上が実現している
  • 論文数の推移
    • 2014: 1(original)
    • 2015: 1
    • 2016: 6
    • 2017: 34
    • 今年の場合: 60本超
  • 上記はあくまで GANs がメイントピックである論文で, 性能向上のために使用している論文はもっと多い
  • => 話者曰く,「GANs や Adversarial Training はそれだけ広く使われる学習の方法論となっている」とのこと

GANs と Disentagled Representations の関係

  • GANs のおさらい

    • Generator と Discriminator を戦わせて生成精度の向上を図る
    • 均衡に至ればきっと真の分布になる(はず)
  • 生成のクオリティはどんどん向上している

    • 大きな画像(1024x1024)の安定的な生成を実現した progressive GANs
      • Generator と Discriminator を進歩的に成長させる(※「進歩的に」の意味をよくわかってないです)
    • class Conditional な生成で多様な高品質画像生成を実現した BigGAN
      • ここに至るまでに, 様々な(ヒューリスティックなものも含めた)テクニックが蓄積され学習の安定性が増してきている
      • 学習の方法論が大きく進展したとも言える

話者:「NeurIPS2018で単に「GANsの生成品質を向上する」というだけの採択論文はもう一本もない => GANs の研究は次の stage に移りつつあるということ

  • GANsに未だある課題: 人の全身のような複雑な構造の生成は困難

    • 高品質に生成するだけでは解決できない
    • コンテンツ・構造と言った, 潜在的に独立な要素・表現を制御した生成が重要になってくる
      • 例: 人物写真について「その人が誰であるか」と「その人の姿勢」は独立(なはず)
    • 潜在的に独立な要素・表現 => disentagled representations
  • 関連

    • Progressive Structure-conditional GANs (ECCVW2018) <= 話者らの研究
      • 各解像度で構造の条件付けを行い,Generator と Discriminator を進歩的に学習させる
      • 構造とコンテンツ表現を独立に表現. キャラクターの全身といった複雑な構造での高解像度生成を可能に
      • キャラクター生成・アニメーション生成に使用している
    • Style-Based Generator
      • 各解像度で表現を学習する
      • 低解像度で姿勢や髪形といった構造変化(大まかなもの)の表現を獲得
      • 高解像度で色や表情といった詳細変化(細かいもの)を表現を獲得

NeurIPS2018 での GANs and disentagled representations(論文紹介)

disentagled representations の観点で, 話者が選んだNeurIPS2018の論文(5本)を紹介

FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification

  • 論文リンク
  • pose と person identity の表現分離
  • person の re-identification の SOTA を達成
  • 任意のperson に対して任意の pose の image 生成できるように学習する
  • 画像から抽出する identity 情報に pose 情報が混ざらないようにするのが重要

Unsupervised learning of Object Landmark

  • 論文リンク
  • タイトル通り,教師なしの object landmark 学習
  • 味噌となるのは, 同一の対象物の構造が異なる画像ペアを用いて学習をすること
    • それぞれの画像から identity と landmark の表現を抽出
    • identity と kandmark 特徴からそれぞれの画像を再構成して reconstruction loss を計算
    • 画像ペアの identity 特徴同士は同じものを指しているはずという仮定から content loss を計算
  • 教師なしの facial object landmark detection で SOTA を達成.
    • identity(誰であるか)とlandmark の表現を分離することが性能向上につながっている(はず)

A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation

  • 論文リンク
  • ※この論文は個別論文紹介でも紹介されているので, 更に詳しい資料があります.
  • cross domain で共通表現と domain 固有表現を分離・学習する
  • 連続的な cross-domain image translation
  • 特徴
    • encoder は domain によらない共通表現のみを抽出
    • decode(generator に通す) 時に,domain を示す vector (one-hot vectorらしい)をくっつけて生成を行う
  • 個別論文紹介の方でもQAがあったし僕も思ったのですが,domain を示すのが one-hot vector だと Generator の負担が大きすぎる気がします

Image-to-image translation for cross-domain disentanglement

  • 論文リンク
  • こちらもcross-dmain. 共通表現と domain 固有表現に分離を行う
  • 特徴的なのは Cross Domain AutoEncoder
    • 異なるドメインから共通表現が一致している入力ペア(x, y)を取得
    • x, y それぞれについて共通表現と固有表現に分離
    • 共通表現を入れ替えてくっつけて再生成を行う
      • => 共通表現は一緒のはずなので,入れ替えたとしても元の画像が生成できるはずというアイデア
  • 応用例
    • 共通表現:物体の種類(car, chair), ドメイン: 向き(前 <=> 側面 <=> 後ろ)
    • 共通表現:地図情報, ドメイン: 表現方法(通常の地図表現 <=> 航空写真)

Unsupervised Adversarial Invariance

  • 論文リンク
  • 予測のための特徴表現を任意のノイズから分離したい
  • 予測のための特徴を e1, ノイズ特徴を e2 としてお互いを予測できないように分離・学習を行う
    • ノイズとラベルが独立であるという仮定のもとだと思います
    • ノイズが観測点に依存していて,観測点ごとに予測に寄与するものが違うとしたら話は変わるかも
      • ただこの場合も,観測点に依存しない予測を行うという意味では有効かもしれないです

宣伝

  • 2/6 の DeNA TechCon 2019でも関連する内容(アニメ生成)を発表するとのこと
    • これ全体的に面白そうなので誰か行きませんか?僕はちょっと予定的にきつそうです...
  • GANsを用いた新たな価値提供に一緒に挑戦する人を募集中

Q&A

  • 数学的な定義はあるか? => A. ないのではないか
    • 生成対象に対して, ある表現を固定したときに独立である表現?
    • 予測したい表現と潜在的に独立と考えられる表現?
  • 学習の安定性の話は解決したのでしょうか? A. まだです
    • 任意のモデルで収束できるかというとそうでもない
    • 色々な収束テクニックを用いてうまくいくようにしている(Big GAN の発展の過程は色々なものを組み込んでいる)
    • 限られた条件下でうまくいく方法がたくさんある

テーマ発表2: Automatic Machine Learning @ NeurIPS2018

発表者: 佐野正太郎さん(PFN)

資料URL: slideshare

what is AutoML?

めっちゃざっくり言うと: data を与えるといい感じのモデルが返ってくると言うもの
主に以下の3つが考えられる

  • Hyper Parameter Optimization(HPO): ハイパラの自動探索
  • Neural Architecture Search(NAS): ネットワーク構造を自動探索
  • Meta Learning: 異なるタスクのdataを有効に用いる

AutoML@NeurIPS2018

  • tutorial は 上にあげた HPO, NAS, Meta Learning の三部構成
  • 本会議: 特に meta learning 寄りの話が多かったらしい
  • 関連WSもいくつか存在

HPO@NeuriPS2018

  • Bayesian Optimization と Meta-Learning を組み合わせる話が多い
  • 本会議で10本程度の発表
  • WS(Sytems for ML) ではシステム化・並列化・評価戦略の話など

NAS@NeurIPS2018

  • 連続最適化への落とし込み, semantic segmentationへの応用
  • 本会議で4本程度の発表
  • 2019年は AutoDL コンペが開催される

Meta Learning@NeurIPS2018

  • MAML(Model-agnostic Meta-Learning), Few shot learning, Transfer Learning などが keyword.
  • 本会議で20本以上の発表があった
  • WS も大盛況だったらしい

Conpetition Track: AutoML3

  • 複数の table data task を解くコンペ
  • 副題は「AutoML for Lifelong Machine Learning」であり,データが時系列で変化するなど「持続性」も問うている
  • Tree-parzen estimator(HPOの一種) + GBDT が上位を占めた

論文紹介(2本)

Massively Parallel Hypaerparameter Tuning

  • 論文リンク
  • HPO系の論文. 本会議ではなく Workshops on Systems for MLからの紹介
    • HPO では 探索戦略と評価戦略が重要になるが,この論文は後者の話が主
  • 一言で言うと:Successice halving (SHA) を非同期並列にすることで高速化

    • SHA は学習曲線を用いた枝刈り手法.(optuna にも導入されている)
      • 学習曲線による早期終了を,最適腕選択のバンディッド問題に帰着させて解く
        • 少しの iteraton だけ 各 setting を試す (rung1) => 上位を残す => また少し回す (rung2)=> 上位を残す ... を繰り返す
      • 都度都度の評価で,うまくいかなさそうな setting の学習を打ち切る
    • シンプルかつ高性能であるこの手法を更に効率的にすることが目的
  • 今回の論文は SHA を更に並列化する

    • 一番 simple なのは 各ワーカ に同じ rung(stage) のものを割り当てる(Synchronous SHA)
    • ただし,worker ごとの処理時間が異なると空き時間が発生してしまう
      • 特に学習時間に影響を与えるようなハイパラを探索する場合はよくある話
    • そこで, 暫定で昇進させるという処置をとる(つまり非同期に並列SHAを行う)
      • 利点: 同一 rung (stage)を待つためのボトルネックを解消
      • 欠点: 暫定順位で評価してしまうと mis-promote が発生
    • config の数・並列数が増えるにつれて改善すると論文では主張
  • 実験

    1. 並列化なしの場合 => single node だとただの劣化
    2. 並列化した場合 => 高速に優れたconfig を発見

Neural Architecture Optimaization

  • 論文リンク
  • 関連: Neural Architecture Search

    • NASNet の名前を聞いたことがある方は結構居ると思います
    • 構造を文字列に置き換えて, 強化学習で探索を行う
      • 全体像は固定で,ローカルな構造だけ探索していた
    • ImageNetに対し, 人間が tuning したモデルでの SOTA を超える結果を残した
    • ただし「気持ち悪い構造ですよねえ」by 話者
  • 論文の特徴を一言で言うと: Neural Architecture Search に連続最適化を適用する

    • NASNet は構造探索が離散的だったため、組み合わせが爆発する
    • そこで問題を連続最適化に置き換えたいと言うのがメイン
  • Proposed model(NAONet) の探索の仕方(イメージを掴むにはスライドを参照)

    • ネットワーク構造を文字列に置き換える
    • 学習
      • 文字列 <=> 連続表現(embedding) を変換する LSTM-Encoder, LSTM-Decoder を学習
      • embedding から, 「その構造での予測精度」を予測するよう学習
    • 探索
      • embedding 表現を, 出力される予測精度が向上するように変化させる
        • 話者「adversarial example の作り方の逆だと思うとわかりやすいですかね」
      • 変化させた embedding を 学習済みの Decoder で decode することで構造が出てくる
  • 実験

    • CIFAR-10でSOTAを達成
    • CIFAR-10で学習したものをCIFAR100に適用 => SOTA
    • Text 系のタスクでも有効性を確認

テーマ発表3: Neural Networks for Graph Data @ NeurIPS2018

発表者: 亀澤諒亮さん(DeNA)

  • 修士時代の研究は ガウス過程, PAC Bayes
  • 現在はAI創薬に携わっている(このテーマとの関係性が深い)

資料URL: slideshare

Graph のおさらい

  • 頂点(node)と辺(edge, link) からなるデータ構造
    • 基本的に今回の話は全て無向グラフ
    • 頂点 v が特徴ベクトル x_v を持つ
  • 具体的な表現方法は以下

    • 特徴行列 X: 各ノードの特徴ベクトルが行に対応
    • 隣接行列 A: (i,j)成分は ノード v_i と v_j の結合の有無を表す
  • グラフ構造を用いた機械学習の主なタスク

    • node classification : node ごとのラベルなどを予測
    • graph classification: graph 全体に対するラベルなどを予測
    • link prediction: link ごと. node 間に辺があるかを予測

GNN @ NeurIPS2018

  • 本会議の論文数が2017より増えた (6 => 17)
  • 特筆すべき点
    • graph generation に関する論文が登場
    • computer vision 系との combination (写っているものの関係性など)

論文紹介

  • spotlight paper に選ばれた論文から3本を紹介

Hierarchical Graph Representation Learning with Differentiable Pooling

  • 論文リンク
  • graph classification における 階層性の欠如を指摘し, 階層性を利用した pooling を提案

    • CNN はGrid Graph を扱っていると見なせるので, GNN はその一般化
    • 通常の Convolution に対して Graph Convolution が提案されている
    • ただし, pooling に当たるものは今まで存在していなかった(らしい)
  • 提案手法: Differentiable Pooling (DiffPool)

    • graph 上での pooling をソフトクラスタリングとして定義
    • かなり大雑把に言うと, 同一クラスタに属する node を線形和で(重みは所属確率)まとめ上げたものが次の層での node となる(slideの 15 page 参照)
    • クラスタへの所属確率はどうやって算出するか? => 別のnetwork を用意して予測させる
    • ただし, 正則化を加える
      • 隣接 node が 同じクラスタに出来るだけ属するように
      • ある一つのクラスタへの所属確率が大きくなるように
  • 実験

  • 論文リンク

  • link prediction に関する heuristics の多くが gamma-dcecaying heuristicsであり, enclosing-subgraph から近似計算できることを示した

    • (おそらく) graph 全体ではなく対象としている node 対の周辺の情報のみで予測しても誤差は少ないということ
    • なので, GNN が link prediction の heuristics を学習するのだとすれば, enclosing subgraph のみを用いた prediction でも良いのではなかろうか => 提案手法につながる
  • 提案手法: SEAL(learning from Subgraphs, Embedding, and Attributes for Link Prediction)

    • link prediction を行うために, 対象 node 対の enclosing subgraph を対象とする graph classification を行う
    • 使用するモデルは DGCNN(Zhang++, AAAI2018)
    • ただしこれはあくまで graph に対する classification を行うモデルなので, どれが link prediction の対象の node 対なのかを教えてあげる必要がある
    • => enclosing subgraph の各 node を対象 node 対からの距離に応じてラベリングし, 各 node の embedding に組み込む
  • 実験結果: 多くのベンチマークでSOTA達成

Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

正直理解できてません

  • 強化学習を用いた分子グラフの生成を提案

    • 逐次的なグラフ生成を行えることから, 構造上の制約を扱いやすい
    • 目的関数の設定が柔軟(報酬に組み込める)
    • RNN で問題になりやすい long term dependency の影響が少ない
  • 概要

    • 1 node から start して徐々に node を追加する
      • 状態: graph そのもの
      • 行動: 生成中の graph 上の node の選択 => もう一方の頂点の選択 => 与える辺のラベルの選択
      • 状態遷移: 生成した graph が有効(構造制約を満たす?)なら, その graph に遷移
    • 報酬の設定で特徴的なもの
      • step reward: 生成された graph が有効(無効)かで +(-) の報酬を与える
      • adversarial reward: slide 上の式を参照.(わからない...)
        • 論文の主張によると, 実在する分子の情報を事前知識に用いて分子生成を行うのが困難なのを adversarial 要素で解決したいらしい
  • 実験
    • 報酬設計により, 目的を切り替えて分子生成ができる
    • 既存手法より高い validity で「望んでいる」分子の生成ができる

まとめ

  • 話者の所感「GNN 用の ライブラリが段々揃ってきており, 何にどう応用するかが焦点となってきている」
  • スライドの終わりにGNN関連の論文のタイトルをまとめて下さっているので, 興味のある方はご参照下さい.

テーマ発表4: Reinforcement Learning @ NeurIPS2018

発表者: 甲野佑さん(DeNA)

  • 強化学習が専門分野(大学でも専攻)
  • 強化学習の逆転オセロニアへの応用を行っている
  • 因みに:会議に参加してはいないが他の二人に触発されて発表することにしたらしい

資料: slideshare

その4は最後から二番目だったため,集中力がほぼ切れています.

RL @ NeurIPS2018

  • めっちゃたくさんあるので全部見切れてないとのこと

    • 基礎研究寄りの論文が相変わらず多い
    • 一方でマルチエージェントやメタ学習などの応用よりも同じくらい
    • 話者の所感としては, 実用という部分が視野に入ってきているという印象
  • RL の問題分類

    • サンプル効率性
    • 探索促進
    • 環境の制約
    • 近似関数の保証
  • 研究の傾向の変化

    • 2017年: サンプル効率化 => 2018年: 探索促進
    • 一貫する目的は強化学習の反復回数の減少
      • 全てのRLは「方策の評価 <=> 方策の修正」で成り立っているので究めて重要
  • 探索の矛盾

    • 最適な経路を見つけるため, あらゆる状態に到達するよう探索を促進させたい
    • 一方で, 明らかに無意味な行動については抑制したい
    • 複雑なタスクであるほど相反する両者のトレードオフを解決する必要がある

論文などの紹介

  • 話者が気になった論文を何個か紹介

Go-Explore: A new type of algorithm for hard-exploration problems

  • プレゼン資料リンク
  • Deep Reinforcement Learning Workshop @ NeurIPS2018 でプレゼンが行われた.
  • Twitter でも話題になった, Uber の研究者が「モンテズマの復讐」で圧倒的な score を出した探索手法 「Go Explore」 の詳細

    • ゲーム固有の知識を使うなどした場合, これまでの best score の 40倍近い score
    • フェアな評価でも, 3倍くらいの score
  • 前提知識: 前方ボーナス・後方報酬

    • 報酬源がとても遠い場合, Goal にたどり着く前に「飽きる」 = 好奇心の枯渇
    • このために, 未知の状態に対してボーナスを与える必要があるが...
      • UCB系: 真の Q 値は不変であり, その探索時にボーナスが付く
      • 好奇心系: Q値そのものを歪める. 得られた報酬がQ値の学習に使われ, 次回の探索時にボーナスが付く
    • つまり好奇心系がうまく行くにはもう一度訪れる必要があるが, 探索空間がどんどん広がるケースではうまく行かない
      • Deep RL は大抵探索報酬として未知度合いのボーナスを与えるので好奇心系にあたるらしい
  • Go Explore をめっちゃ雑に言うと: とにかくすごく探索する

    • 過去訪れた(有望そうな)好きな場所から Restart する
    • そこから一定回数ランダム探索して色んな場所を覚えていく
    • いつでも好きな場所からリスタートとかチートでは? => ちゃんと経路を覚えてフェアにリスタート
  • 手順

  • 模倣学習の詳細

    • 理解が追いつきませんでした...
  • まとめ

    • 状態ごとにセーブしていてるので, 反復回数をメモリに押し付けているともいえる
    • 状態ごとに方策や軌跡をを保存するテーブル型強化学習っぽい
    • 状態をセルで近似しているのはかなり限定的.
      • VAEなどで潜在空間に拡張したいらしい
      • しかし離散化しないと方策の保存などが困るはず(爆発してしまう)
    • 枠組み自体は新しいので, 今後の発展が期待できるとのこと

Data-Efficient Hierarchical Reinforcement Learning

※すみません, 理解できてないのでメモが意味不明になっています...slide をご覧ください

  • 従来の HRL (on-policy) の問題点: 更新ごとに軌跡をサンプリングし直すため, サンプル効率性が非常に悪い

    • そもそも複数の下位方策を学習するためにサンプル数が要る
    • 下位方策が変わると上位方策が安定しないので, 上位方策を学習し直すためにサンプルが要る
  • 提案手法: HIRO(Hierarchical Reinforcement learning with Off-policy correction)

    • 現状態 + 相対的なゴール = 次の状態 となるように, 現状態から相対的なゴールへの到達を下位方策に学習させる(?)

      • 図的には相対的なゴールへの到達が繋がって絶対的なゴールに至るっぽい
      • 近づくと正, 離れると負の擬似報酬
      • 相対ゴールへの距離は動くごとに再計算される
    • ゴールの設定に関する特徴

      • ゴール状態そのものを埋め込まず, 状態の直接的な差分として表現する
        • 埋め込んでしまうと, 下位方策が学習するものの実態がよくわからないものになる
        • 埋め込んだ状態をそれぞれの下位方策の目的に分解するのは難しいと言うことなんでしょうか?
      • 下位方策が具体的なものになる(?)ので, 最終目的にそぐわなくても有用な学習が行われる
  • 話者によるまとめ(slide 参照)

    • 比較的現実的な HRL である
    • ゴールの定義の仕方が特殊なので, タスクによってはうまくいかないかも
    • 学習の安定性はまだまだ

Non-delusional Q-learning and value-iteration

※すみません, これも全然理解しないまま書いています...

  • best paper のうちの一つ

    • Q-lerning の根本的な問題である delusional bias を明らかにし, それを解決する policy-consistent な操作を提案した点が評価されたらしい
  • そもそも delusional bias って何?

    • 価値関数を関数近似する時に発生する bias
    • 近似する際に, 方策で実現し得ない行動を backup してしまうことを指す(?)
    • 最適解に至れなくなるばかりか, 妥協解にすら至れなくなるケースが発生するらしい
  • 解決法

    • policy class
      • 選択を実現するパラメータ空間を分割し, 複数のパラメータを保存する
      • 実用上は結構厳しい
    • 非妄想な行動を用いて更新を行う

話者によるまとめ

  • off policy な補正によって replay buffer が使えるようになり, 応用の幅が広がっている
  • 複数の方策を保持することが一般的になりつつある
    • 紹介した3本はいずれも複数の方策を保持していた(メモリが足りなくなる)
  • 2019年はより高度な形で矛盾する探索概念が解決されるだろう
    • いよいよ POMDP (world model 的な補完, マルチエージェント)が到来?

テーマ発表5: Modeling the Physical World @ NeurIPS2018

発表者: 比戸将平さん(PFN)
資料: 多分未公開

話者自身の専門ではないそうですが, 興味があって参加したWS: Modeling the Physical World: Learning, Perception, and Control についての概要を話していらっしゃいました.

※最後の発表で完全に集中切れてたので, メモがほとんど残ってません...

概要

  • 物理世界の現象をどうやって扱うのか?
  • 物理モデルの応用

    • シミュレーション
    • ビデオ予測
    • ナビゲーション
    • ロボット(プランニング・マニピュレーション)
  • これまでのAI 技術

    • 人間にとって単純なものほど難しい
    • Moravec's Paradox
  • どうモデル化する?

    • 古典的パラダイム(物理モデルから)
    • 学習パラダイム
    • NN学習と物理演算と確率的生成モデルをどう組み合わせるのかが重要か

talk

  • WS のページにも書いてありますが, 9人から talk があり, そのうちの3 人の話について紹介
    • といっても僕が力尽きたのでメモがほぼないです

Zico さんの talk

chelsea さんの talk

  • talk 資料が公開されてました: An agent that can do many things (by modeling the world)
  • こちらは学習寄り
  • 画像を入力, わずかな教師信号を元に, 物理世界での多数のタスクを解くことを試みる
  • ビデオ予測の話
    • 解像度は粗いが結構それっぽいものができる
    • 例として, ズボンをめくる動作をしたときに引きずられる動作が起こってないみたいな話が合った
      • 写っているものの構造が取り切れていない?

janette さん の talk

  • 物理モデル + 学習 => 汎化
  • いいとこ取り
  • 画像 + sensor(contact) 情報 を用いる
    • イメージ的には人間は視覚だけでなく触覚も用いてモノを掴んでいるという話

pannel discussion

  • what is good representation?
    • タスクの種類であったり目的によって違うし, ケースバイケース => ha ha ha
  • Bias-Variance Tradeoff
    • 物理モデルと学習のバランスをしめしている(?)
    • この図が載っている資料探してるんですが見つからず...

感想

  • どの発表もかなり内容が濃くて, 6時間でめちゃくちゃ疲れました
    • 特に強化学習のセッションが何もわかって無さすぎて死にそうでした
    • 記事に書くためにメモを読み返してやっと少しわかった気になれた点も数多く存在します

  • 冒頭でも述べましたが Disentangled Representations が個人的には熱い
    • 表現を分離するという観点は前からあったと思いますが, より複雑な表現をいかにきれいに分離するか, そしてそれをどう応用するかはとても面白い
    • 別に画像に限った話では全然ないので, あらゆる分野で広がりそう
    • 思わずチームでも布教してしまった. 来季あたり何かできないかな...

  • 実在してないものを生み出すのが面白い
    • GCN での強化学習による創薬, NAONet の学習など, 元々は無かったものを生み出すのは面白い
    • disentangle の話と絡めると, 表現同士をくっつけて現実に無いものを生み出したりできるかなと
      • 紹介されてたCV系の論文ではあったと思う. 画像以外で試したいところ

  • その他
    • めっちゃ時間かかりましたが, メモと資料とにらめっこして振り返るのは学びが多かったです
    • 当日は最後らへん力尽きましたがとても勉強になりました
      • 自分でもこういう機会に発表して貢献できるといいなって思います
    • お詫び
      • 力尽きたせいで最後2テーマがひどいことになっててすみません...