俵言

しがない社会人が書く、勉強とかのこと。最近は機械学習や kaggle 関連がメイン。

【画像処理 & 機械学習】論文LT会! #4 @ LPIXEl に参加しました。

LPIXElさんで 2019/7/4 に行われた論文LT会に参加してついでに論文紹介LTしてきました。実は #2 から連続で参加してるのでこれが3回目の参加になります。

lpixel.connpass.com

こちらのイベントは基本的に論文を読んでLT発表することが主目的なので(聴講枠の方が少ない)、総じて参加者のモチベーションが高い気がします (やっぱり自分も準備してきた分他の人のやつをより一層しっかり聞きたくなるんでしょうか。少なくとも僕はそうです)。あと少人数なのでLTしやすいというのも良いところ。

毎回とても勉強になるのですが、今回はいつにも増して(といってもまだ3回目の参加ですが) 面白い会だったので参加メモ的なのを書くことにしました。

ちなみに前回(#3)は id:mocobt さんがまとめを書いてくださってるので是非ご覧ください。

mocobt.hatenablog.com

以下が紹介論文の一覧なります。勿論、僕が誤って理解している場合もあるのでご注意を。

LTメモ

Exploring the Limits of Weakly Supervised Pretraining (ECCV2018)

arxiv.org

僕が紹介したやつです。いっつも宣言がギリギリなせいで発表が最後になるので今回は速攻で宣言して見事(?)トップバッターとなりました。
先日 LeCun 氏がモデルの公開について Tweet していた WSL-Images の論文です。

github.com

Instagram から取得した十億単位の画像を用いて pretraining した ResNeXt-101_Cd (C=4,8,16,32,48) を ImageNet で fine-tuning し、 ImageNet タスクで最高精度を達成したというのが一番わかりやすい部分 (詳細は省くが C=48 で top-1 acc.=85.4%, top-5 acc.=97.6%)。

標準形に直すなどの処理はあるが hashtag をラベルにそのまま用いるのでアノテーションが要らず、しかしながら最近に提案された構造 (e.g. SE-Net, DensNet, Inception v4, ...) を用いずに高い性能を示した。また、pre-training する際の hashtag の種類や dataset の量が fine-tuning 時の性能にどう影響するかも検証している。

注意点はライセンスが CC-BY-NC 4.0 license であること、 object detection の task で fine-tuning した際の性能が芳しくなかったこと( future work としている)。

Bounding Box Regression with Uncertainty for Accurate Object Detection (CVPR 2019)

arxiv.org

object detection において bounding box の不確実性を考慮するために bounding box regression 用にの新たな Loss を提案する。

bounding box を表す座標の予測をガウス分布、正解をディラックデルタ関数で表現し、両者の KL-Divergence を新たな Loss として加える。また、このガウス分布の分散は box の曖昧さとも解釈できるとし、bounding box の選択に利用する。ほとんどの場合で性能が改善。

発表者の所感としては 1-stage 系に使用するとどうなるか(多分適用できると思うとコメント)や fast R-CNN に適用した際に  \verb|AP|^S (小さい物体に対するAP) の性能が下がっている(論文 p.8 の Table 6 参照)のはなぜか、が気になっているとのこと。

AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search (arXiv:1805.07440)

arxiv.org

speakerdeck.com

NAS (Neural Architecture Search) に 「AlphaZero方式のMCTS(モンテカルロ木探索)」を適用した論文。

探索において UCB1 スコアを用いて順番に候補を見ている(確率的な処理はしない)。精度測定の部分(Meta-DNN と呼んでいるNNで評価値の予測を行う)で確率的な要素を取り入れている。

探索時間は NASNet(500GPU × 4days) に対して 16GPU × 14 days であり、効率面での優位性を主張。

MINA: Multilevel Knowledge-Guided Attention for Modeling Electrocardiography Signals (IJCAI2019)

arxiv.org

心電図における異常検出に Deep Learning を適用しつつ、判断根拠も提示したい。

著者らはドメイン知識から、時間ドメイン(beat level, rythm level)と周波数ドメイン(frequency level) を考慮するようモデルを設計し、attention を各 level でかけるようにしている。

性能は既存手法を上回り、アテンションによる可視化もできてノイズにも強いと良い結果。


ただし 、「"Knowledge-Guided" って表現ちょっと違うくない?」という話と、ドメイン知識で構造を限定しすぎているせいで attention で現れる結果が自明(目視で確認できそう)なものだったり、Deep Learning の利点を削ってしまっているのではという議論が会場ではありました (実際先行研究ではもっと層を深くしたりするものもあるそうです)。発表者も限界を決めてしまっているのではという点は気にされていました。

Deep learning can predict microsatellite instability directly from histology in gastrointestinal cancer (nature medicine, June 3, 2019)

www.nature.com

speakerdeck.com

今回のLT会で best なものを選べと言われたら多分これを選びます。発表も内容も良くて、「適当な発表してすまんな」って気持ちになりました。議論も一番盛り上がっていたと思います。


がんの免疫療法は最も注目されている分野であるが、全ての患者に治療(免疫チェックポイント阻害剤)が効くわけではない。この研究では免疫チェックポイント阻害剤が有効ながんが示すマイクロサテライト不安定性(MSI)を、 Deep Learning を用いて画像から予測することを試みる。

手法としては一旦大きな画像からがん領域をパッチとして切り出し(著者らの別の研究)、パッチに対してMSIを示すか否かを判定する。複数の施設、人種、臓器のデータを用いて実験を行い手法の有効性を確認した。

発表者が強調するように、モデル自体はシンプルな ResNet-18 である一方、優れた研究デザインと注目分野においていち早く検証・有効性を確認したという点から非常にインパクトが高い論文と言える。



最新の手法を追うのも楽しいのですが、機械学習の応用を効果的に行ってインパクトを出すという意味で良い論文なんじゃないかなという感想でした。

Why ReLU Networks Yield High-Confidence Predictions Far Away From the Training Data and How to Mitigate the Problem (CVPR2019)

arxiv.org

Deep Learning における over-confident problem(タスクに全く関係ないデータを入力しても高い信頼度で適当なクラスに分類してしまう)を扱った論文。本当は関係ないデータが来たらどのクラスに対しても低い確率(均等)になってほしい。

この論文では ReLU を用いた Network が over-confident を起こす理由を示し(※この部分、何でReLUなら起こるのかというのを理解してないです...)、これを解決するために想定していない入力に対する予測確率を低くするような正則化(Adversarial Confident Enhanced Training) を導入する。

結果は(多分)うまく行ったらしい。実用できるかはちょっとよくわかんないですね...。

Understanding and Improving Transformer From a Multi-Particle Dynamic System Point of View ( arXiv:1906.02762)

arxiv.org

注意:ここの感想は特に間違っている可能性が高いのでご注意ください。

Transformer が多粒子力学系に対応しているとし、ODE(常微分方程式) の知見を NN に取り込むことで理解と性能向上を図ろうという論文。

既存の Transformer を Multi-Particle ODE を Lie-Trotter 分解を用いて解いたものとして解釈し、提案手法では Strang-Marchuk 分解を適用して解くように transformer の構造を置き換える(構造の変更自体はシンプル)。性能が上がったらしい。

ただ、発表者も述べていたように本当に物理現象のアナロジーを用いたことによる性能向上かと言うと怪しい(構造的にはただ層が増えただけのようにしか見えない)。もうすこし検証が必要だと考えられる。

Manifold Mixup: Better Representations by Interpolating Hidden States (ICML2019)

arxiv.org

こちらも "Why ReLU Networks ~" と同様に problem of over confidence を扱った論文。

Mixup そのものもある程度決定境界を滑らかにする効果があったが、この論文では潜在空間上で違うラベルをもったデータ間の距離を良い感じにしようとする。具体的に言うと、ミニバッチごとにランダムな層を選んで Mixup を行っている。

結果としては mixup に比べて決定境界が滑らかになっており、性能向上にも寄与している。


発表者が「Mixupの論文でも中間層で行う実験やってたような..?」と実験結果を示してくれたのですが、そのときは最初の層で Mixup するのが良いとかかれていたそうです。ランダムに選ぶことが良い結果を生み出したのでしょうか?

おわりに

今回のLT会は

  • とりあえず使いたい派(僕)
  • 医療応用をしている方、医療関係者
  • 理論大好き勢

と参加者にバリエーションがあって面白かったです。バックグラウンドが違うと気にする点が結構違っていて(僕は性能が結局どうなったのかすぐ聞いてしまう派)そこも会として良いところかなって思います。

次回ですが、

らしいので、どっちかには頑張って論文読んで参加したいと思っています。

余談

初めて参加したとき(#2):壺コンペ(iMet Collection 2019)参加中 => 次に参加したとき(#3):壺の 1st-stage 終了後 => 今回(#4):最終結果(ドボン)が判明した後、だったので毎回自己紹介で進捗報告してました。本当はメダル取りましたって言いたかったですねえ...。

壺の振り返りとkerneler一週間チャレンジも記録として残したいんですが、ちょっと今すぐは無理そう。書くなら7月中にしたいなあと思ってはいますが中々書けない。

次のLT会では細胞コンペの進捗報告をするのかもしれない。