俵言

しがない社会人が書く、勉強とかのこと。最近は機械学習や kaggle 関連がメイン。

Kaggle と出会ってから Master になるまで、そしてこれから。

はじめに

以下の Tweet で言っている"長い旅路"の詳細です。完全にポエムかつ長文*1、しかも自己陶酔を多分に含んだ自分語りです。

暇かつ心に余裕があって何でも寛大に許せそうな場合にお読みください。


話をしよう。あれは2年... いや5年くらい前の話だったか...

といった感じの、むかーしむかしからの話*2。Kaggle と出会ってからの人生(の一部)の紹介みたいなものになっています。

※注意:この記事では主旨として重要なのもあって色々な方々をぼかした形あるいは by name (Twitter・Kaggle上に存在する方々のみ) で紹介しています。 もっとぼかして欲しいということがあれば言ってください。非常に内輪ネタ感がありますが、まあ個人のブログなので「誰やこいつ!?」てなってもお許しください🙇‍♂️

目次

  • はじめに
  • Kaggle との出会い
  • 分析コンペ本格参戦前の話
    • 先輩の誘いから始まるコンペ生活:ACM RecSys Challenge 2017
    • 初めてのソロコンペ:SIGNATE アップル引越し需要予測
    • モチベーション↑↑:ステアラボ人工知能セミナー聴講
    • 後輩との挑戦:PAN Author Profiling Task 2018
    • ところで:Kaggle はやってなかったの?
  • 分析コンペ本格参戦を決意してからの話
    • 背水の陣を敷け:まずは買ったぞオンプレマシン
    • 閾値でイケイケ😎ドンドン💀 : SIGNATE 台風コンペ
    • 運よく参加😄 全然わからん😇 : Kaggle Tokyo Meetup #5
    • 初めてのマルチラベル分類 : Human Proteins Atras Image Classification
    • 短期参戦で無事死亡😇: 電線 & Pet
      • VSB Power Line Fault Detection (1 Day)
      • PetFinder.my Adoption Prediction (1 Day)
    • ソロでの画像コンペ再び👊:iMetCollection2019 - FGVC6
    • 祈りよ届け🙏 : Instant Gratification (1 week)
    • 頑張ってLTに挑戦 : Kaggle Tokyo Meetup #6
    • ちょっと一休み : 4か月ぐらい
    • 復活のきっかけ : Kaggle Days Tokyo
    • おみくじ引いて運だめし🙏 : ASHRAE - Great Energy Predictor III (2 Hours)
    • 念願の Solo Medal 😄 : 2019 Data Science Bowl
    • Shakeup 力を頂けた? : AtmaCup#3
    • 苦脳し続けた 4 Days😇 / Solo Gold への 4 Days🙏 : Bengali.AI Handwritten Grapheme Classification
  • まとめ
  • これからも Kaggle するの?

*1:文字数的な意味でも a long long journey になってしまった...

*2:一年くらい前にも一度昔話ポエムを書きましたが、それよりはずっとずっと明るい話です

続きを読む

効果検証入門 1章の個人的最難関だった t 検定の話

はじめに

巷で話題になっているアイツを僕も読み始めてます。(他の本も読まないといけないのに)

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

効果検証入門〜正しい比較のための因果推論/計量経済学の基礎

初歩的な所から理解したいという気持ちで輪講で1章の担当になり資料を作っていたのですが、有意差検定のあたりで頭がバグったので t 検定の復習をして行間を埋めることになりました。

おそらく1章で一番( 無駄に*1 )頑張ってしまったので、その内容を備忘録がてら書くことにします*2。統計全然わからんので、変なこと言っててもつよつよ勢はどうかヤサシクシテホシイ....

t 検定はいくつか種類があると思うのですが、ここでは本で使われている(と僕が思っている) 対応なし両側 t 検定の話をします。内容に沿って書くので、本を読んで「この t 検定って何なんだろう🤔」ってなった方*3が流れを理解する上で少しでも参考になれば幸いです。

目次

  • はじめに
  • 準備
    • 記号
    • 前提
  • 本題
    • 1. 標準誤差の算出
    • 2. 効果の推定値と標準誤差を使って t 値を算出
    • 3. t 値を使って p 値を算出
      • 事前準備(めんどくさかったら読み飛ばしてください)
      • 帰無仮説の下での計算
    • 4. p 値を有意水準と比較する
  • 終わりに
  • 参考リンク

【追記(2020/2/24)】
前提の部分でおかしな部分があったため色々と修正を行いました。これに伴い読みにくくなってしまい、また、数学的な怪しさが生まれた可能性があります。
ただ、1章での介入の平均的な効果の検定において重要な部分(t 検定を行う対象がそもそもセレクションバイアス込みになっていること)はより明確になったと思います。ご了承ください 🙏

*1:本来はさらっと流すべき箇所だったとは思う

*2:あくまでメモ的なやつなので色々ご容赦ください

*3:Twitterに生息するつよつよなDS・MLエンジニアは行間を補完できるので無問題なんだろうな...:;(∩´﹏`∩);:

続きを読む

熱海で spaggle 合宿したら最高だった件

それは、とあるツイートから始まった...


群がる kaggler 達、


気付けば温泉旅行に行くことに。


というわけで、異常な速さ*1で予定が組まれ、熱海spaggle合宿をすることになりました。

Twitter 上でのやりとりがほとんどの kaggler 同士で旅行に行くとどうなるんかなとちょっと思ってましたが、予想以上に良い合宿となったので現地の SPA の紹介がてら書きます。

ぶっちゃけただの日記(& Tweet まとめ)なので、適当な感じでお読みください。

目次

  • 2/14(前泊日)
  • 2/15(活動日)
  • 2/16(解散日)
  • まとめ
  • おまけ

*1:その日の深夜に日程と宿が確定するとかフットワーク軽すぎでは?

続きを読む

感想文:データサイエンスのための数学 を読んでいます (その1)

はじめに

ちょい前から基礎的な数学を復習したいという考えが強まり(特に線形代数と確率論)、さりとて難しい本を読み始めると挫折するのは必至...ということで、半年ぐらい前に出た データサイエンスのための数学 (データサイエンス入門シリーズ) を読んでいます。

選定基準は数学の知識全般というよりはデータサイエンスに関連しそうなところから基礎を復習したいという気持ちがあったため。もちろん内容的な不足がある可能性は否めないのですがとりあえず基礎ということで。

内容としては第Ⅰ部(1~6章)が線形代数、第Ⅱ部(7~11章)が微分積分、第Ⅲ部(12~14章)が確率 となってます*1。 少なくとも行列のランクとか固有値の話が復習できればいいだろうという気持ちで読み始めました。

さて、この記事はある程度切りの良い所まで読み進めたら備忘録あるいはチェックポイントとして残すために書いてます。読むためのモチベーションにも多分(?)なる。

事細かに本で勉強した内容を書こうとすると挫折するため(2敗)、感想文位が本当に丁度良いんですよね(というか詳細は本を読めという話なので...)。まあ気楽にご覧ください。

今回は 1 - 3章 の感想(的な何か)です。4章以降は読み進めるごとに書く(予定)。

目次

  • はじめに
  • 1章 行列とベクトル (p.3 - p.40)
  • 2章 ベクトル空間 (p.41 - p.68)
  • 3章 行列式 (p.69 - p.76)
  • おわりに

*1:なんか確率の内容薄くない?と思ったけど同シリーズの別の本でも扱うからっぽいです

続きを読む