俵言

しがない社会人が書く、勉強とかのこと。最近は機械学習や kaggle 関連がメイン。

熱海で spaggle 合宿したら最高だった件

それは、とあるツイートから始まった...


群がる kaggler 達、


気付けば温泉旅行に行くことに。


というわけで、異常な速さ*1で予定が組まれ、熱海spaggle合宿をすることになりました。

Twitter 上でのやりとりがほとんどの kaggler 同士で旅行に行くとどうなるんかなとちょっと思ってましたが、予想以上に良い合宿となったので現地の SPA の紹介がてら書きます。

ぶっちゃけただの日記(& Tweet まとめ)なので、適当な感じでお読みください。

目次

  • 2/14(前泊日)
  • 2/15(活動日)
  • 2/16(解散日)
  • まとめ
  • おまけ

*1:その日の深夜に日程と宿が確定するとかフットワーク軽すぎでは?

続きを読む

感想文:データサイエンスのための数学 を読んでいます (その1)

はじめに

ちょい前から基礎的な数学を復習したいという考えが強まり(特に線形代数と確率論)、さりとて難しい本を読み始めると挫折するのは必至...ということで、半年ぐらい前に出た データサイエンスのための数学 (データサイエンス入門シリーズ) を読んでいます。

選定基準は数学の知識全般というよりはデータサイエンスに関連しそうなところから基礎を復習したいという気持ちがあったため。もちろん内容的な不足がある可能性は否めないのですがとりあえず基礎ということで。

内容としては第Ⅰ部(1~6章)が線形代数、第Ⅱ部(7~11章)が微分積分、第Ⅲ部(12~14章)が確率 となってます*1。 少なくとも行列のランクとか固有値の話が復習できればいいだろうという気持ちで読み始めました。

さて、この記事はある程度切りの良い所まで読み進めたら備忘録あるいはチェックポイントとして残すために書いてます。読むためのモチベーションにも多分(?)なる。

事細かに本で勉強した内容を書こうとすると挫折するため(2敗)、感想文位が本当に丁度良いんですよね(というか詳細は本を読めという話なので...)。まあ気楽にご覧ください。

今回は 1 - 3章 の感想(的な何か)です。4章以降は読み進めるごとに書く(予定)。

目次

  • はじめに
  • 1章 行列とベクトル (p.3 - p.40)
  • 2章 ベクトル空間 (p.41 - p.68)
  • 3章 行列式 (p.69 - p.76)
  • おわりに

*1:なんか確率の内容薄くない?と思ったけど同シリーズの別の本でも扱うからっぽいです

続きを読む

小ネタ:python で json を yaml として読みたいとき無いですか?

多分相当稀なケースなんですがたまにある気がしてます。

  • yaml 便利ですよね!
    • json で書く場合(sample.json)
    • yaml で書く場合(sample.yml)
  • なぜ jsonyaml として読みたいのか?
  • json ファイルを yaml として読む
  • 終わりに

yaml 便利ですよね!

実験管理の config (あるいは setting?) を yaml ファイルで書くようになってから随分経ちました。 クォーテーションが要らない、括弧が少なく済む、ブロックスタイル使えるといった理由からスッキリ書けるし楽です。
あと json で書くと迂闊にカンマを入れたときに error が発生するので非常にめんどくさい。まあそもそもログには使うけど人が書くのには向かないのか...?

また、コメント書けるのも人が書きやすい理由ですね。

続きを読む

DSB2019 のラスト5サブを全て Error で溶かした kaggler がいるらしい

はい、僕です。

この記事は最近(2020-01-22 23:59 UTC)までkaggle で行われていた Data Science Bowl 2019 の反省記事的なやつです.

www.kaggle.com

最終日だけ冒頭の error を(しかも5サブ分全て)起こしてしまい, 非常に残念な気持ちでコンペを終えました(幸いにして一応メダルは獲れた).

本当は気持ちのこもった振り返り記事を書こうと思ってたのですが(短期間とは言えしっかり kaggle に取り組めたのが久々で, しんどいけどめちゃくちゃ楽しかったこととか, pandas 芸で学んだこととか, ... etc.), この error がどの処理で起きたのかだけは確かめたかったので先行して書くことにしました.

メモリエラーかと思ったらメモリエラーでは無かったっぽい?(ちょっとここ不明瞭なのですが...) とりあえず特徴量増やしたら死んだという感じでした.

因みに既に振り返り記事を書かれている方が何人かいらっしゃいます(今後も増えそう).

naotaka1128.hatenadiary.jp

socinuit.hatenablog.com

この記事では解法とかの話ではなくerror に絞った話をするので, こういった記事の方が雰囲気がつかめるかもしれないです.

submission error に苦しんだ人の目に止まれば良いな...


目次

  • データの簡単な説明
  • 特徴量の作り方の方針
  • 何の処理で落ちていたか?
  • ちょっと解せないところ
  • おわりに
  • おまけ:今回のオチ
続きを読む