熱海で spaggle 合宿したら最高だった件
それは、とあるツイートから始まった...
旅行、いきたいな
— ニューヨーカーGOTO (@nyker_goto) February 3, 2020
群がる kaggler 達、
👀
— かえるるる (@kaeru_nantoka) February 3, 2020
👀
— hakubishin (@jy_msc) February 3, 2020
👀
— 俵 (@tawatawara) February 3, 2020
はっ指が勝手に...!
気付けば温泉旅行に行くことに。
なんか気づいたら旅行が決まっていた。楽しみ〜
— ニューヨーカーGOTO (@nyker_goto) February 3, 2020
熱海の旅館予約まで完了した。
— かえるるる (@kaeru_nantoka) February 3, 2020
めっっちゃ楽しみ♨️
温泉旅行が2週間連続になって笑った (楽しみ!)
— hakubishin (@jy_msc) February 3, 2020
気付いてしまった重大な事実:僕だけ Expert
— 俵 (@tawatawara) February 3, 2020
というわけで、異常な速さ*1で予定が組まれ、熱海spaggle合宿をすることになりました。
Twitter 上でのやりとりがほとんどの kaggler 同士で旅行に行くとどうなるんかなとちょっと思ってましたが、予想以上に良い合宿となったので現地の SPA の紹介がてら書きます。
ぶっちゃけただの日記(& Tweet まとめ)なので、適当な感じでお読みください。
目次
- 2/14(前泊日)
- 2/15(活動日)
- 2/16(解散日)
- まとめ
- おまけ
*1:その日の深夜に日程と宿が確定するとかフットワーク軽すぎでは?
感想文:データサイエンスのための数学 を読んでいます (その1)
はじめに
ちょい前から基礎的な数学を復習したいという考えが強まり(特に線形代数と確率論)、さりとて難しい本を読み始めると挫折するのは必至...ということで、半年ぐらい前に出た データサイエンスのための数学 (データサイエンス入門シリーズ) を読んでいます。
選定基準は数学の知識全般というよりはデータサイエンスに関連しそうなところから基礎を復習したいという気持ちがあったため。もちろん内容的な不足がある可能性は否めないのですがとりあえず基礎ということで。
内容としては第Ⅰ部(1~6章)が線形代数、第Ⅱ部(7~11章)が微分積分、第Ⅲ部(12~14章)が確率 となってます*1。 少なくとも行列のランクとか固有値の話が復習できればいいだろうという気持ちで読み始めました。
さて、この記事はある程度切りの良い所まで読み進めたら備忘録あるいはチェックポイントとして残すために書いてます。読むためのモチベーションにも多分(?)なる。
本で勉強しながらブログにまとめるは成功した試しが一度もないので(細かい所書きたくなるけど途中からめんどくさくなってブログの方が途切れる)、何章かごとに感想を書くぐらいの軽い気持ちで行きたい
— 俵 (@tawatawara) January 29, 2020
事細かに本で勉強した内容を書こうとすると挫折するため(2敗)、感想文位が本当に丁度良いんですよね(というか詳細は本を読めという話なので...)。まあ気楽にご覧ください。
今回は 1 - 3章 の感想(的な何か)です。4章以降は読み進めるごとに書く(予定)。
目次
- はじめに
- 1章 行列とベクトル (p.3 - p.40)
- 2章 ベクトル空間 (p.41 - p.68)
- 3章 行列式 (p.69 - p.76)
- おわりに
*1:なんか確率の内容薄くない?と思ったけど同シリーズの別の本でも扱うからっぽいです
小ネタ:python で json を yaml として読みたいとき無いですか?
多分相当稀なケースなんですがたまにある気がしてます。
yaml 便利ですよね!
実験管理の config (あるいは setting?) を yaml ファイルで書くようになってから随分経ちました。 クォーテーションが要らない、括弧が少なく済む、ブロックスタイル使えるといった理由からスッキリ書けるし楽です。
あと json で書くと迂闊にカンマを入れたときに error が発生するので非常にめんどくさい。まあそもそもログには使うけど人が書くのには向かないのか...?
また、コメント書けるのも人が書きやすい理由ですね。
続きを読むDSB2019 のラスト5サブを全て Error で溶かした kaggler がいるらしい
はい、僕です。
最終日の sub を全て error で溶かした kaggler が居るらしい pic.twitter.com/zkVKZiZwJD
— 俵 (@tawatawara) January 22, 2020
この記事は最近(2020-01-22 23:59 UTC)までkaggle で行われていた Data Science Bowl 2019 の反省記事的なやつです.
最終日だけ冒頭の error を(しかも5サブ分全て)起こしてしまい, 非常に残念な気持ちでコンペを終えました(幸いにして一応メダルは獲れた).
例の信じてあえて選んだ低いやつ(pub:0.522)がいい感じに上がってくれた!ashraeと違ってちゃんと頑張ってソロメダルとったので嬉しい pic.twitter.com/rgSlJXBk0k
— 俵 (@tawatawara) January 23, 2020
本当は気持ちのこもった振り返り記事を書こうと思ってたのですが(短期間とは言えしっかり kaggle に取り組めたのが久々で, しんどいけどめちゃくちゃ楽しかったこととか, pandas 芸で学んだこととか, ... etc.), この error がどの処理で起きたのかだけは確かめたかったので先行して書くことにしました.
メモリエラーかと思ったらメモリエラーでは無かったっぽい?(ちょっとここ不明瞭なのですが...) とりあえず特徴量増やしたら死んだという感じでした.
因みに既に振り返り記事を書かれている方が何人かいらっしゃいます(今後も増えそう).
この記事では解法とかの話ではなくerror に絞った話をするので, こういった記事の方が雰囲気がつかめるかもしれないです.
submission error に苦しんだ人の目に止まれば良いな...
目次
- データの簡単な説明
- 特徴量の作り方の方針
- 何の処理で落ちていたか?
- ちょっと解せないところ
- おわりに
- おまけ:今回のオチ