俵言

しがない社会人が書く、勉強とかのこと。最近は機械学習や kaggle 関連がメイン。

小ネタ:python で json を yaml として読みたいとき無いですか?

多分相当稀なケースなんですがたまにある気がしてます。

  • yaml 便利ですよね!
    • json で書く場合(sample.json)
    • yaml で書く場合(sample.yml)
  • なぜ jsonyaml として読みたいのか?
  • json ファイルを yaml として読む
  • 終わりに

yaml 便利ですよね!

実験管理の config (あるいは setting?) を yaml ファイルで書くようになってから随分経ちました。 クォーテーションが要らない、括弧が少なく済む、ブロックスタイル使えるといった理由からスッキリ書けるし楽です。
あと json で書くと迂闊にカンマを入れたときに error が発生するので非常にめんどくさい。まあそもそもログには使うけど人が書くのには向かないのか...?

また、コメント書けるのも人が書きやすい理由ですね。

続きを読む

DSB2019 のラスト5サブを全て Error で溶かした kaggler がいるらしい

はい、僕です。

この記事は最近(2020-01-22 23:59 UTC)までkaggle で行われていた Data Science Bowl 2019 の反省記事的なやつです.

www.kaggle.com

最終日だけ冒頭の error を(しかも5サブ分全て)起こしてしまい, 非常に残念な気持ちでコンペを終えました(幸いにして一応メダルは獲れた).

本当は気持ちのこもった振り返り記事を書こうと思ってたのですが(短期間とは言えしっかり kaggle に取り組めたのが久々で, しんどいけどめちゃくちゃ楽しかったこととか, pandas 芸で学んだこととか, ... etc.), この error がどの処理で起きたのかだけは確かめたかったので先行して書くことにしました.

メモリエラーかと思ったらメモリエラーでは無かったっぽい?(ちょっとここ不明瞭なのですが...) とりあえず特徴量増やしたら死んだという感じでした.

因みに既に振り返り記事を書かれている方が何人かいらっしゃいます(今後も増えそう).

naotaka1128.hatenadiary.jp

socinuit.hatenablog.com

この記事では解法とかの話ではなくerror に絞った話をするので, こういった記事の方が雰囲気がつかめるかもしれないです.

submission error に苦しんだ人の目に止まれば良いな...


目次

  • データの簡単な説明
  • 特徴量の作り方の方針
  • 何の処理で落ちていたか?
  • ちょっと解せないところ
  • おわりに
  • おまけ:今回のオチ
続きを読む

SPAでKaggleするために回った施設を独断と偏見で紹介する

【2019/12/28 追記】 RAKU SPA 鶴見は 2019/12/9-2019/12/13に行われた改装に伴い環境が大きく変わってしまいました。よってこの記事で述べている情報は古いです。ご注意ください。

こちらの記事は kaggle その2 Advent Calendar 2019 の2日目の記事となります。

はじめに

この記事を読もうと開いた方は SPA Kaggle (あるいは spaggle) という言葉を見聞きしたことがある、かもしれない。可能性はゼロではないはず...*1
別に明確に定義されているわけでは無いですが、文字通り SPA に行って kaggle 関連の作業をしつつ、合間合間で休憩がてら温泉やサウナでリフレッシュすることだと僕は思ってます*2

僕自身がこの spaggle をするようになったのは Twitter 上でちらほら「SPA で Kaggle してる」「SPAでめっちゃ捗った」みたいな Tweet を見かけるようになったからです。ちょっと前からテレビで「サウナはいいぞ」みたいなのが流れるようになったらしい(TV見ないので詳しく知らない)のですが、その波は kaggler 達にも来ていたらしい?

そんなこんなでしばらく spaggle を続けていたところお風呂でのんびりするのは結構好きだったらしく(自分で準備するのはめんどくさいので家ではあまり炊かない)、週一くらいの頻度で行くようになり、もはや趣味と言って良さそうになってきたので記事を書くことにしました。

kaggle に関する(技術的な)知識を求めてやって来た方には申し訳ないのですがこの記事では SPA の話しかしてません。

この記事が参考になるかもしれない kaggler:

  • お風呂とかサウナが好きな kaggler
  • 家だと何かダラダラしてしまって集中できない kaggler
  • 神奈川と東京の間に住んでいる kaggler (もしくは横浜近辺に住んでいる kaggler)*3

この記事を読まなくて良いと思われる kaggler:

  • お風呂やサウナが嫌いな kaggler
  • 自身のマネジメントがしっかり出来、家でいつでも集中できる kaggler
  • 技術的な内容が書かれていると思っていた kaggler (ごめんなさい)
  • サウナと 作業 performance の関係性が知れると思ってた kaggler (ごめんなさい)
  • 関東地方に住んでない kaggler (他地方についてはその地方の人にお任せします)

ここらへんご了承の上、ゆるゆるとご覧ください。

因みにこの spaggle という名称ですが、Twitter で検索する限り*4は以下が起源らしい。

この Tweet の驚くべきところは日付が 2019/7/30 つまり夏であるということ。完全に時代を先取りしている...
もちろんこれ以前から SPA で Kaggle してた kaggler の方はいらっしゃると思いますが、「SPAでKaggleする」という意味での spaggle の初出はおそらくここかなと。

目次

  • はじめに
  • そもそも Kaggle するのに SPA 行く必要ある?
  • 施設紹介(×5)
    • スカイスパ YOKOHAMA
    • RAKU SPA 1010 神田
    • RAKU SPA 鶴見
    • 港北天然温泉 ゆったりCOco
    • 両国湯屋 江戸遊
  • 色々比較してみる
    • 作業専用スペース
    • 料金
    • アクセス
  • その他
  • おわりに
  • 参考: SPA 探しで参考にしたサイト

*1:Twitter で検索したら spaggle という単語を使ってる日本人 kaggler は僕含め 4人だけだった

*2:SPA に行って Kaggle本の写真を撮ることではない。

*3:筆者が横浜市民なため回る施設も神奈川よりになりがち

*4:https://twitter.com/search?q=spaggle%20lang%3Aja&src=typed_query&f=live

続きを読む

分析コンペLT会 #1 に参加しました

以下の 分析コンペLT会 に参加しました. とっても楽しかったです!

kaggle-friends.connpass.com

本当はアドベントカレンダーとの兼ね合いもあって書くか迷ってたのですが,

運営の方に予めお礼を言われてしまったので振り返りも兼ねて書くことにしました.

いつもながらバラバラと書いてますが, 資料のまとめ + こういう感想持つ人も居るんだなくらいの気持ちでゆるりとご覧ください.

  • Talk 一覧
    • Opning Talk ~分析コンペ LT会を開いた理由~ by currypurin さん
    • 学習・推論パイプラインを構築する上で大切にしていること by takapy さん
    • 初手が爆速になるフレームワークを作ってコンペ設計した話 by nyker_goto さん
    • LightGBMTunerを使ってみた by wakame1367 さん
    • テーブルコンペと比べて分かる画像コンペ入門 by sinchir0 さん
    • 会場スポンサートーク by aki_honmono さん
    • 実践 PyTorch-Lightning by fam_taro さん
    • AutoML はお好きですか? by 紺 さん
    • Play with Kaggle discussion's text data by kaerururu さん
    • Target Encoding はなぜ有効なのか by hakubishin さん
    • 分析コンペ用のオンプレマシン選定・構築について by mhiro2 さん
  • おわりに
続きを読む