Conversation
Notices
-
地震予測コンペ
1位: #1 private LB kernel LANL lgbm | Kaggle https://www.kaggle.com/ilu000/1-private-lb-kernel-lanl-lgbm
2位: 2nd place solution | Kaggle https://www.kaggle.com/c/LANL-Earthquake-Prediction/discussion/94369
-
・勝者の使った特徴量は意外にシンプル (ピーク数、パーセンタイル、MFCC平均値2種)
・ガウシアンノイズを入れるデータオーギュメンテーション (でもその後ウェーブレットでデノイズしてる…)
・ノイズを入れた後、中央値を引いてる
・学習データを何か選別してる
・n_fold=3
・LightGBM一本 (アンサンブルなし、2位はCatBoost)
-
パブリックカーネルで出てきた何でもかんでも特徴量入れてその上複数モデルをアンサンブルってチュートリアルとしては良くても結果は良くないのかもな。性能出ないわりに、チューニングしずらいし、時間かかるし、わかりづらい。
そしてNNの存在感が無く、時系列の回帰ってNNよりGBDTが強いのかな。いろいろ考えさせられる。
-
@akionux 何位だったの?
-
@kamiyajing 2217/4541
-
@akionux おお。でも半分より上位は行ったんだ。1位なんかオーストリアの チームでがちっぽいね。 キレッキレ感が半端ない。
https://www.philippsinger.com/
-
@kamiyajing 物理系な人が次に挑むと思われる戦いはこれ:
Predicting Molecular Properties | Kaggle https://www.kaggle.com/c/champs-scalar-coupling
分子の構造から原子間の結合定数を予測するコンペティション。
-
@akionux 先週高分子討論会に参加したけど、実験系の合成屋の人と話して、合成屋は例えば高分子鎖の カルボキシル基がベンゼンに変わったら、物性はどう変化するかとか、けっこうピンポイントな個別性の強い 理論を欲してて、だから重要なのはy=Ax^bのAの定数の方に興味が合って、 対して 理論屋は物性の個別性に依らない普遍性を探求してて、つまり Ax^bのbのべき数に興味があって、お互いすれ違ってるのだときづいたい。多分合成屋さんはこういうず ばりな理論が欲しいんだと思う。
-
@kamiyajing データサイエンティストなら因果は説明できないけど、ずばり当てまっせ
-
@akionux そうなると、自分の居場所はあるのかなぁと思ってしまった高分子学会であった。しかし、高分子学会はほんと合成屋の集まりになってて、理論という理論やってる人がほとんどいなくなってた。一方でデータサイエンスに期待している雰囲気もあった。
-
@kamiyajing 機械学習で実用上は予測できるとなると、理論の立場はどうなるのかという懸念はありますね。言葉で説明できないけど機械学習でわかる問題が複雑な現象で意外に多いのかも。ただ、説明できないままで良いのかという疑問も残りますが。
-
@akionux そうなると、理論における「 わかる」という言葉の意味が分岐することになるね。機械学習での「わかる」は結果を予測できるで、理論屋の「 わかる」は過程が明らかになる。つまり、応用と基礎の隔絶がどんどんはなはだしくなるのと、混乱していくと思う。少なくとも理論屋的には機械学習はサイエンスではないという言い分になるんだろうね。しかし、これも完全に理論屋が機械学習に 取って代わられるかというよりは、いままでのあらゆる前提や 意味がすげ替えられているという事態にむしろ近いのだと思う。
-
@kamiyajing 分断を招く可能性もありますが、理論と実験の実践と理論の橋渡しをする可能性もあると思います。最小二乗法の延長線にあるものですからね。従来は実験データをフィッティング等で数式に落として数式を理論屋が考えるのが定番でしたが、数式とは限らない何か別の形式に持ち込まれ得るようになったということなのかもしれません。