ソースコードの演算子と予約語を除去して、トークンだけにした上で統計的に分析するの、有料ツールでわざわざ複雑なグラフ出して手作業で分析するより有用だと思うなあ
n-gramっぽく前後2トークンの類似度合いで分析するとコピペしてるとこ見つかったりするし
トークンあるかないかだけで類似調べても似たようなファイルのグループがわかるし
Conversation
Notices
-
名前欄には名前を書こうキャンペーン (ltzz@mstdn.poyo.me)'s status on Wednesday, 26-Dec-2018 17:40:17 JST 名前欄には名前を書こうキャンペーン - :nonke:差別的なドメイン名:homoo: repeated this.