概要
食べログの得点は、ユーザーが入力した評価の分散が小さく、かつ得点が3.20未満のとき、3.22に底上げされる処理があるかもしれない。あまり自信ない。
背景
食べログの掲載店舗の得点について、インターネットのまとめサイトでは、「評価3.8以上は年会費を払わなければ3.6に下げられる」という流言がしばしば掲載されてきた。さらに、この仮説を統計的な手法で実証したと主張するブログ記事が出現し、話題となった。これに対して、食べログの運営者である株式会社カカクコムは、この疑惑を否定するプレスリリースを発表した。また、この件について検証を試みた複数の記事がブログなどで掲載されている。
井上明人は、店舗のレビューの数によって得点の最頻値が異なることを示し、少なくとも4種類の異常なピークが存在することを明らかにした。以下の図は井上明人からの引用である。
この図から読み取れる4種類のピークは、3.0のすぐ上、3.2のすぐ上、3.6のすぐ下、3.8のすぐ下である。
これらの異常値のうち、3.01のピークについては、得点が3.00未満の店舗の得点を3.01に底上げする処理の存在が示唆されている。では、他の3種類のピークについても、定性的な理解を進めることが可能だろうか?
データの収集
今回の調査では、2019年10月14日時点に収集したデータを使用した。食べログの掲載店舗のうち、宮城県仙台市に立地し、なおかつレビュー数が30以上40以下であるものを調査対象とし、これらの店舗の得点とレビュー数を収集した。
また、これらの店舗のうち、得点が3.22ちょうどであるものと、得点が3.20未満であるものについて、ユーザーによる評価点を収集した。ユーザーによる評価点は、0.5点刻みのビン (1.0以上1.5未満、1.5以上2.0未満、2.0以上2.5未満、……、4.5以上5.0未満、5.0ちょうど) ごとの人数を収集した。これは、以下の図のような画面を目視することで収集できる。
データの収集はスクレイピングを用いず、ウェブサイトの目視によった。
統計的な処理
以下の図は、レビュー数が30以上40以下である店舗の得点のヒストグラムである。ヒストグラムのビン幅は0.01である。このビン幅を選択したのは、食べログの得点が0.01を最小単位として表示されるためである。この図は得点が3.00以上3.40未満の店舗のみを示している。得点が3.40以上の店舗もわずかに存在するが、この図では省略した。得点が3.00未満である店舗は、実際に存在しない。
この図から読み取れるように、3.22に異常なピークがある。レビュー数が30から40あたりの領域において、3.2のすぐ上に異常なピークがあることは、井上明人 (前掲) の調査ですでに明らかである。今回の調査でもそれが裏付けられた。
次に、得点が3.22である店舗群と、得点が3.20未満である店舗群について、ユーザーが入力した評価点の分布を調査する。ここでは、評価点を入力したユーザーに占める、2.0点以上4.0点未満の評価点を入力したユーザーの割合を、評価点のばらつきのなさの指標として用いる。
以下の表は、得点が3.22である店舗群と、得点が3.20未満である店舗群について、評価点のばらつきのなさを比較した表である。表の第1列は店舗の得点である。第2列はレビューの数である。第3列は、得点が3.22ちょうどであればX印を印字し、そうでなければ空欄とした。第4列は、評価点のばらつきのなさ、すなわち、2.0点以上4.0点未満の評価点を入力したユーザーの割合である。
この表から読み取れることは、「評価点のばらつきのなさ」の閾値を0.900あたりに見ると、それよりも上にX印が集中していることである。ただし、集中しているといっても、例外も多く、すべてのデータを完全に説明できるものではない。
考察
得点を10進法で表記したときの心理的な影響から、得点が3.20を下回った店舗に対して、何らかの条件によって、得点を3.22まで底上げする処理が存在すると推測した。また、食べログの公式ドキュメントでは、「評価が割れているお店」の処理を低く抑えているかのような記述があることから、得点を3.22に底上げする処理は、ユーザーによる評価点のばらつきが小さい店舗に対して行われていると推測した。
実際に、得点が3.22である店舗は、評価点のばらつきが小さい店舗が多く、得点が3.20未満である店舗は、評価点のばらつきが大きい店舗が多い。しかしながら、この仮説によってすべてのデータを説明できているわけではない。特に、この処理が、評価点のばらつきが小さい店舗への救済措置であると仮定するならば、評価点のばらつきが小さいにもかかわらず得点が3.20未満にとどまっている店舗の存在は、たとえ1件であっても問題になる。
これらの考察から、得点が3.20未満である店舗のうち、ユーザーが入力した評価点のばらつきが小さい店舗は、得点が3.22に底上げする処理が存在するかもしれない、ただし確信は持てない、ということが言えるであろう。
議論
今回の一連の騒動では、食べログの得点には3.6と3.8に異常な特徴が存在するという統計的な分析と、「評価3.8以上は年会費を払わなければ3.6に下げられる」という流言を結び付けた主張を行った者がいたことから、人々の耳目を集めることとなった。しかしながら、井上明人 (前掲) によれば、食べログの得点には少なくとも4種類の異常なピークが存在する。そのうち2種類の特徴だけを取り出して、流言飛語の類と結びつけるのは、いささか軽率であろう。
このような騒動に立ち向かうためには、統計的な処理をもてあそぶだけでなく、定性的な理解を進めることが欠かせない。墓場人夜 (前掲) は、3.01のピークについて、得点が3.00未満の店舗の得点を3.01に底上げする処理が存在することを示し、これを低得点の店舗に対する救済措置であると解釈した。今回の調査では、3.22のピークについて、ユーザーが入力した評価点のばらつきが小さな店舗の得点を3.22まで底上げする処理が存在するという解釈を示した。ただし、この解釈によってすべてのデータを説明できるわけではなく、あくまでも、このような処理の存在を示唆するにとどまった。
課題
得点が3.22ちょうどである店舗群に対して、得点が3.20未満である店舗群を対照群としたのは、あまり良い判断ではなかった。たぶん3.20と3.21も対照群に含めるべきだったと思う。食べログの得点調整アルゴリズムの設計者が、10進法の切りの良い数字に心理的な効果を認めているという仮定は、あくまでも推測であって、明確な根拠があるわけではない。
まとめ
食べログの得点分布に存在する複数の異常な特徴のうち、3.22のピークについて、ユーザーが入力した評価点のばらつきが小さな店舗の得点を3.22まで底上げする処理が存在するという解釈を示した。