スマブラー格付けチェックの正解者はスマメイトレートが有意に高いか?【スマブラSP】
この記事では、にえとの氏企画のスマブラー格付けチェックの正解者、不正解者それぞれについて、スマブラSPオンライン対戦サイトスマメイトのレートを比較し、正解者が不正解者に比べレートが有意に高いかを統計的に検証する。
スマブラー格付けチェックは、にえとの氏が年末年始に実施しているクイズ企画である。出題動画には操作プレイヤーが伏せられた状態でA,B2種類のスマブラ1on1対戦が記録されており、片方は国内大規模大会優勝クラスの「最上位勢」同士の対戦、もう片方はBest96クラスのプレイヤーの対戦となっている(使用キャラやカラーは共通)。回答者はTwitterのハッシュタグや投票機能、youtubeのコメント機能を使って最上位勢同士の対戦がA,Bどちらか予想する。
この格付け企画だが、元ネタと同様「割と」最上位勢でも不正解を選ぶ。私のTwitterタイムラインでも間違えている強い人が沢山いるし、勿論私も間違える。一方、スマブラ初心者や別ゲー界隈の人でも「割と」正解する。となると、正解者と不正解者の強さに差があるのか気になるのが人情である。一部の上位勢が間違えるのは企画としては面白いが、行き過ぎると問題が不適切ということになる。
一方、スマメイトはのちょう氏が運営しているスマブラSP用のオンライン対戦サイトであり、勝敗と対戦相手のレートに応じて自身のレートが変動する。スマメイトを参照することで、格付けチェック正解者と不正解者のレートに有意差があるか調べることができ、それをもって「強さ」の分布の違いを推し量ることができる。勿論、全回答者がスマメイトに登録しているわけではないし、登録していてもあまりスマメイト対戦をしていない場合がある点には留意しなければならない。*1
なお、使用コードやデータは以下で公開している。
以下では、上記動画のスマブラー格付けチェックの正解ネタバレがあるので注意してほしい。未視聴の人は是非出題動画を見て自分なりの回答を出してから閲覧しよう。
- TwitterAPIを利用してハッシュタグ付きの回答ツイートを取得する
- 回答ツイートを集計・分析する
- 回答者のスマメイトレートを取得する
- 回答者のスマメイトレート分布を比較・分析する
- まとめと今後の課題
TwitterAPIを利用してハッシュタグ付きの回答ツイートを取得する
前述の通り、スマブラー格付けチェックに回答する経路は様々あるが、Twitter投票機能は匿名、youtubeコメントや引用RTはデータ取得や回答の自動判定が難しい。*2 *3
よって今回は、Twitterハッシュタグ付きの回答を調査する。
これはBやね#スマブラー格付けチェック#Bの部屋
— YON (@yoyoyo_4) 2021年12月29日
△Twitterハッシュタグ付きの回答の例
調査の上で欠かせないのがTwitterAPIである。無料版のAPIは検索の遡及日数やツイート取得頻度に大きな制約があるが、それでも手作業よりはずっと効率的にツイートやユーザーの情報を抽出できる。*4
TwitterAPIで取得するツイートの条件
- 2021/12/29 18:00(出題ツイート投稿) から 2021/12/30 17:59(正解発表ツイート投稿直前)の間に投稿されている *5
- #Aの部屋, #Bの部屋 のハッシュタグのうち片方を含み他方を含まない
ツイートから取得する主な情報
- ツイートのURL、ハッシュタグ、投稿時刻
- ツイート投稿者のTwitterユーザーID、フォロワー数、プロフィール文
上記の情報を加工して得る情報
回答ツイートを集計・分析する
スマメイトレートと紐付けていない現時点のデータでも色々なことが分かる。少し脇道に逸れるが、順に見ていこう。
ハッシュタグによる回答が何名分あるか?
ハッシュタグによる検索では、合計1869名(A回答922名、B回答947名)分のデータを取得できた。正解はAなので正解率は49.3%となる。記事投稿時点の出題動画のコメント(約500件)よりは数が多いが、出題ツイートのアンケート投票数(18500件)よりはかなり少ない。また、ハッシュタグ投票ではBの方が多いがアンケートではAの方が多い。分析には十分耐えるサンプルサイズなのでこのまま進めよう。
【スマブラー格付けチェック】最上位勢同士の対戦はどちらか!?2022年年末年始編【スマブラSP】
— DNG|Nietono / にえとの💀 (@Ueji1123) 2021年12月29日
皆さん是非気軽にご参加ください。#スマブラー格付けチェック #Aの部屋 #Bの部屋https://t.co/grYMNxVz38 @YouTubeより
△アンケート付きの出題ツイート
出題動画に出ているキャラの使用者は正解率が高いか?
今回のスマブラー格付けチェックはソニック対ピクオリのカードだった。ソニック使用者やピクオリ使用者ならキャラの理解が深く、このカードの対戦経験もあるだろうから正解率が高いだろうか?
しかし、集計した所ソニック使用者と推定される37名のうち正解者は12名(32.4%)、ピクオリ使用者と推定される32名のうち正解者は12名(37.5%)となり、むしろ出演キャラ使用者の方が正解率が低い結果となった。
ソニック窓の惨状 pic.twitter.com/1ErZUBVk1R
— RYO (@RyoSonicssb4) 2021年12月30日
△ソニック窓(ソニック使用者限定のdiscordチャンネル)内でも投票をしていた模様。正解率23.5%(17名中4名)という悲惨な結果になっている
出題から時間が経つと回答の傾向が変化するか?
スマブラー格付けチェックは出題から正解発表まで猶予があり(今回は24時間)、回答を後出しすればするほど他の人の回答を見られるので有利となる。
しかし、経過時間ごとに集計したところ、時間が経つと回答数は大きく減少し、正解率はあまり増加しないことが分かった。経過時間と正解率の相関係数は0.21となっており、強い正の相関はやはり確認できない。
△経過時間ごとの回答人数(赤がA回答、青がB回答、横軸が経過時間、縦軸が回答人数)
△経過時間ごとの正解率(横軸が経過時間、縦軸が正解率)
回答によってフォロワー数の分布が変わるか?
せっかくなのでTwitterらしい集計もしてみよう。回答、フォロワー数ごとに投票数の分布を見ると、僅かであるが正解者の方がフォロワーが多い傾向が見られる。*9
なお、フォロワー数の最大値が10万人を超えているため、以下のプロットでは表示するフォロワー数の範囲に適当な制限を設けている。
△横軸を0-2000人の範囲に絞ったときの、回答、フォロワー数ごとの回答数ヒストグラム(赤がA回答、青がB回答、横軸がフォロワー数、縦軸が人数)。紫に見えている部分は赤青が重なっている
△横軸を1000-20000人の範囲に絞ったときの、回答、フォロワー数ごとの回答数ヒストグラム(赤がA回答、青がB回答、横軸がフォロワー数、縦軸が人数)。縦軸範囲の変化に注意
△縦軸を0-2000人の範囲に絞ったときの、回答ごとのフォロワー数箱ひげ図(横軸が回答、縦軸がフォロワー数)
回答者のスマメイトレートを取得する
スマメイトにはプレイヤー検索機能があり、実はTwitterのscreen_name(@以降のID)でも検索できる。よって、先程TwitterAPIで取得した格付けチェック回答者のデータを使い、Webスクレイピングで検索と結果取得をすればよい。
この方法で、格付けチェック回答者のうち686名(A回答353名、B回答333名)の、2022/01/02時点のスマメイトレートを取得できた。ただし、取得時点ではスマメイトはサブシーズンであったため、0戦状態かつ初期レート1500のプレイヤーは全て除いている。*10
なお、サーバーに負荷をかけないよう、年末年始の深夜~早朝の極めて人が少ない時間に適切なアクセス間隔を設けてスクレイピングを行った。
△Twitterのscreen_nameによるプレイヤー検索の例
回答者のスマメイトレート分布を比較・分析する
以上のステップを経て収集したスマメイトレートを回答ごとにプロットし、分布を比較する。サブシーズンの影響もあり、全体的に1500付近に集まった分布となっている。
△回答ごとのヒストグラム(赤がA回答、青がB回答、横軸がレート、縦軸が人数)
△回答ごとのバイオリンプロット(横軸が回答、縦軸がレート。横の広がりが確率密度を示し、点線は下から順に第1,2,3四分位数を示す)
A | B | |
---|---|---|
人数 | 353 | 333 |
平均 | 1548.8 | 1527.9 |
標準偏差 | 118.2 | 109.8 |
最小値 | 1253 | 1209 |
第1四分位数 | 1470 | 1463 |
中央値 | 1524 | 1508 |
第3四分位数 | 1608 | 1581 |
最大値 | 1915 | 1916 |
△回答ごとの基本統計量
上記の表からも分かるように、正解者の方が第1,2,3四分位数全てにおいて上回っているが、その差は僅かである。この2つの集合の違いは誤差の範囲に収まるものだろうか?
それを調べるために、帰無仮説を「2群の代表値に差がない」とし、対応の無い2群の代表値の差を検定するマン・ホイットニーのU検定を用いたところ、結果は以下のようになった。*11 *12
- p値 0.0318 (<.05)
- Z値 2.15 (>1.96)
- 効果量 Cliff’s delta 0.0948 (<.10) *13
よって、有意水準5%のもとで帰無仮説は棄却され、正解者の方が不正解者よりもレートが有意に高いと言える。しかしながら、有意水準1%では帰無仮説が採択されるほどの微妙な差であり、効果量(差の大きさの程度を表す数値)は0付近である点には注意しなければならない。
まとめと今後の課題
2021年末のスマブラー格付けチェック回答者のスマメイトレート分布をマン・ホイットニーのU検定を用いて分析したところ、正解者の方が不正解者よりもレートが有意に高いと分かった。しかし効果量は小さく、微小な差異しかない点には注意する必要がある。
今回はスマメイトがサブシーズンであったためレートの分布が1500近辺に偏っており、レート2000を超えている回答者は確認できなかった。本シーズンのスマメイトを待って、そのレートを使えばより正確な分析ができるだろう。
また、オフ大会をベースとしたレーティングを使用するとスマメイトをあまりプレイしていないプレイヤーについても分析が可能になる。今はJPRのように標準的に使用されているオフレーティングが無いため、今後の発展に期待したい。*14
*1:スマメイトの初期レートは1500であり、「期」ごとにリセットされる。なお、記事執筆時点では第16.5期「サブシーズン」となっており、初期レートは(前期最終レート+1500)/2で計算される。また、第16期のレート分布は右に歪んでいる
*2:特定のツイートに対する引用RTをTwitterAPIで取得する方法は分からなかった。URLの文字列を検索することで引用RTの検索ができるという記事は見つけたが、記載されているような検索機能は見つからなかった。APIのバージョン違いかもしれない
*3:たとえば以下にあげるようなツイートは回答の自動判定が難しい 例1 例2 例3
*4:自分はTwitterAPIを申請・取得済みだったが、これはあるキャラがどれくらい不快キャラなのか調べるためのツイート感情分析を予定していたからである。無料APIの制約が予想以上に厳しいと分かり分析はお蔵入りとなった
*5:データ取得は正解発表後だけでなく、正解発表前にも何度か取得して重複を除いている。正解発表後に回答ツイートを削除する不届き者がいるからである
*6:1人で複数回回答している人が稀にいるため、ユーザーごとに最後の回答のみ集計している
*7:プロフィール文に「ソニック」「sonic」のいずれかを含むか。英字の大文字小文字は問わない
*8:プロフィール文に「ピクオリ」「ピクミン」「オリマー」「アルフ」「pikmin」「olimar」「alph」のいずれかを含むか。英字の大文字小文字は問わない
*9:A回答者にのみフォロワー10万人超えがいるため、平均値はA回答者1125人、B回答者483人となり大きな差がついている
*10:この条件では前期たまたまレート1500ぴったりで終了し、今期0戦のプレイヤーも除かれてしまうが、そのような人は少ないと考えまとめて除くことにした
*11:マン・ホイットニーのU検定はノンパラメトリック検定であり、四則演算ができない順序尺度にも適用できる。今回はサンプルサイズが大きくノンパラメトリック検定を使う必要は無いが、スマメイトの第16期レート分布は右に歪んでいること、レートは特殊な過程を経て計算される間隔尺度であることから、安全と簡単のためにU検定を用いた
*12:サンプルサイズが大きい(n1>100, n2>100)ため、Z検定を適用できる。今回の検定ではZ=2.39(>1.96)となり、U検定と同じく有意水準5%のもとで帰無仮説は棄却される。また、区間推定すると信頼度95%で母平均の差は3.78から37.9の間にあると分かる
*13:よく使われる効果量にはr値もある。U検定のr値はZ/sqrt(N)で計算でき、今回の検定で計算するとr = 0.0820(<.10)。こちらでも効果量は無視できる大きさとなる