テレビ視聴率は標本調査

日本経済新聞. “平成視聴率トップ　『半沢直樹』と『平成教育委員会』”. https://www.nikkei.com/article/DGXMZO43371030V00C19A4000000/ （参照2024-4-19）

どうも！今年4月に入社したピチピチ新卒のやなぎです！

突然ですが、上にあるようなテレビの視聴率ってどう測ってるのか気になったことありませんか？

テレビの視聴率を調べる時、全ての世帯を調査しているわけではありません。実際、皆さんのほとんどが視聴率の調査に協力した経験はないと思います。（経験ある方はすごい確率なのでドヤ顔で周りに話しましょう

実は、視聴率は「標本調査」という方法で計測されています。

これは、全ての世帯から選ばれし世帯のみを調査対象とするもので、その世帯でどのテレビ番組がどれくらいの時間視聴されているかを測定することにより、全体の視聴傾向を推測します。

具体的には、関東エリアだと2000万世帯から2700世帯のみが選ばれ、関東代表として視聴情報を調査されています。（ちなみに調査対象に選ばれると年間で2~3万円ももらえるらしい...

標本調査では誤差が生まれる

例えば、やなぎくんは

事業部メンバー50人全員での平均身長が知りたい！

と思い立ったとします。しかし、新卒が50人全員に身長を聞いて回るのも気が引けます。そこで、

50人全員じゃなくても、ランダムに選んだ10人にだけに身長を聞いて平均とれば、事業部全体の平均身長と同じくらいになるっしょ！

と考え、50人の名前を書いたくじを作り、10人をランダムに選びSlackで身長を聞きました。

これが標本調査です。

下の表は選ばれし10名の身長(cm)をまとめたものです。

Aさん	Bさん	Cさん	Dさん	Eさん	Fさん	Gさん	Hさん	Iさん	Jさん	平均
167.5	198.9	172.0	215.0	172.2	166.8	169.2	165.3	164.2	160.2	175.1

10人の平均身長は175.1cmだ！じゃあ、事業部全体でも「175.1cm」だ！

...しかし、この数字は正しいのでしょうか。

納得がいかなかったOJTのぼくしさんは、真面目にメンバー50人全員に身長を聞いたところ...

事業部全体では「170.0cm」だった！

今回の調査対象にBさん、Dさん、というかなり身長が高い２人がたまたま入ってしまったので、それに引っ張られて標本での平均身長が高くなったのかもしれません。

この、5.1cmのズレを「標本誤差」と言います。

つまり、全体のサンプル（事業部メンバー50人）から標本（くじでひいた10人）をランダムに抽出した際に発生する誤差という感じです。

実際、視聴率だとどれくらいの誤差があるの？

初めの節で言った通り、テレビの視聴率調査は標本調査なので当然、標本誤差は存在します。

ビデオリサーチ社（テレビの視聴率を集計する会社）では、下の数式で標本誤差を計算しており、その下の表に計算された標本誤差が記載されています（単位は%）。(https://www.videor.co.jp/tvrating/attention/)

$\displaystyle 標本誤差 = ± 2 \sqrt{\frac{世帯視聴率(100-世帯視聴率)}{標本数}}$

世帯視聴率	標本数200	標本数400	標本数600	標本数1400	標本数2700
5% / 95%	±3.1	±2.2	±1.8	±1.3	±0.8
10% / 90%	±4.2	±3.0	±2.4	±1.7	±1.2
20% / 80%	±5.7	±4.0	±3.3	±2.3	±1.5
30% / 70%	±6.5	±4.	±3.7	±2.6	±1.8
40% / 60%	±6.9	±4.9	±4.0	±2.8	±1.9
50%	±7.1	±5.0	±4.1	±2.9	±1.9

表の見方

例えば、関東エリアにおいて世帯視聴率が10%の番組では、関東エリアは標本数（調査対象の世帯数）が2700世帯と決まっているので、その標本誤差は「±1.2%」もあります。（世帯視聴率=10%, 標本数=2700なので上から2行目、左から5列目を見れば良い）

つまり、

世帯視聴率は8.8%~11.2%までの幅を持つ

ことが分かります。実際に「この番組の世帯視聴率は10%です！」と言っていても、本当は9%かもしれないし、11%かもしれない。それくらいの誤差がこのデータには存在するということです。

関東には2000万もの世帯があるので、1%ずれると20万世帯（約50万人）が視聴してるかどうかがずれることになるので、マーケティングにおいてはかなりのズレになるはずです。

標本数が増えるごとに、標本誤差は小さくなっていく

これはテレシー50人のうち10人を標本とするか、40人を標本とするかで、40人の方が誤差が少ない、ということは直感的にも分かるかと思います。

ちなみに標本数は、関東では2700世帯ですが、関西は1200世帯、名古屋は600世帯、北部九州・札幌では400世帯、そのほかの地域では200世帯（2020年3月時点: https://www.videor.co.jp/press/2020/200206.html）なので、その誤差はどんどん大きくなっていきます。

例えば、長野エリア（標本数=200世帯）で世帯視聴率が10%の番組があったとしても、標本誤差は「±4.2%」なので

実際の世帯視聴率は、5.8%~14.2%までの幅を持つ

わけです。

こうなったら「もう全然ちゃうやん。」って感じですよね。

しかし、調査のコストを考えるとビデオリサーチ社側も「これ以上調査対象を増やすわけにもいかない。」って感じなんだと思います。

実際にテレシーではこういったデータを扱っており、仕事をする上では「誤差のことを考えてもしょうがない。」という気持ちは分かりますが、

こういう誤差が存在しうるデータを扱っているという認識を持つ

ことは大事かもしれないですね〜

おまけ（統計をかじったことがある人向け）

標本誤差の式でわかる通り、これは「視聴率を確率変数としたときに、視聴率の分布は正規分布になる」ということを前提としています。
- これってほんとに正規分布になるの？または正規分布と近似しても良いのか？を別記事でやるかも
標本誤差の式で √ の係数が「２」になっている。これは、95%信頼区間（正確には1.96になるはずなので、95.544%信頼区間）で誤差を考えているということです。
- {90%, 80%, 99%} 信頼区間にすると標本誤差はどう変わるのか？を別記事でやるかも