マーケティングリサーチでの”外れ値”、”異常値”を論理的に見極める方法

2020年9月
月	火	水	木	金	土	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

マーケティングリサーチの学び場『Lactivator』代表。自動車会社でマーケティングリサーチに従事後、誰でも気軽にマーケティングを学べる場として2012年に本サイトを開設。また故郷：群馬県の活性化の為、2013年より上毛かるたの日本一決定戦『KING OF JMK』を主宰。著書『上毛かるたはカタル』も発売中。

●無料メールで学ぶマーケティング講座配信中⇒こちら

●LINEでも最新ブログ、YouTube情報を配信中↓

こんにちは、マーケティングリサーチャーの渡邉俊です。

今日はリサーチには付きものである『異常値』の検出方法とその取扱いについてお話します。
アンケートなどの定量調査を分析する際、『あれ？なんでこんな数字が出てきたんだろう？』ということが往々にしてあります。
しかしそれを異常値として除去していいのかどうか判断に困ることも多々あります。

そんな時にどう対処すればよいかをまとめましたので是非読んで下さい。

目　　次

『外れ値』と『異常値』の違い

まず、『異常値』と似た様な言葉で『外れ値』という言葉があります。
ほぼ同じように用いられることが多いような気もしますが、基本的に異常値と外れ値は意味が違います。

『外れ値』とは、リサーチで測定または回収した他のデータと比べて極端に大きな値かもしくは極端に小さな値のことを指します。
そして、その外れ値の中でも、回答者の入力ミスやデータを入力した人のミスなどで極端にかけ離れているものが『異常値』です。
従いまして、「外れ値=異常値」とは限りません。

例えばある団体に加入している人の体重のデータで『200kg』という数字があった場合、一般の人の体重からは大きくかけ離れている外れ値ではありますが、異常値かと言われると悩みますよね。

現にお相撲さんなどで200kgを超える人はある程度いる訳ですから、その人に会って確かめてみない限りは異常とは言い切れない訳です。

もちろん『異常値』なのであればデータ分析から除去する必要があります。
ただそれを異常値なのかどうかを判断する為には、きちんと確かめないといけません。

グラブスの検定

大体の場合、外れ値なのか否か、異常値なのか否かの判断は分析者の感覚で決めてしまいます。
『これは明らかに変な値だから分析から外そう！』というその時々の感覚です(笑)
しかしそれは言い換えれば『恣意的』にデータを除去したとも捉えられてしまうので、本来はよくありません。

一応、外れ値か否かを判断する為に『グラブスの検定』という方法がありますので一応紹介しておきます。

異常値か否かの検定

グラブスの検定とはスミルノフ・グラブスが考案したものであり、極端に大きいまたは小さい値が異常値か否かをを検定するものです。

例えばあるお店で、来店客の中から毎月1000人にサービスの満足度を聴取したとします。
右の表はその際に『満足した』と回答した人の割合です。

ほとんどの月で80%前後の値となっているのに対して10月だけ38.7%と極端に低く、「これって調査方法か何かにミスがあった異常値なんじゃない？」と思いますよね。
ただ何の根拠もなくこの数値を除去してしまうと、自分に都合の悪いデータを隠したと言われかねません。
きちんと統計学的な根拠で大きく離れた値であり、「だからこの値を異常値として除外しました」と言いたい訳です。

そんな時にグラブスの検定を使います。

かけ離れた値の発生確率を算出する

グラブスの検定の考え方としては、

●平均値および正規分布からどれだけ離れた値なのか？
●その値はどのくらい確率で発生するものなのか？

を計算により算出します。

そして、『平均値および正規分布から大きく離れている』かつ『それが発生する確率は著しく低い』ということであれば異常値だと断定できる訳です。
その際、「発生する確率が5%未満」であれば異常値として扱う事が多いです。

グラブスの検定はエクセルなどの表計算ソフトがあれば実施可能です。
その為、ここではエクセルを使って行う方法を紹介します。

①仮説を立てる

まず検定なので帰無仮説を置きます。

帰無仮説：その値(38.7%)は異常値ではない。

『検定』を解説した時にも書きましたが、帰無仮説が棄却されるか否かを検定します。

②平均と分散を求める

次にデータの平均と分散を求めます。
今回の顧客満足度のデータは毎月1000人から聴取しているので、加重平均ではなく単純平均を採用します。

また『分散』という言葉について知らない方もいると思いますが、ここでは『データのばらつき度合』を数値化したものだと考えて下さい。

エクセルの場合、単純平均はAVERAGE関数、分散はVAR関数で簡単に計算できます。
それらの関数を使って右記のデータから計算すると、単純平均は75.9、分散は145.4となります。

③検定統計量を求める

ここまでできたら、次に『検定統計量』というものを求めます。
検定統計量(=t)とは、②で求めた平均値をX_ave、分散をσ、また異常値はどうかを知りたい値ををX_iを置くと、

で求められる数値です。

分子の『｜　｜』は、異常値か否かを知りたい値と平均値の差の”絶対値”を指しています。
分母の分散がなぜ平方根になっているのか？はここでは説明を割愛しますが、要するにこの値は

●異常値か否かを知りたい値が平均から離れていればいるほど、tは大きくなる。
●分散が小さいほど(データ全体がバラついていないほど)、tは大きくなる。

データが全体がバラついていないのに検定の対象とする値が平均から離れていればtは大きくなりますので、この数値の大きさによって異常値か否かが判断できる訳です。

上記のデータをこの式に入れ込むと、

(75.9 – 38.7) / √145.4 = 3.08

この値が今回の検定統計量になります。

④p値を求める

最後に求めた検定統計量のp値を求めます。
聞きなれない言葉が連続して出てきているかもしれませんが、p値というのは『仮説の元で、検定する統計量がその値(実際の調査結果)となる確率』の事を示しています。

上記でも書いた通り、今回は帰無仮説として、

帰無仮説：その値(38.7%)は異常値ではない。

と置きました。そしてその検定統計量は3.08と算出された訳ですが、『じゃあこの3.08ってどのくらいの確率で起こるの？』というのがp値です。

これもエクセルでは、TDIST関数を使って求める事ができます。

TDIST(X, 自由度, 分布の指定) = TDIST (3.08, 10, 2) =0.012

自由度というのは別のブログで詳しく説明しますが、この場合は(データの個数－2)を選びます。
今回の場合、データは12個ありますので自由度は10になります。
また尾部は片側検定(=1)か、両側検定(=2)かを選ぶのですが、今回は両側検定になるので2を選びます。

そうするとこの場合のp値は0.012と算出されます。

これは『統計検定量が3.08になる確率は1.2%』ということを示しています。
上段でも書きましたが、通常は発生確率が5%未満(p値が0.05未満)であれば帰無仮説を棄却します。
統計検定量が3.08 (顧客満足度が38.7%)になる確率は1.2%と極めて低いので、今回は異常値とみなすという事が論理的に言える訳です。

以上がグラブスの検定を使った異常値の判定です。
統計学の知識がないとちょっと難しいかもしれませんが、こんなのがある事を是非覚えておいてください。

外れた値は何でも除去すればよい訳ではない

上記のグラブスの検定は、あくまで異常値か否かの判断に迷った際に使用します。
ただ、そんなことをしなくても明らかにこれは測定ミスか入力ミスだと判断できる場合もたくさんあります。
そんな時にはいちいち検定などしなくても取り除いて結構です。

例えば、体重測定を行った記録のなかに、685kgという記載があった時にはどう判断するでしょうか。
おそらく、データ入力する際のミスではないかと考えられますよね。例えば“68.5kg”の小数点が抜けてしまい“685kg”と入力しまったという場合です。

このようにある程度原因が分かるもの、または明らかに異常値だと言えるものはわざわざ検定なんてしなくても除外してしまって構いません。

ただ、”外れ値”は何でもかんでも除去するというのはよくないです。
例えば上記の10月の顧客満足度：38.7%は明らかに異常値なので除去しましたが、これが『異常値ではない』という検定結果が出た場合、『なぜこのような結果が出たのか？』をきちんと考察する必要が出てきます。

もしかしたら10月だけ、お客様の満足度を下げる何らかの要因があるかもしれず、それが今後も発生する可能性がある訳ですから。

繰り返しますが、『異常値』は除去しないと正しい分析ができません。
但し『異常値ではない外れ値』は、その原因を知ることで新たな発見につながる可能性があるのですから、そこをきちんと考えましょう。

[ShortCode1]

【第32回】会社辞めて独立したい！！というマーケティングリサーチャーに最近よく相談を持ち掛けられます。もちろん良いと思いますが、これだけは準備しておいた方が良いということを自分の失敗経験を踏まえてお話します。

◆渡邉俊のプロフィール
1977年1月、群馬県生まれ。マーケティングリサーチ事務所 Lactivator 代表 / 一般社団法人KING OF JMK代表理事。
2001年に自動車メーカーに入社して、15年間マーケティングリサーチや商品の品質保証を担当。その後2016年に独立してマーケティングリサーチの専門事務所を設立。
現在はランドセルメーカーや資格学校、地方自治体など幅広い分野でクライアントを抱え、マーケティングリサーチ業務を行っているこの道20年以上のベテランリサーチャー。

また上記以外にも故郷：群馬県の地方創生の為に、『上毛かるた』の全国大会である『KING OF JMK～おとな達の上毛かるた世界一決定戦～』を開催。培ってきたマーケティングにノウハウを地方創生に活用する活動を展開している。NHK、新聞、雑誌、メディア取材多数。

◆著書
『アンケートは仕込みが全て』 (2025年2月)
『上毛かるたはカタル』 (2023年12月)

◆Webサイト
https://lactivator.net/

◆お仕事の依頼はこちらから↓
https://lactivator.net/request_from_corporation/

1 0

YouTube Video UExvRHZwd190WGRxTGFqVTA5Um40N2k5ZElEcjZvV3M0TC41QUZGQTY5OTE4QTREQUU4

マーケティングリサーチで独立したい！？悪い事は言わないからこれだけは知っておけ。#マーケティングリサーチ #マーケティング戦略 #独立起業 #独立

マーケティングの『ま』on YouTube 2025年7月10日 6:42 PM

【第31回】選挙で投票締切直後に当選確実が出るケースがありますが、これを出すベースになっているのが各メディアが行っている出口調査です。この出口調査ってどうやっているのかを徹底解説します。

◆渡邉俊のプロフィール
1977年1月、群馬県生まれ。マーケティングリサーチ事務所 Lactivator 代表 / 一般社団法人KING OF JMK代表理事。
2001年に自動車メーカーに入社して、15年間マーケティングリサーチや商品の品質保証を担当。その後2016年に独立してマーケティングリサーチの専門事務所を設立。
現在はランドセルメーカーや資格学校、地方自治体など幅広い分野でクライアントを抱え、マーケティングリサーチ業務を行っているこの道20年以上のベテランリサーチャー。

また上記以外にも故郷：群馬県の地方創生の為に、『上毛かるた』の全国大会である『KING OF JMK～おとな達の上毛かるた世界一決定戦～』を開催。培ってきたマーケティングにノウハウを地方創生に活用する活動を展開している。NHK、新聞、雑誌、メディア取材多数。

◆著書
『アンケートは仕込みが全て』 (2025年2月)
『上毛かるたはカタル』 (2023年12月)

◆Webサイト
https://lactivator.net/

◆お仕事の依頼はこちらから↓
https://lactivator.net/request_from_corporation/

1 0

YouTube Video UExvRHZwd190WGRxTGFqVTA5Um40N2k5ZElEcjZvV3M0TC43NDhFRTgwOTRERTU4Rjg3

なぜ投票締切終了直後なのに当選確実が決まる？出口調査の裏側を解説 #マーケティング戦略 #マーケティングリサーチ #ビジネス #選挙

マーケティングの『ま』on YouTube 2025年7月2日 6:00 PM

【第30回】商品やサービスの価格設定は誰しも悩むところですが、だからといって思い付きでやってはいけません。大企業や有名ブランドは消費者心理学に基づいた価格設定を当たり前のようにやっています。その中の基本的なモノを4つ紹介します。

◆渡邉俊のプロフィール
1977年1月、群馬県生まれ。マーケティングリサーチ事務所 Lactivator 代表 / 一般社団法人KING OF JMK代表理事。
2001年に自動車メーカーに入社して、15年間マーケティングリサーチや商品の品質保証を担当。その後2016年に独立してマーケティングリサーチの専門事務所を設立。
現在はランドセルメーカーや資格学校、地方自治体など幅広い分野でクライアントを抱え、マーケティングリサーチ業務を行っているこの道20年以上のベテランリサーチャー。

また上記以外にも故郷：群馬県の地方創生の為に、『上毛かるた』の全国大会である『KING OF JMK～おとな達の上毛かるた世界一決定戦～』を開催。培ってきたマーケティングにノウハウを地方創生に活用する活動を展開している。NHK、新聞、雑誌、メディア取材多数。

◆著書
『アンケートは仕込みが全て』 (2025年2月)
『上毛かるたはカタル』 (2023年12月)

◆Webサイト
https://lactivator.net/

◆動画で紹介した『PSM(許容価格帯分析)』の解説はこちら↓
https://youtu.be/LPvZAGkno84

◆お仕事の依頼はこちらから↓
https://lactivator.net/request_from_corporation/

1 0

YouTube Video UExvRHZwd190WGRxTGFqVTA5Um40N2k5ZElEcjZvV3M0TC44Mjc5REFBRUE2MTdFRDU0

売上を更に10%伸ばす為の価格設定テクニック4選 #マーケティング戦略 #マーケティングリサーチ #ビジネス #消費者心理学

マーケティングの『ま』on YouTube 2025年6月25日 6:01 PM

Load More... Subscribe

【WEBビジネスの基本】統計分析を使ったA/Bテストを徹底解説！前の記事

【徹底解説】6つの『マーケティング心理学』基本原理とその活用方法次の記事

ランキング

最近の記事

マーケティングリサーチでの”外れ値”、”異常値”を論理的に見極める方法

『外れ値』と『異常値』の違い

グラブスの検定

異常値か否かの検定

かけ離れた値の発生確率を算出する

①仮説を立てる

②平均と分散を求める

③検定統計量を求める

④p値を求める

外れた値は何でも除去すればよい訳ではない

Lactivatorの動画講座を『Udemy』で配信中！

このサイトに関連する記事

『市場規模』の把握が全てのマーケティングの第一歩

【必見！】アンケートリサーチパネルで調査したい時に知っておく…

『ノルム値』って何？～概要から活用方法まで徹底解説～

【事前に知っておくべき！】アンケート調査には弱点があるという…

【アンケート分析時は注意！】9割の方が誤解している『有意差』…

インタビュー調査(定性調査)はアンケート(定量調査)の100…

マーケティングを知らない経営者ほど『若者』に頼る

ChatGPTでアンケートの調査票を生成する～その方法と注意点～

『スクリーニング調査』とは？Webアンケート調査の幅を広げる手法を徹底…

【自動計算フォーム付】アンケート調査における『誤差』の理論

【絶対にやってはいけない】『No.1調査』が業界NGとなっている理由

『エクストリームユーザー』を効果的に活用した商品企画

マーケティングリサーチ結果を商品・ブランドPRに利用する

マーケティング必須のスキル：『トレンド』を読む基本技術

『偏差値』を利用して更に深めるマーケティングリサーチ

小売・卸売業者必見！小さな企業・お店の『差別化』戦略

Lactivatorの動画講座

マーケティングの”ま”

フッターメニュー

アーカイブ

検索