マーケティングリサーチの学び場『Lactivator』代表。自動車会社でマーケティングリサーチに従事後、誰でも気軽にマーケティングを学べる場として2012年に本サイトを開設。また故郷:群馬県の活性化の為、2013年より上毛かるたの日本一決定戦『KING OF JMK』を主宰。著書『上毛かるたはカタル』も発売中。
●無料メールで学ぶマーケティング講座配信中⇒こちら
こんにちは!マーケティングリサーチャーの渡邉俊です。
今日は定量(アンケート)調査を行う際に必要なウェイトバック集計についてお話します。
調査結果から正しく母集団を推計する為に知らなくてはいけないノウハウです。
是非最後まで読んで下さい。
『ウエイトバック集計』とは
ウエイトバック集計とは、アンケート調査の結果を集計する時に使う方法です。
ウエイト(Weight)とは「重み」という意味であり、要するに”回答結果に重みを加味して集計する”方法のことを指します。
母集団の構成比に調整して集計する
例えば、あるスポーツジムに会員登録している方全員(200人<男性:100人、女性:100人>)に対してジムの満足度評価をアンケートで行ったとします。
そしてその結果、男性70人、女性50人から回答をいただき、以下のような結果を得ました。
これを単純に計算すると、ジムに満足している人(はいと回答した人)の割合は120人中60人で全体の50%となりますよね。
従いましてこの数字を見ると、『なるほど、会員の半数は今のサービスに満足しているのだな』と考えてしまいます。しかし、ちょっと待ってください。
これを性別に分けて見ると男性の回答率(70%)に比べて女性の回答率(50%)が低く、かつ男性よりも女性の満足度が低い事が見て取れますよね。
ということは、もともと登録している会員の男女割合は1:1なのに女性よりも男性の意見の方が全体の満足度に色濃く反映されてしまっているという事になる訳です。
これだと会員全体の満足度合を正しく示しているとは言えませんよね。
このようにもともと母集団の割合と回答サンプルの割合が異なる場合、『1票の重み』を調整して集計するのがウエイトバック集計という方法です。
上記の場合でいうと、男性の回答の重みを小さくし、女性の回答の重みを大きくしてサンプルの構成比を母集団の構成比に合わせるのです。
ウエイトバック集計の計算方法
具体的にどのように計算するかというと、アンケートの回答数は120であり、総会員数の男女比は1:1なので、男女それぞれのアンケート結果が60:60となるよう調整すればよい訳です。
要するに、
男性:60(補正後の値) ÷ 70(補正前の値) = 0.857
女性:60(補正後の値) ÷ 50(補正前の値) = 1.2
これらをウエイト値(重み)と呼び、回答結果にかけて下記のように補正します。
※回答結果にウエイト値(男性:0.857、女性:1.2)をかけて補正した結果
このように計算することで、回答者の男女構成比を総会員数の男女構成比と同じ1:1にして計上できる訳です。
よくあるウエイトバックの間違い
上記のジムのアンケート結果にウエイトバックをかける時、『男性の回答が女性より20人多いから、その分を破棄して男女のサンプル数を揃えよう!』という方法と取る方が結構います。これは絶対ダメです。
どのサンプルを破棄するのかで意見の偏りが発生する可能性がありますし、そもそも折角回収した回答データを捨ててしまうなんてもっての外です。
基本的にアンケート調査はサンプル数が多いほど信頼性が増すわけですから、信頼できない回答が紛れ込んでいるなど特別な事がない限りサンプルを破棄するのはやめましょう。
ウエイトバック集計に関する疑問点あれこれ
この様にウエイトバックはクロス集計を行う時に用いられます。
※クロス集計について詳しく知りたい方はこちらの記事をご覧ください。
上記のジムの例では満足度と会員の性別をクロス集計し、かつ性別でウエイトバックをかけましたが、それ以外にも必要に応じて年齢(年代)やサービスの利用頻度など回答者の様々な属性に関して補正をかける事があります。
しかし、いざウエイトバックをかけようとすると『あれ?こんな時はどうすればいいんだろう?』と色々疑問が湧いてくるはずです。その”よくある質問”について次にお答えしようと思います。
母集団の構成比が分からない場合はどうすればよい?
上記のように母集団の構成比が分かっていればよいのですが、そもそもマーケティングではそれが明確に分かっている場合の方が少ないです。
上記のようにジムの会員であれば入会時に顧客データを取るのが普通なので、会員の属性についてはある程度把握できます。
しかしスーパーやコンビニ、ドラッグストアで商品を購入した人の属性などは、購入時にお客様データを取っている場合もありますが簡単には分かりません。
またウエイト値を算出する為の母集団のデータが信頼できるものであるかというのも重要です。
例えば日本国民の人口構成比でウエイトバックするのあれば、国勢調査など結果を用いれば間違いありません。総務省統計局のホームページを見れば誰でもデータ閲覧可能です。
しかし例えば、『スターバックスコーヒー利用者の人口構成比』、『サザエさん視聴者の人口構成比』でウエイトバックしたいといっても、信頼できるデータを見つけることはかなり難しいです。
インターネット上を検索すれば何かしらのデータが見つかるかもしれませんが、それが信頼できるかどうかは別問題ですからね。
母集団の構成比が分からない、または信頼できる母集団データがない場合はウエイト値を出すことができないのです。
ウエイトバック不可能な時はどう対処すればよい?
上記のように母集団の構成比が分からない場合、信頼できる母集団データがない場合はウエイトバックはできません。
ではその場合はどうしたらよいかというと、結論としてはウエイトバックせずに出たなりのデータを信じるしかありません。
かなり乱暴なことを言っているように聞こえますが、それでも良いと思います。
理論的な話になりますが、母集団の中からきちんと無作為にサンプリングできていればウエイトバックを行う必要はないのです。
例えば上記のジムのアンケートの事例でいうと、会員の男女比が1:1で全員にアンケートを配布して回答をお願いすれば、何か特別な事情がない限りはほぼ1:1の割合で回答が集まるはずです。
上記の場合は男性:70名、女性:50名と誤差の範囲で男性にサンプル数が偏ってしまいましたが、それでもこの程度の偏りであり、アウトプットされる満足度もウエイトバックによって50.0%⇒48.6%に修正されただけです。
『おおよそ半分の会員がジムに満足している』という結論に変わりはありません。
もし50.0%と48.6%ではその後の対応策を大きく変更する必要があるというのであれば話は別ですが、マーケティングは『きっちり正確でなくても、経営者やその業務の責任者がある程度の数字感で判断できればよい』のです。
これが医学や薬学など、人命に関わるような判断を統計でやるというのであれば話は別ですけどね。
ウエイトバックするか否かは調査の前に決める
また、そもそもですが、
●ウエイトバックをかけるべきか否か
●かけるのであれば、母集団のどの構成比をベースにウエイトバックするのか
●その母集団の構成比のデータは信用できるのか
などは調査が終わってから考えるのではなく、調査を設計する時に決めておいて必要な母集団データを揃えておく必要があります。
例えば各都道府県のイメージ調査を私がやるとなったら、おそらく『出た結果は回答者の居住都道府県でウエイトバックしよう』と考えます。
特に私の故郷である群馬県は、関東地方に住む人であればある程度イメージがあるかもしれませんが、西の方に住んでいる人ほど明確なイメージを持っていません。
大阪の人に『群馬って東北だっけ?』と真顔で言われるのは日常茶飯事ですから(笑)
従いまして、もしサンプルが関西居住者に固まってしまったら群馬のイメージは目も当てられない数字が出てきてしまいます。
その為、調査票には回答者の居住都道府県を答えてもらう設問を設定しておき、また各都道府県の最新の居住人口データも事前に用意して状態で調査に臨むのです。
※ちなみにアンケート調査の調査設計については無料メール講座の中でも詳しく紹介しています。無料ですので、是非登録して読んでみて下さい。
ウェイトバックは何倍まで許容範囲か?
また、算出されるウエイト値が大きすぎる時も注意が必要です。
上記のジムの事例でいうと女性のウエイト値は1.2倍なのでまだよいですが、そもそも女性のサンプル数が極端にすくなくて5倍、10倍という大きなウエイトをかける必要があるとなった時、補正後の値を信用する事ができるでしょうか?
ウエイト値が5という事は1人の意見を5人分とみなして下さいということなので、やはり極端に大きい倍率となるウエイトバックはやめた方がよいと思います。
サンプル数が少ないから極端な倍率になってしまっているので、その場合はサンプル数を増やすことを考えるべきです。
では何倍までなら許容できるのか?という議論になるのですが、これは一概にはわかりません。
ただ私自身としては、ウエイト値が2倍以上にならないとようにサンプル数を取得する、または2倍以上になってしまったらウエイトバックをやらないという目安を持っています。。
参考)サンプル割付
ウエイトバックとは別に、サンプル割付という方法もあります。
先ほどの群馬県のイメージ調査を例に取ると、調査後にウエイトバックをかけるのではなくて、予め取得するサンプル数を都道府県別居住人口比と同じにしてしまうというやり方です。
ウエイトバックが不要となりますので、調査後に煩わしい計算をする必要がなくなります。
ただその分、サンプル確保が難しくなるというデメリットがあります。
首都圏在住者を〇〇人、関西在住者を△△人、東北在住者を××人・・・と個々に決めて調査に臨むわけですから、それに見合ったサンプルが見つけ終わるまで調査を終えられない訳です。
ただこれも選択肢の1つではあるので、ウエイトバックをするのでればサンプル割付も検討し、どちらがコストや手間をかけず正確に調査できそうかを考える必要があります。