
BUSINESS
2021年1月2日
WEBでデータを扱う際の考え方や統計学の基礎知識
こんにちは、どうぶつの森で島の評価を上げたくて所構わず「たいまつ」を配置しまくった結果、島をたいまつだらけにするという大惨事をやらかしてしまったじょーじです。
無計画に島をたいまつだらけにするやつが分析とか言うのもあれですが、今回は分析に関する内容です。
さて、施策を展開し、一定の時間が経過したとします。定量的なデータから次回アクションを決定する際に、どのようにデータを扱うべきかよく分からんぞ…なんてことは今までにありませんでしたか?
正直、私はもーのすごくたくさんありました。WEBに慣れていない頃はGAでPVだけ追っていたこともあるほどです笑
そんな私が現在行っている流れをざくっと記載すると
- 事例を調査する
- どの数字が大切か理解する
- どの数字をどの単位で扱うかを考える
- どう分析すればその数字が抽出できるのかを考える
このような流れで考えています。
結果として昔よりはデータを扱えるようになったかなと思っています。
そこで今回はWEBマーケティングにおいてデータ分析に役立ちそうな考え方を、統計学の基礎知識も絡めてご紹介していきます。
具体的な解析方法というより、総論的な考え方について触れていきますね。
CONTENTS
1 属人的な経験、スキルにデータを左右させないための「リサーチデザイン」という考え方
データを扱う場合、当然ながら事実に基づく内容からソリューションを導き出します。
しかしながらそのソリューションはデータを解析した担当者の経験や、ナレッジに大きく影響されてしまうことも多く、正しいインサイトが得られないケースも多々あります。
そこでまず考えるべきは「事実」への向き合い方です。
そのためにはリサーチデザインの考え方をインストールすることが効果的です。
1-1 最も避けるべきは「車輪の再発明」
ビジネスにおいては「リサーチャーが現時点で保有しているスキルセットをどう組み合わせて解決するか」を考えることも大切ですが、クライアントのリソースによってはそれが最適解ではないこともあります。
また、限られたアセットのみを活用しようとすると柔軟な発想ができず、本当は正しかったルートに辿り着けないことも。結果として「クライアントにどう言い訳をするか」「無理やり企画を通すための抜け道はどこか」など本質的ではない議論に発展してしまうこともしばしば。
私はぶっちゃけこのようなことをしてしまった経験はかなりあります…
分析をしようかなと思った時にまず行うべきことは「先行研究の把握」です。
私たちが直面している現代におけるビジネス上の悩みは、だいたい誰かがもうすでにがっつり経験しており、課題に対するソリューションや、ソリューションに対する反論や反証も充分に行われている可能性が高かったりします。
もくもくと一人で長時間考え込んで最高の解決策を導き出したしたとしても、実はもう誰かの事例として公表されていて、調べれていれば5秒ぐらいで解決した内容かもしれないのです。恐ろしいですね。
以前に発明されたものを改めて発明してしまうことを「車輪の再発明」と呼びます。
課題が設定したら最初にまず事例を探し、今の課題と照らし合わせてみましょう。
その上で「どこまでがその事例をもとに解答を導き出せそうで、どこまでがその事例では解決できないのか」を把握します。
「まだ分かっていない重要なこと」を極力減らすためにデータを収集したり、どのように分析することが必要かを考えること。
これがリサーチデザインの考え方です。
1-2 「状況によって変化する変数の発生」を前提に事例を俯瞰してみる
前述の通り、データを扱う担当者は自身の経験などに頼り仮説、解答を導き出そうとします。
しかし様々な分析ツールを使いこなし「20代女性の方が30代女性よりもコンバージョンの頻度が多いぞ」「特定のLPからの回遊率がなんだか高いぞ」などをデータで検証したとしても、残念ながら往々にして大きな価値を創出するデータにはなり得ないこともあるのです。
このような「事実を構成する可能性のあるパーツ」を集めた後に行うべきは、やはり成功事例の収集です。同業種、同種類のサービスがどのように成功したか、その要因を調べることは非常に有効な手段です。
しかし失念してはいけないのが、企業ごとに顧客層や価格帯、立地条件やWEB上でのチャネルや広告予算、クリエイティブなどが大きく異なるということ。
ある企業で大きな成果を創出した仕組みをそのままトレースしたとしても、自社では全く機能しない可能性があることを前提として情報を集めなければなりません。
「その収集したマーケティングデータには多くの変数が関係している可能性があるぞ」ということを前提に事例を客観的に眺めてみましょう。
1-3「本当に成功した理由」はあんまり公表されていないことも
しかし残念ですが労力をかけて集めたデータや情報が本質的な指針を指し示してくれる情報ではないかもしれません。なぜなら、本当に大きな利益をもたらしたメソッドを公開するケースは極めて少ないためです。
例えば、
【世の中に公表されている内容】あるSNSコンサルティング企業が担当したプロジェクトが非常に好調で、あるツールを使ったところフォロワーが爆増し、ビジネスインパクトを創出することに成功した。
【それをなし得た理由】ツールによりコンテンツを分析、PDCAをまわし顧客インサイトに刺さる投稿を心がけた。ユーザーがいかに参加できるアカウントかどうかを意識した。
【筆者が担当者に直接聞いてみたところ】広告費を去年の数倍に増やしフォロワー増加のためのキャンペーンを月2回以上行った。運用担当者はその領域のインフルエンサーを6名アサインし、それぞれがそのサービスを発信していた。売り上げが増加したかどうかは計測していない。
これは私が実際にその担当者に直接聞いた一例です。(数字は変更して記載しています)
「ツールを使って定量分析することが重要だよ」というメッセージの裏では「キャンペーン予算をかけて運営者をインフルエンサーにし、とにかく露出を増やしたよ」という戦略が動いていました。
もちろんこれは全く悪いことではありません。しかしリサーチする際に公表されている情報のみを鵜呑みにしてしまっては施策が本質的では無くなってしまう恐れもあります。
この成功事例の本質は「露出をどう増やしたか」であり、「ツールによる投稿インサイトの深堀り」ではなかった可能性が高いのです。
当然ながら企業や獲得した競争優位性を他社に発信することで、その源泉を失ってしまう危険性があります。そのためWEB上で集められるような情報は総論的な当たり障りのない情報であることが多いのです。
「事例」は多くの場合、「枝葉」にあたります。しかしデータを扱い、ソリューションを導きだすためには「幹」の成長、改善が必要不可欠。
「事例を活用し、本当はどうしてそうなったのか?を考えながら、根本的な成長、改善に向かうためにはどうすればいいの?」を考えることが求められます。
2 リサーチデザインを前提に統計学を分析に取り入れるまでの考察段階
2-1 成果の適切な設定
分析の際に特に重要になるのが「最大化したい / 最小化したい」数値、すなわち成果の設定。
一般的な統計学では「結果変数」や「従属変数」「y」などと呼ばれます。機械学習領域では「外的基準」などと呼ばれる部分です。なんだか急に難しい単語が出てきてしまいましたね。
統計学の手法上、従属変数はあまり結果に関係のない数値を使用しても分析結果は獲得できたりします。ですがそれだとビジネス上のインパクトを創出できません。
簡単に言ってしまえば「本当はCV数がいっぱい欲しいけどPVがいっぱい伸びてるからいい感じです!」のようなイメージですね。
CVに繋がるための筋道がPVなら全く問題ないのですが、もしそうでない場合は「それちょっとどうなのさ」みたいなことになってしまいます。
したがって「最終的に目指す成果は何か」を考える必要があります。
この「成果」の設定が不適切である場合、上述のCVとPVのように「データ的には正しいかもしれないけどビジネス上はなんだか無意味」なデータ、レポートが抽出されてしまいます。
2-2 解析変数を理解し、解析単位を設定する
次に成果を実際に分析する際に必要になるのが解析単位(解析粒度、分析単位)です。
例えば、商品と売上に関してのデータを抽出する場合、
- 売上の高い商品とそうでない商品 → 解析単位:シンプルに売上の高い商品は?
- 購買点数の多い商品とそうでない商品 →解析単位:いっぱい買われている商品は?
- 継続して購入されている商品とそうでない商品 →解析単位:LTVが高い商品は?
などなど切り口、解析単位が異なります。
分析結果が異なるため採用すべきアクションも変わってきますよね。
このような「解析単位ごとで成果の内容を説明する要素になるかも」という特性のことを説明変数と呼びます。
候補とする説明変数が多様にあればあるほど、思いもよらなかった説明変数が成果と関連していたということもしばしば。
簡単に言えば、売上が高かったのは「売上の高い商品が売れたから」「いっぱい買われた商品があったから」「ずっと買われ続けてる商品があるから」などの理由が考えられるけど、果たしてどれが正解かな?というディスカッションができるようになるということ。
逆を言えば説明変数の候補としてデータが用意されていなかった場合、適切な成果分析が行えないということでもあります。
2-3 「リサーチクエスチョン」を活用し、どのような分析手法を用いるべきかを導きだす
リサーチクエスチョンとは「成果に対する理想的な解析単位と、そうでない解析単位の相違点は何らかの説明変数にあるのではないか」を考えること。
なんだか難しく聞こえますね。
簡単に言えば、
「売上に貢献したのって、3つの仮説の中でどれが正しいっぽいかな?その正しいっぽい仮説と他の仮説ってどの部分が異なるのかな?」を考えることです。
例えば「成果が定量的な数値の大小を表す場合」には重回帰分析、「成果が特定の状態をとるか否か」など定性的な場合はロジスティック回帰など、データの状態や成果の方向性によって効果を発揮する分析手法が異なります。
リサーチクエスチョンを活用し、どの分析手法が最適解を導きだすことを手助けしてくれるかを意識しましょう。
そのために統計学の基本的な考え方をインストールしておくことも効果的です。
ここからは統計学の基本的な考え方をさくっと説明してみます。
3 統計学の理論① 記述統計学
統計学の手法はたくさんあるのですが代表的なものを3つほど。記述統計学、推測統計学、ベイズ統計学をご紹介します。
まずは20世紀初頭まで統計学の中心として君臨していた記述統計学から。
記述統計学とは、調査対象に対して全数調査を基本とし、その特徴を記述することを目的とした手法のことです。
記述統計学のポイントは2点あります。
ポイント1つめは対象とする「全数」が比較的小さく、全データを収集しやすいということ。
例えば、会社の忘年会の会場として「おしゃれダイニングバー」「大衆居酒屋」「忘年会などしたくない」の3つから何かを選ぶ場合、全メンバーの投票結果を集めることはさほど難しいことではありません。
ポイント2つめは、データをもとにグラフ化すること。これによりデータの特性や規則性などがより発見しやすくなります。
3-1 でもデータは多ければ多いほど良いというわけではない
データ量と課題抽出の精度向上はほとんどの場合正比例しません。
生のデータのまま大量に収集すると、反比例して元々の集団の傾向や問題点などが見えにくくなってしまうんです。
生データから「多くのデータを代表する1つのデータ」を抽出できれば、より早く全体像を理解することが可能に。
このような値のことを「代表値」と呼びます。
通常データは一定部分にコア部分が集まり、それを中心として上下にばらつきます。代表値はこの中心的な役割を果たします。
3-2 三種類の代表値を理解する
データを集めたときに最初に行うべきことは、「データ全体を1つで表せる代表値は何か」を探すこと。その代表的な3つの代表値があります。
- 平均値:全体の数を合計し、データ数で割ったもの。データ全体の重心として活用する
- 中央値:データを少ない順、または大きい順に並べたとき、ちょうど真ん中にある値
- 最頻値:データの中において最も多く現れる値
「代表値は中心的な値」であるのに3種類も存在してしまう理由は、「中心のニュアンス」がデータごとに異なるため。
もともとのデータの分布具合によってこれらの値に様々なケースが発生してしまうんです。
3-3 中心的なデータを指し示す「代表値」だけでは全体の解像度がぼやけることも
中心的な傾向を理解するために代表値は非常に便利な手法です。
しかしデータ全体がどのようにバラついているか、バラツキ具合はどの程度なのかを理解するためには代表値だけでは理解することはできません。そこで使用するのが「散布度」と呼ばれる値を使ったりします。
3-4 ヒアリングできそうならヒアリングしてみるのもあり
もし「忘年会などしたくない」という生データが8割だったとしたら、企画側は「なんでよ!」ってなりますよね。
そこから「会社のこと嫌いなのかな」「みんな飲み会自体が嫌なのかな」「むしろ俺のこと嫌いなのかな」などモヤモヤした考えを巡らせますが、そこから誰かにヒアリングしたりして理由を探っていくと「まさかの全員が異常な酒乱だったため飲み会は危険だと判断した個々人が自主的に遠慮した」というトリッキーな声が取れるかもしれません。
データの総量によってはそもそも統計学とか使わなくてよかったんじゃないか的な結末になることもありますが、全体の傾向を掴むために記述統計学を使ってデータをプロットしてみるのもおすすめです。
4 統計学の理論② 推測統計学
非常に大きいデータを扱う場合、全てのデータを取得すること自体が不可能なケースも。そのような場合は推測統計学を利用しましょう。
もし「日本の全ての深田恭子ファンの夕食代の平均値を知りたい」という場合、全ての深田恭子ファンのデータを集めるのは事実上不可能になります。
そのため深田恭子ファンの母集団からサンプルを収集し、深田恭子ファンの代わりとしてデータを集めることが現実的です。
このとき、おおもとの全データのことを「母集団」と呼称します。
そして、その母集団から獲得したサンプルデータのことを「標本」と呼称します。
「全てのデータを集めた後、そこから平均値や最大値などを抽出したいのに、標本しか集めることしかできなかったなあ。そこからおおもとの母集団の特性を推測できないかなあ」
というニーズに応え、「サンプルから母集団の性質を推測することを確率した」のがこの推測統計学です。
ちなみに、R・A・フィッシャー(1890〜1962)が推測統計学の祖と言われています。
4-1 推測統計学の基礎手法1「推定」
「推定」は正式には「統計的推定」と呼ばれます。
これはほとんど手掛かりがない状況でも、わずかなヒントを元に理屈の通った推理を行う方法です。本来、母集団のデータが入手できれば、代表値を得ることは可能です。
前述のようにサンプルデータから母集団の代表値やバラツキの程度などを推定していくことがこの「推定」の役割です。
4-2 推測統計学の基礎手法2「仮説検定」
サンプルデータを元に、もともとのデータに対して何らかの仮説を立て、それが受け入れられるかどうかを検証する手法です。何らかの仮説の真偽を判断したいとき、
- 正しくないと考えられる仮説をあえて立ててみる
- 正しくないと考える仮説をデータをもとに判断する
というような手順で仮説の真偽を調べます。
この考え方は普段統計学を積極的に使用しないビジネスパーソンにとっても大いに役に立ちます。
ミーティング中の発言に仮説性を付与することも、企画立案でアイデアをより良いものにする際にも有効な考え方です。
具体的には以下ような手順で考えていきます。
この仮設検証では「自分がこうではないか?」と思う仮説(仮説A)をそのまま立証、もしくは検証することはしません。それと逆の仮説Bを立てることが大切。
この仮説Bは、検証の上で棄却されることを前提に立てられます。これを「帰無仮説」と呼びます。
反面、本当は立証したい仮説Aを「対立仮設」と呼びます。
最終的には「仮設Bが棄却された事で、仮設Aが間接的に証明される」という方法が、この仮説検定です。
統計学で活用する場合は正規分布などの確率分布を多用し、仮設の妥当性を追求、判断したりします。
5 統計学の理論③ ベイズ統計学
「統計学」といえば記述統計学と推測統計学が主流でしたが、20世紀後半からベイズ統計学が認知され始めました。
勢いをますベイズ統計学に対し、それまでの統計学のことを「頻度論」「伝統的統計学」などと呼ぶこともあるようです。
そんなベイズ統計学はサンプルデータが少なくても、極論データが0であっても発生確率を推定してしまうというすごい能力が。すごいやベイズ統計学。
さて、こんな例で考えてみましょう。
あなたは昨日誕生日プレゼントにもらったラルフローレンのハンカチをどこかに落としてしまいました。
昨日はクライアントA、B、Cを訪問し、帰りの電車Dに乗車したものの、どこで落としたか分かりません。
これだけみるとこの時点での確率は1/4ずつっぽいですよね。
他に確かな情報がない限り「1/4なのではないか」と当て推量するしかありません。
しかし、ここに情報が加わると確率は変化してきます。
- クライアントAでは、担当者不在で滞在時間がわずか。鞄も開けなかったし、ポケットは触っていない。
- クライアントBでは、カバンから資料を取り出したが、ポケットは触っていない。
- クランアントCでは、カバンから資料を取り出し、お手洗いも借りた。
- 電車Dでは、疲れて眠ってしまっていたため何もしていない。
こうなるとクライアントBよりもCでハンカチを落としてしまった可能性の方が高そうに感じませんか?
このように情報が増えるにつれて確率が変化するのがベイズ統計学です。
しかし確率を一律で1/4にしたり、特定の場所だけ確率を引き上げたりすることにはなんの根拠もありません。
そのため経験的に理解することはできても、とても主観的な面があります。
この主観性の高さにより長い間姿を潜めていたベイズ哲学ですが、近年になってその有用性が認められてきました。
2001年にはビル・ゲイツが「21世紀のマイクロソフトの基本戦略はベイズテクノロジーである」と述べたり、Gmailでは迷惑メールの検出にベイズフィルターと呼ばれるフィルターが使われたりしています。
このフィルターは事前に迷惑メールの定義を作成しておき、ユーザーが自身が迷惑メールだと判断したものかなどで、次のメールを迷惑メールかどうか決定するというもの。
テクノロジーが進化し、人も機会もより深い学習が前提になった現代だからこそ「経験」を分析し、実行まで移すベイズ統計学の考え方が有効になってきています。
データを扱う際に必要なのは「成果はどの数字で語られるべきか」「どの筋道で辿りつくべきか」「成果までの道中の数字をどう考えるか」
デジタルの時代においてデータを扱うことは非常に重要です。が、同時に扱いやすい数字にのみ走ってしまい、本当にフォーカスすべき数字を見逃してしまうこともあります。
「このプロジェクトに必要な数字は何?」「どうやって獲得する?」「その数字はどうやって観測しようか?」というディスカッションがあるだけでも判断の精度は変わってきます。
数字を考える際の手法はたくさんあるので、状況に応じて最適な解析方法を模索しながらデータを扱えるように慣れれば理想的ですね。
データを見る際に当記事のわずかな部分だけでも参考になれば幸いです。