統計学的観点で見る「データの種類と特徴」の基礎

こんにちは、寿司への愛が止まらないじょーじです。

寿司への愛からアイキャッチが寿司になりました。ご容赦ください。

さて内容は寿司とは全く関係ありません。今回は統計学的な観点からのお話第二弾、ちなみに第一弾はこちらです。

日常的に私たちが触れているデータ、実は様々な種類が存在します。しかしデータそのものを意識的に分類する機会は多くないのではないでしょうか?

デジタルマーケティングにおいても「この情報、この数字はどのようなデータなのかな?」と考えることができればデータからの仮説も導きやすくなります。

今回は目の前にある情報をどう判断し、どう区別していくのか、そのために必要な基本的な観点を統計学的な視点から眺めていきます。

打ち合わせで使うとなんだかかっこ良さそうな言葉も出てくるので覚えておくとちょっとドヤれるかもしれません。

データや情報を判断する際の考え方、データの種類についてさっそく記載していきます。

1 「連続量データ」と「非連続量データ」の2種類を知る

1-1 連続量データ

「連続量データ」は間が途切れず続いているデータのこと。例えば水温、時間、身長、気温、滞在時間などがそれに該当します。

例えば30cmの鯛が50cmになったとします。それはある瞬間で急に20cmプラスされたわけではなく、徐々に数字が伸びていったはずですよね。

このように絶え間なく徐々に動いていく数字のことを「連続量データ」と呼びます。

そのため連続量データのグラフを拡大しても滑らかな連続曲線を描きます。時間軸で区切っても1秒の間を無限に切り取ることができるのも連続量データの特徴。

30cmから40cmの「10cm」と、40cmから50cmの「10cm」は誰が見ても「同じ10cm」なので、数字の持つ意味としては一緒ですよね。

「データのどこを切ってもその間隔が同じ意味を持つ」ことは非常に重要な特徴です。

1-2 非連続量データ

連続量データに対し非連続量データも存在します。別名では離散量と呼ばれることもありますね。

その名の通り連続していた連続量データですが、非連続量データもその名の通りで連続していないデータのことを指します。

人数や回数、階段、PV数、寿司の注文数など一般的には連続して測ることができないデータのことと考えてください。

寿司も1貫、2貫と数えますよね。

そして人は1人目、2人目と数えても1,38人目などは存在しませんよね。存在していたら怖すぎます。

このような1つ2つとトビトビに数えるデータが非連続量データです。

1-3 両方のデータを分布させる場合の考え方

連続量データであれば横の項目と隙間がないヒストグラムを描きますが、非連続量の場合は間隔が開いた棒グラフが妥当だと考えられます。

しかし時として連続量データを非連続量的に扱うこともあります。

鯛の全長の例であれば10cm単位で分布されると非連続的なデータが出来上がります。逆に基本的には非連続量であるお金を1円単位で細かく扱うと連続量的なデータが出来上がったりもします。

連続量とはアナログ的な量、非連続量はデジタル的な量と考えてみてください。小数点で表すことができるかどうかで考えると判断しやすいかもしれません。

2 数値でない情報をデータとして扱うための考え方「尺度」

前述の連続量データ、非連続量データはどちらも数値データです。一般的にデータと言えば数字を扱うものと思いがちですが、統計学的な考え方で言えば数値以外のものもデータとして扱ったりします。

例えば寿司。

寿司の重さや注文数、値段などはどう考えても数値データ。しかし「産地」「種類」「調理法」「お店」などはどうでしょう?

連続量データ、非連続量データのどちらにも当てはまりませんよね。

このような情報であっても「尺度」という別の観点でデータ分類していくことが可能です。この尺度を大きく分けると4つの種類に分類できます。

ざっとこんな感じの表になります。

データの種類 データの意味 尺度の種類 尺度の意味 データの例 可能な計算
質的データ 分類や種類を区別するためのデータ。そのままでは足したり引いたり演算のできない変数。 名義尺度 分類の順序に特に意味が無いもの 性別、血液型、利き腕など 不可
順序尺度 分類の順序に明確な意味があるもの 順位や満足度など 計算できないが順序(大小)の比較は可能
量的データ 数値として意味のあるデータ。足したり引いたり演算ができる変数。 間隔尺度 データの「間隔」に意味があり、ゼロもひとつの状態にすぎないもの 気温、時刻など 和(+)、差(-)
比例尺度 データの「比率」に意味があり、ゼロが何もない状態を意味するデータ 身長、体重、アクセス数など 和差積商(+、-、x、/)

ここからはこれらの意味について少し詳しく記載していきますね。

2-1 名義尺度

質的データとして扱います。

性別や種類、住所、血液型、利き腕、賛否、使用デバイスなど「回答が決まっているもの」。これに数字を当てはめていきます。例えば「北海道=1、青森=2」「男性=1、女性=2」「サーモン=1、カンパチ=2」などですね。

数値化できないデータ、数値化したとしても数値間隔に意味がないデータのことを「カテゴリカルデータ」と呼びます。

便宜的に振り分けられた数字をあくまで記号的に当てはめていきましょう。そのため数値には優劣や大小の概念はありません。そのため足算や引き算、掛け算割り算をしても全く意味がありません。

このようなデータを扱う場合は分割表を作成します。

調査対象お寿司 1時間の男性注文数 1時間の女性注文数 合計
サーモン 16 18 34
カンパチ 15 12 27
あん肝 5 4 9
ヒラメ 14 16 30
合計 50 50 100

1時間で特定の寿司を男女がいくつ注文したかなどを見たい場合はこのような分割表が出来上がりますね。

平均値や中央値もないため、最終値のみで表されます。

2-2 順序(序数)尺度

質的データとして扱います。

ランキング、成績など「順番」に意味があるデータのこと。順序尺度もカテゴリカルデータですね。

よくお店のアンケートで「①大変よい ②良い ③ふつう ④良くない ⑤悪い」のようなものを目にしませんか?これがまさに順序尺度。

「良い」「悪い」は本来数値ではありませんが、これに数値的な意味を持たせて順列化します。

大小の順を理解するためのデータなため、名義尺度と同じく足し引きしても意味がありません。中央値や最終値が意味を持つデータと言えます。

2-3 間隔尺度

量的なデータとして扱います。温度計、定規などそれぞれの目盛の感覚が等間隔なデータのことです。

中でもちょっと判断が難しいのがこの間隔尺度。

「お店の温度は昨日は10℃だったけど、今日は20℃。1日で10℃上がったね。」

のように足し引きで数字を判断することは可能な尺度です。様々な代表値を使用することができるのも特徴。

しかしここで気をつけたいのが「掛け算や割り算では正確な数字を判断できない可能性がある」ということ。なぜなら「1℃ごとの温度が誰にでも明確に等間隔であると明確に言い切れない」からです。

数字だけ見れは20℃は10℃の2倍です。しかし摂氏温度(℃)以外にも、華氏温度(℉)もありますよね。

摂氏の10℃を華氏に置き換えると50℉。摂氏の20℃を華氏に置き換えると68℉。

68÷50をしても2という数字は出てきません。

ここで絶対零度とかを考え始めるともうすごいことに。「人為的に基準を定めた0以下のマイナス世界」も存在するため、「0」も一つの状態として考えることができます。そうなるともう余計に掛け算割り算ができない数値になってしまいます。

このようなケースの場合、掛け算や割り算をしても「その考え方だと◯倍かもしれないけど、〇倍という見方もできるんじゃないの?」のような数字がどんどん出てきてしまい、データとして有益ではなくなってしまう恐れがあるんです。

無理やりデータ化しても使い物にならないデータだったりすることもあるので、簡単に言えばたくさん頑張っても時間の無駄になるかもしれません…

場合によって数字の解釈が異なるもの、計測方法が異なるもの、マイナスもあり得るものなどの場合は足し引きを使うことがベターといえます。

2-4 比例尺度

量的データとして扱います。

4つある尺度の中で最も扱いやすいのが比例尺度。そして分析を行う上では最も使用頻度が多い尺度とも言えるのではないでしょうか。

身長、時間、売り上げ、注文数、アクセス数などなどを扱うときに使用します。これらの数字は基本的に0以下にはなりませんよね。

雑に言ってしまえば「0=無」の数字を扱うときに使用できる尺度です。

例として、「寿司屋の来店数は-500人です」と言われてもよくわからないですよね。一日で見た場合、来店数がマイナスになる現象は現実的にあり得ません。

ですが「今月の寿司屋の来店数は先月に比べて-500人です」ならわかります。比例すべき明確な対象が含まれているためです。

このように何かと比べて判断したい場合、連続量データも非連続量データも比例尺度で判断することが可能です。

3 施策分析で日常的に使用できる基本的なデータセット

分析で使用するデータセット、手法の数を挙げればキリがないほどたくさん存在するのですが、日常的に使用できる簡単なものをいくつかご紹介します。

もちろんどのようなデータを集めるかによって、分析できる内容も変化してきます。分析の目的に沿ったデータセットを選択することがとても大切です。

3-1 時系列データ

一つの項目について時間に沿って集めたデータのことです。その名の通り「時間に沿った変化を分析する時」に使用します。

  • Aという店での過去1年間食べたマグロの数
  • Bというコンテンツの過去3ヶ月のアクセス状況
  • SNSアカウントの1ヶ月のフォロワー増加数

などがこれにあたります。

時系列データを分析する際は季節要因やSNSでの拡散、広告などの突発的な流入などの外部的要因にも注意しながら数字を眺めてみてください。

3-2 横断面データ(クロスセクション・データ)

ある時点における特定の項目、グループ別などに記録した複数のデータを集めたもの。

  • 2020年12月に行った寿司屋と、そこで食べた寿司の種類、寿司の数、お会計
  • 2020年12月時点でのAというサイトのコンテンツ数、アクセス数、CV数
  • Bというコンテンツのアクセス数、滞在時間、直帰率、遷移率

など同一時点での複数項目間の分析をしたい時に使用します。

3-3 パネルデータ

パネルデータとは「同一の標本について、複数の項目を継続的に調べて記録したデータ」とされています。

項目間の関係を時系列に沿って分析することができるデータです。

通常の分析では調査される標本が異なることもありますが、パネルデータの場合は、標本を入れ替えることはありません。基本的には同一の標本に対して継続的に分析されたデータを使用します。

スプレッドシートなどでメディアの数値を複数の項目を作成して管理したり、PL/BSなどにも使用しますね。

全体的な傾向を可視化し、そこからミクロに施策を展開する際に使用する際に活躍してくれます。

中長期で運用するデータと言えるでしょう。

最後に:日々漫然とデータを眺めず「そのデータはどのような特徴を保有し、どう組み合わせるとどのような数字が導き出されるのか」を意識する

日々漫然とデータを眺めず「そのデータはどのような特徴を保有し、どう組み合わせるとどのような数字が導き出されるのか」を意識する。

なんかかっこいいことを言った気がします。

日々GAなどを見ていると「PV増えたなー」とか「北海道からの流入多いなー」など事実を眺めて終わってしまうこともあるかもしれません。しかししっかりした仮説検証を行いたい場合はもう一歩踏み込んで考えてみたいものです。

  • 「この名義尺度は分割表作って特徴見てみよっか」
  • 「順序尺度で考えたいからランク定義して流入数順に並べてみよっか」
  • 「その数字って間隔尺度じゃない?」
  • 「非連続量データの粒度細かくして連続量データ的にグラフにしてみようぜ」

などのコミュニケーションができるとなんだか素敵な感じがします。

個人でもチームでもデータを分析する際に分析の方向性がずれてしまってはリソースがもったいないので、データの持つ特徴を把握して分析に向き合ってみてください。

データの特徴が分かると、いろいろなデータを組み合わせるのがちょっと楽しくなるかもしれませんよ。

このコンテンツがわずかでも寿司への意欲を刺激できたなら幸いです。

GET IN TOUCH