この記事では、月の平均気温と、ある品目の家計の消費金額の散布図を見て、何の品目かを推理するクイズを2問出題します。
複数のデータの関係性を理解する能力は、データを読み解く力の中でも特に重要な能力です。近年話題のデータサイエンスや機械学習にも非常に深く関係しています。
まずは最初の一歩として、散布図から二種類のデータの関係性を読み解く訓練に取り組んでいただけたら嬉しいです。
この記事で使用している家計の消費金額データは総務省統計局の「家計調査」データを「政府統計の総合窓口(e-Stat)」から取得してプロットしました。
この記事で使用している気温のデータは気象庁のWebサイトの過去の気象データページから取得してプロットしました。
問題:この散布図は何の食品?その1
改めて再掲します。以下のグラフは、2000年1月から2021年11月までの、東京都の月間平均気温と、ある食品Xの平均月間消費金額の散布図です。
ある月の平均気温が10.1℃で、Xの平均消費金額が601円なら、その位置に点をプロットします。別の月の平均気温が17.8℃で、Xの平均消費金額が932円なら、またその位置に点をプロットします。そのようにして複数の点をプロットしたグラフを散布図と呼びます。
Xは何の食品でしょうか?「さんま」「キャベツ」「ケーキ」「アイスクリーム・シャーベット」の4択から選んでください。
問題:この散布図は何の食品?その2
もう一問出題します。
下図のYは何の食品でしょうか?同じく「さんま」「キャベツ」「ケーキ」「アイスクリーム・シャーベット」の4択から選んでください。
データの関係を利用して値を予測する
2つのデータの関係性を理解できると、どんな良いことがあるでしょうか?
利点の一つは、片方の値からもう片方の値を予測できることです。
例えば、2000年1月から2021年11月のうち、ある月がくじ引きでランダムに選ばれたとします。その月に、アイスクリーム・シャーベットは1世帯あたり平均いくら売れたでしょうか?ただし、その月が何年何月であるかや、その月の気温などは一切教えてもらえません。
過去のデータによれば消費金額は200円前後から1600円前後の間ですので、その中のどこかの金額、というくらいしか予想できません。
ところが、その月の東京の平均気温が15℃だったと教えられた場合はどうでしょうか?気温と散布図を照らし合わせれば、300円〜700円くらいであることが簡単に予想できます。まだ少し幅はありますが、200円〜1600円よりはだいぶ範囲を絞ることができました。
また、過去の値だけでなく、未来の値も予測することができます。例えば、2021年12月の平均気温が10℃くらいになるとすると、消費金額はおそらく500円前後になるのではないかと思います。この記事の散布図の場合は横軸も縦軸も両方予測になってしまいますが、片方の軸の値が確定している場合や自分でコントロールできる場合は、もう片方の軸の値がより確かなものになります。
最新の人工知能研究では、3次元以上のデータや高度な数学的手法を利用して、より高精度な予測を実現するための方法が研究開発されています。しかし、知っている値や確度高く予測できる値から別の値を予測する、という根本原理は一緒です。
補足:特徴的な関係性が無い場合
ただし、値を予測できるのは、データの間に特徴的な関係性がある場合だけであることに注意してください。
例えば、気温とキャベツの消費金額の散布図は以下のようになっています。
このような関係性では、気温の情報があっても、消費金額を絞り込むヒントにはなりません。
終わりに
いかがでしたでしょうか?
余談ですが、2021年現在では、目的の数値の予測に役立ちそうなデータを探してきたり、AIが誤った学習をしていないか確かめたりするのは、今でも人間の仕事です。データサイエンティストやAI研究者として活躍するには、自分自身でデータの関係性を考える力を高めていくのが良いと思います。
なお、このページでは統計学やデータ分析の専門用語を使わないように心がけました。相関関係と因果関係の違い、擬似相関の見抜き方、過学習の回避、内挿と外挿の違い、共変量シフト、などなど、誤った予測をしないために知っておくべき重要な専門知識がたくさんあるのですが、それらについてはまた別の記事で説明したいと思います。