なぜ「関係性技術」によるデータ活用では手軽に高精度の結果を得られるのか

このエントリーをはてなブックマークに追加
2017年05月09日

13_main.jpg

なぜ関係性技術は、誰でも手軽に使えて、精度の高い分析結果が出せるのでしょうか?その理由は3つあります。

①データを集める必要がない

関係性技術は「ノード」同士のコンタクトの回数を、時間とともに記録していくだけのものです。そのため「ノード」の指定と「コンタクト」の定義さえ行うことができれば、たいていのデータは、ほとんど加工しないままに使うことができます

たとえば、手元に社員名簿と、移動の履歴があったとしましょう。社員の名前と部署を「ノード」として、毎月1日時点での所属を「コンタクト」と規定すれば、どの社員がどのような仕事の経験を積んでいて、どの社員と関係性が深いかといった、人事データがあっという間にできあがります。

013_01.png

このデータに、それぞれの社員の相性や、仕事の適性などのパラメーターを入れれば、さらに深い分析ができるかもしれませんが、そのためにはまた別の技術や計算が大量に必要になります。また、そのようなデータをどこからどのようにして入手するかという問題も横たわります。

たいていのデータ分析手法では、仮説を検証するために、それに合わせた何種類ものデータを収集する必要があります。ヒトやモノといったノード同士のコンタクトだけを観測する関係性技術は、わずか一種類のデータからでも、精度の高い分析結果を導き出すことができるという意味では、稀有のものです。

②データを整える必要がない

関係性技術のもう一つの特長は、データのクレンジング(洗浄)の必要がほとんどないことです。

クレンジングとは分析のためにデータを整えることです。たとえば、自社のネットショップにおける、顧客の購入商品の相関関係を調べようとしたときに、過去10年間で見るのか、過去5年間だけで見るのか、あるいは2回以上購入している顧客に絞るのか、すべての顧客データを分析するのかなど、あらかじめ考えて、仮説を立ててからデータ分析にとりかかる必要があります。

しかし、関係性技術を使う場合には、とりあえずすべてのデータをデータベースに突っ込んでしまっても、あまり困ることはありません。なぜならば、関係性技術は、関係性が強いものを浮き上がらせるため、そうでないデータが、分析結果に強い影響を及ぼすことがないからです。

また、分析結果にノイズが混じっていると感じられた場合は、簡単な操作でフィルタリングをすることができます。

あらかじめデータのクレンジングを行うと、そこに分析をする人間の恣意が入ってしまいます一見、無関係やノイズのように見えるデータでも、積み重なることで結果に大きな影響を与えるかもしれません。関係性技術は、本当に弱い関係のデータは目立たなくしますが、弱い関係でも頻度によって強い関係になるのであれば、きちんと分析結果に反映されます。あらかじめデータをクレンジングしてしまうと、見逃してしまうような小さな声でも拾い上げることができるのです。

私たちはよく、関係性技術を「りんごの皮むき」にたとえて説明しています。

りんごというものは、食べるときに皮をむきます。これは、データ分析を行うときに、データのごみ(ノイズ)を取り除いて、かたちを整えることに相当しています。

もちろん、りんごの皮むきと同様に、データのクレンジングは必要な行為です。りんごが、皮をむかないとおいしく食べられないのと同様に、データも、ゴミを取り除かないと有用な分析結果が出ないからです。

しかし、実際のところりんごの皮には栄養価が高く、抗酸化成分と言われるポリフェノールも3種類含まれていることをご存じでしょうか。そのため、りんごは皮のまま食べるのが一番と主張する人もいます。そして、りんごの皮と同様に、データクレンジングで切り捨てられる部分にも、大切なデータが含まれていないとも限りません。

013_02.png

関係性技術は、データクレンジングが不要な技術です。その理由は、不要なデータがあっても結果に大きな影響を及ぼさず、むしろ良い影響を与えてくれる可能性すらあるからです。いわば、皮のままりんごを食べることができる技術です。

皮がついたままのりんごをかじると、皮をむいたりんごとは当然違った味がします。渋みを感じることがあるかもしれませんし、舌触りがよくないかもしれません。しかし、皮の中に滋養がたくさん含まれていることを思えば、一味違う感触が楽しめることでしょう。

③誰でも手軽に扱うことができる

関係性技術は、現在、モバイルソーシャライズシステムフォーラム(MSSF)の会員に対して、オープンツールのかたちで配布しています。このツールを用いて、クラウドに置かれたエンジンにアクセスすることで、誰でも関係性技術を簡単に体験することができます。

分析に使用するデータ自体は、個々のクライアントがそれぞれ用意することもできます。ツールに使用するためには「ノード」や「コンタクト」の指定などが必要ですが、何を「ノード」とするのか、何を「コンタクト」とするのかのルールさえ決めてしまえば、エクセルのマクロ機能などで自動的に加工することができるでしょう。

通常、本格的なデータ分析を行おうと思えば、マーケッターなどの企画を担当する人が、どのような仮説を検証したいかを指示したうえで、データ分析を担当する部署に発注しなければなりません(そうでなければ外注するかです)。

しかし、関係性技術では、分析の素人であるマーケッターや経営企画の人間でも、自分で使って、ある程度、精度の高い分析結果を得ることができます。仮説を立てて本格的なデータ分析に取り組む前に、その仮説を立てるための手段として使用するには最適のデータ分析手法です。

最後の重要な指標について

前回のコラムで、関係性技術では、一次指標である「距離」と、二次指標である「ホップ数」、「つながりの数」、「共通ノードの数」で関係性の意味と濃淡を表し、さらにもうひとつの重要な指標があることをご説明しました。

もう一つ重要な指標があります。それは、データの最終更新日時です。「Aさん」と「Bさん」の例で説明したように、関係性技術は、個人のデータをたくさん集めることで、その個人が将来的に取る行動を予測できるようになる技術です。この、個人の「未来予測」が可能になることが、関係性技術を使ったマーケティングにおいては非常に重要であると考えられます。

ここで大切になるのが「最終更新日時」です。

たとえば、関係するノードが多くて、将来的につながりを持つだろうし、話も合うだろう「Aさん」と「Bさん」がいたとしましょう。しかし、グラフ上でどんなにつながりが強くても、そのグラフが10年前のデータをもとにつくられたものであれば、未来予測にはあまり役立ちません。10年間の間につながりがどのように変化したのかがわからないからです。

そこで、関係性技術においてはデータの最終更新日時から、データそのものの信頼性や話題性を計算することにしています。この更新日時はノードやコンテキストとは別に保存されるデータとなります。

組み合わせ 導き出される関係性
距離×ホップ数 意外性
距離×つながりの数 特異性
距離×共通ノードの数 共感性
距離×最終更新日時 話題性

関係性技術の指標がお分かりいただけたでしょうか?手軽に、様々な指標で精度の高い結果を出せる、これが関係性技術の利点です!

前回:マーケティングに活かせる関係性のさまざまな指標

次回:ローコストで手軽な高精度のレコメンデーションシステム

関連コラム:データを活用するためにデータを捨てるという現実

関係性コラムトップ

トップへ戻る