文章を関係性技術で扱えるデータに変換するための考え方と形態素解析術

このエントリーをはてなブックマークに追加
2016年11月17日

関係性技術で扱うデータは、購買履歴や位置情報などはもちろん、アンケートや口コミ、SNSの投稿などの定性データと呼ばれるものや、Webコンテンツなどの文章も扱うことができます。ログには表せない、文章でしか伝わらない感情や思いを分析することで、新たな価値を創出することが目的です。

関係性グラフが扱う「イベント」の考え方

関係性グラフはデータを「イベント」という単位で扱い、イベントに含まれるキーワードをノードとしてノード間の関係を評価し、グラフ化します。文章を扱う場合も、文章をこのイベントに変換する必要があります。

「文章をイベントに変換」

なんのことやらわかりませんね。

では、こう考えてみましょう。イベントとは「出来事」を表します。例えば、購買履歴なら「何かを買った」という出来事を、位置情報なら「その地点に来た」という出来事をイベントとして定義することが多くなります。

文章の場合は、その文章の中で出来事の区切りを定義することになります。

関係性技術開発チームでは、主に一文や一段落をイベントとして扱っています。これは、全く別の出来事または関連がない出来事が一文や一段落内に表現されることはほとんどないと考えているためです。

次の文章を例にしてみます。

モバイルソーシャライズシステム(MSS)とは、「関係性技術」によって人々の活動におけるあらゆる要素の相互の関係性を構築し、関係性を軸としてマーケティングや予防保全など、さまざまな目的に産業活用するシステムです。
近年「ビッグデータ」という言葉が頻繁に使われ、膨大かつ多様なデータを価値ある情報として活用できるかどうかが、ビジネスの明暗を分けることが認識されています。しかしながら、膨大かつ複雑に絡み合うデータの前では、必要な情報に辿り着き、有効活用することは困難を極めます。

この文章を一文をイベントとするなら、次の3つのイベントに分けられます。

  1. モバイルソーシャライズシステム(MSS)とは、「関係性技術」によって人々の活動におけるあらゆる要素の相互の関係性を構築し、関係性を軸としてマーケティングや予防保全など、さまざまな目的に産業活用するシステムです。
  2. 近年「ビッグデータ」という言葉が頻繁に使われ、膨大かつ多様なデータを価値ある情報として活用できるかどうかが、ビジネスの明暗を分けることが認識されています。
  3. しかしながら、膨大かつ複雑に絡み合うデータの前では、必要な情報に辿り着き、有効活用することは困難を極めます。

形態素解析からノード化する

次に、文章を関係性技術が扱うノード群に変換する必要があります。
その方法のひとつに、形態素解析があります。

形態素解析(けいたいそかいせき、Morphological Analysis)とは、文法的な情報の注記の無い自然言語のテキストデータ(文)から、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素(Morpheme, おおまかにいえば、言語で意味を持つ最小単位)の列に分割し、それぞれの形態素の品詞等を判別する作業である。
引用:Wikipedia

では、膨大な文章データをどのように形態素解析するのでしょうか?

形態素解析を行うフリーのツールはたくさんあります。例えば、Mecabkueomojiは有名です。

次の文章があったとしましょう。

モバイルソーシャライズシステム(MSS)とは、「関係性技術」によって人々の活動におけるあらゆる要素の相互の関係性を構築し、関係性を軸としてマーケティングや予防保全など、さまざまな目的に産業活用するシステムです。

Mecabを使って上の1の文章を形態素解析してみましょう。

モバイルソーシャライズシステム	名詞,一般,*,*,*,*,*
(	記号,括弧開,*,*,*,*,(,(,(
MSS	名詞,固有名詞,組織,*,*,*,*
)	記号,括弧閉,*,*,*,*,),),)
と	助詞,格助詞,引用,*,*,*,と,ト,ト
は	助詞,係助詞,*,*,*,*,は,ハ,ワ
、	記号,読点,*,*,*,*,、,、,、
「	記号,括弧開,*,*,*,*,「,「,「
関係	名詞,サ変接続,*,*,*,*,関係,カンケイ,カンケイ
性	名詞,接尾,一般,*,*,*,性,セイ,セイ
技術	名詞,一般,*,*,*,*,技術,ギジュツ,ギジュツ
」	記号,括弧閉,*,*,*,*,」,」,」
によって	助詞,格助詞,連語,*,*,*,によって,ニヨッテ,ニヨッテ
人々	名詞,一般,*,*,*,*,人々,ヒトビト,ヒトビト
の	助詞,連体化,*,*,*,*,の,ノ,ノ
活動	名詞,サ変接続,*,*,*,*,活動,カツドウ,カツドー
における	助詞,格助詞,連語,*,*,*,における,ニオケル,ニオケル
あらゆる	連体詞,*,*,*,*,*,あらゆる,アラユル,アラユル
要素	名詞,一般,*,*,*,*,要素,ヨウソ,ヨーソ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
相互	名詞,一般,*,*,*,*,相互,ソウゴ,ソーゴ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
関係	名詞,サ変接続,*,*,*,*,関係,カンケイ,カンケイ
性	名詞,接尾,一般,*,*,*,性,セイ,セイ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
構築	名詞,サ変接続,*,*,*,*,構築,コウチク,コーチク
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ
、	記号,読点,*,*,*,*,、,、,、
関係	名詞,サ変接続,*,*,*,*,関係,カンケイ,カンケイ
性	名詞,接尾,一般,*,*,*,性,セイ,セイ
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
軸	名詞,一般,*,*,*,*,軸,ジク,ジク
として	助詞,格助詞,連語,*,*,*,として,トシテ,トシテ
マーケティング	名詞,一般,*,*,*,*,マーケティング,マーケティング,マーケティング
や	助詞,並立助詞,*,*,*,*,や,ヤ,ヤ
予防	名詞,サ変接続,*,*,*,*,予防,ヨボウ,ヨボー
保全	名詞,サ変接続,*,*,*,*,保全,ホゼン,ホゼン
など	助詞,副助詞,*,*,*,*,など,ナド,ナド
、	記号,読点,*,*,*,*,、,、,、
さまざま	名詞,形容動詞語幹,*,*,*,*,さまざま,サマザマ,サマザマ
な	助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
目的	名詞,一般,*,*,*,*,目的,モクテキ,モクテキ
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ
産業	名詞,一般,*,*,*,*,産業,サンギョウ,サンギョー
活用	名詞,サ変接続,*,*,*,*,活用,カツヨウ,カツヨー
する	動詞,自立,*,*,サ変・スル,基本形,する,スル,スル
システム	名詞,一般,*,*,*,*,システム,システム,システム
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス
。	記号,句点,*,*,*,*,。,。,。

品詞ごとに分解されました。これらの品詞をノードとして扱います。

しかし、「と」「は」「、」「を」なども含めて全ての品詞をノードにしては、分析は難しいですね。
何をノードにすべきか、キーワードの区切りはこれでいいのか、などは調整が必要です。

調整後がこんな感じです。

モバイルソーシャライズシステム,関係性技術,人々,活動,要素,相互,関係性,構築,軸,マーケティング,予防保全,目的,産業,活用,システム

これに時間情報をつければ、ついにイベントのできあがりです!

2016/11/10 16:36,モバイルソーシャライズシステム,関係性技術,人々,活動,要素,相互,関係性,構築,軸,マーケティング,予防保全,目的,産業,活用,システム

私たち関係性技術の開発チームでは、ノードとして扱う品詞の選定や、必要な辞書の準備、複合名詞の設定など、扱うデータに応じて形態素解析ツールを独自にカスタマイズしています。

ちなみに、私たちが文章をイベントに変換する際には、処理速度を高めるために、先に形態素解析してから一文に区切っています。

関係性コラムトップ

トップへ戻る