PLSA、ID付POS分析への新たな分析視点!
PLSA(確率的潜在意味解析法):Probabilistic Latent Semantic Analysis
・Deloitte(デロイトトーマツ):
・http://www2.deloitte.com/content/dam/Deloitte/jp/Documents/deloitte-analytics/jp-da-201412-PLSA.pdf
・ビッグデータから有用な知識を抽出する技術として、人工知能の分野でPLSAという手法が注目を集めている。PLSAとはProbabilistic Latent Semantic Analysisの略で、確率的潜在意味解析法と呼ばれている。Hofmanが1999年に発表した次元圧縮の手法であり、クラスタリングの手法としても使用される。次元圧縮とは、高次元のデータ(列の多いデータ)を低次元データに変換すること、つまりできるだけシンプルに表現しようとすることである。一方クラスタリングとは、類似するデータをまとめていくつかのグループに分類することである。
・元々PLSAは、情報検索の分野で、膨大な文書データを分類するために開発された手法である。ここでいう文書データとは、図1(上)のように、行に文書の情報を持ち、列にその文書に出現する単語の情報を持つ「文書」×「単語」の行列データで、各文書における各単語の出現頻度が記録されている「共起行列」と呼ばれる形式のデータである。PLSAを適用すれば、図1(上)にあるような文書5,000件×単語10,000語という高次元のデータは、例えば5個のトピックで表現可能で、図1(下)にあるような文書5,000件×トピック5個という低次元のデータに変換することができる。
・PLSAの考え方は図2のように図式化できる。PLSAは、文書dとそこに出現する単語wの間には、共通のトピックとなるような、潜在的な意味クラスzがあると想定し、この潜在クラスを確率的に抽出する手法であり、図2に示した3種類の確率変数P(z),P(w|z),P(d|z)を計算する。
<ID-POS系の購買履歴データ>
・顧客にヒットする商品をレコメンドして売上を伸ばしたい
⇒「顧客」×「購買商品」のデータに適用して顧客をクラスタリングする
⇒ 各顧客グループの購買商品の傾向を把握する
・商品の仕入れや陳列の効率化、売上が伸びるタイムセールのタイミングを知りたい
⇒「商品」×「時間・曜日」のデータに適用する
⇒ 時間帯・曜日帯と商品の売れる傾向の関係性を把握する
・同時購買を誘って売上を伸ばしたい
⇒「Aコーナーの商品」×「Bコーナーの商品」という、売り場の異なる商品の同時購買データに適用する
⇒ これは従来のバスケット分析のクラスタリング版と捉えることもできる
⇒ 有名な「ビール」と「おむつ」の同時購買は、PLSAでは「酒類」と「乳幼児商品」として一つのトピックに所属し、そのトピックは「小さな子どもを持つ父親がお使いで買物をする商品」という潜在意味を持つ
PLSA(確率的潜在意味解析法)を活用した興味深い事例:
人工知能、日銀との心理戦に敗北:
・THE WALL STREET JOURNAL:2016 年 2 月3日
・http://jp.wsj.com/articles/SB12751571096197434046704581517730642055462
・日本銀行の黒田東彦総裁は先週、初となるマイナス金利の導入を決定してエコノミストや投資家に衝撃を与えたが、同時に総裁は、人工知能(AI)にも肩すかしを食らわせた。
・野村証券とクレディ・スイス証券は昨年、予想される金融政策変更の手掛かりを得るために日銀の声明を分析するAIを開発した。
・このプログラムでは、日銀の声明や景気判断の文言を分析するテキストマイニング手法が用いられる。「インフレ期待の低下」や「物価の上昇」といった文言を数値化し、その結果を基に日銀の「センチメント」を測る指数を算出する。そして日銀が景気支援に動く可能性を検討する際にアナリストらがこの指数を参照する。
PI研のコメント:
・2/3、THE WALL STREET JOURNALが興味深い記事を配信しました。「人工知能、日銀との心理戦に敗北」と題し、今回のマイナス金利の日銀の黒田総裁の金融政策をAIが見誤ったという内容です。このAIは「PLSA(確率的潜在意味解析法)」を駆使した野村証券とクレディ・スイス証券が開発したテキストマイニングであり、「「インフレ期待の低下」や「物価の上昇」といった文言を数値化し、その結果を基に日銀の「センチメント」を測る指数を算出」するものだそうです。こんなところにPLSAが実践投入されているとは驚きです。外れた理由が深さと広さ、すなわち、さらに重要な声明や期間が不十分だったとのことで、今後はこのAIの仕組みを改良し、日銀の政策を予想、サプライズに惑わされない仕組みを目指すとのことです。このPLSA、ID付POSデータの分析にも、ここ最近実践活用されはじめており、ここで取り上げたDeloitte(デロイトトーマツ)の小論は興味深いものです。すでに、レコメンド、陳列、セール、同時購買等に活用が始まっているとのことで、この考え方を活用した特許申請も済んでいるとのことです。その数式はP(z)、P(w|z)、P(d|z)と単純であり、要は2次元の場合の次元圧縮であり、しかも、従来の属性データなしでも、クラスタリングが可能であり、さらに、ソフトクラスタリング、ひとつの項目が確率的にいくつものクラスターに分類され、グループ化されますので、より自然なクラスタリングが可能とのことです。ID付POSデータの分析、このPLSAの活用により、新たな次元に入ったといえ、今後、実践事例の積み重ねが重要なテーマになったといえそうです。
お知らせ:
NEW!
1.2015年度版、食品スーパー・ドラックストア財務3表連環分析、リリース、8/17!
*食品スーパー・ドラックストア、全上場企業約100社を対象!
*過去5年間を(ドラックストア3年)、エクセルで自由自在に分析!
2.週間!食品スーパーマーケット最新情報:まぐまぐ!
3.facebookに「食品スーパーマーケット最新情報」グループ創設630人!
4.eラーンング:
*ID付POSデータ実践活用セミナーがeラーニングになりました!
« Z顧客への販促、Target Finder! | Main | 必見、首都圏 店舗見学MAP2016! »
Comments