AIの特許を見る、PLSAとBN!
分析方法、分析装置及び分析プログラム:
【出願人】有限責任監査法人トーマツ
【特許番号】特許第6085888号(P6085888):平成29年2月10日(2017.2.10)
【要約】
【課題】テキストデータに含まれる文章についてトピックの抽出を容易とし、当該トピックに基づいてベイジアンネットワークによるモデル化をすることで、モデルが複雑になることを回避し、さらに、そのモデル化結果において、条件を変化させたときにどのような結果となりうるのかを推論することができる分析方法、分析装置及び分析プログラムを提供する。
【解決手段】テキストデータから文章を抽出し、各文章から、予め定めた第1品詞及び第2品詞のそれぞれに該当する第1単語群及び第2単語群を抽出し、各文章に含まれている第1単語群に属する単語及び第2単語群に属する単語の組み合わせの個数を表す共起行列を作成し、共起行列を入力とし、潜在意味解析法(PLSA)を実行する。
【発明の詳細な説明】
【技術分野】【0001】
本発明は、テキストデータの分析を行う場合に、データに記載されている内容の現状を把握するだけでなく、条件を変化させたときにどのような結果となりうるのか推論する分析方法、分析装置及び分析プログラムに関する。
【背景技術】【0002】【0003】【0004】【0005】【0006】【0007】
単語そのものではなく文章のトピックを抽出する手法として、PLSAがある(非特許文献7参照)。元々文章分類のために開発された手法で、文章とそこに出現する単語の間には観測できない潜在的な意味クラスがあることを想定し、文章と単語の共通のトピックとなるような特徴を見つける手法である。このような手法により抽出されたトピックを変数として扱い、ベイジアンネットワークでモデルを構築することで、モデルがシンプルとなり、結果の解釈もしやすくなる可能性がある。
【先行技術文献】
【非特許文献】【0008】
【発明の概要】
【発明が解決しようとする課題】【0009】【0010】【0011】【0012】
本発明は、上記事情に鑑みてなされたものであり、テキストデータに含まれる文章についてトピックの抽出を容易とし、当該トピックに基づいてベイジアンネットワークによるモデル化をすることで、モデルが複雑になることを回避し、さらに、そのモデル化結果において、条件を変化させたときにどのような結果となりうるのかを推論することができる分析方法、分析装置及び分析プログラムを提供することを目的とする。
【課題を解決するための手段】
【0013】【0014】【0015】【0016】【0017】【0018】【0019】【0020】
【発明の効果】
【0021】
【図面の簡単な説明】
【0022】
【発明を実施するための形態】
【0023】【0024】【0025】【0026】【0027】【0028】【0029】【0030】【0031】【0032】【0033】【0034】【0035】【0036】【0037】【0038】【0039】【0040】【0041】【0042】【0043】【0044】【0045】【0046】【0047】【0048】【0049】【0050】【0051】【0052】【0053】【0054】【0055】【0056】【0057】【0058】【0059】【0060】【0061】【0062】【0063】【0064】【0065】【0066】【0067】【0068】【0069】【0070】【0071】【0072】【0073】【0074】【0075】【0076】【0077】【0078】【0079】【0080】【0081】【0082】【0083】【0084】【0085】【0086】【0087】【0088】【0089】【0090】【0091】【0092】【0093】【0094】【0095】【0096】【0097】【0098】【0099】【0100】【0101】【0102】【0103】【0104】【0105】【0106】【0107】【0108】【0109】【0110】【0111】【0112】
本発明では、文章及び単語からなる共起行列ではなく、文章に含まれる単語同士(名詞及び形容詞)からなる共起行列を作成したため、単語間で出現頻度に差が出やすく、これにPLSAを実行することで、表4のように、抽出されたクラスの意味を解釈しやすくすることができる。
各クラスのスコアは連続値であるが、ベイジアンネットワークで扱う変数は質的変数となるので、適当な閾値を設定するなどして離散化する。ここでは、各テキストデータの各クラスのスコアは、例えば、スコアが3を超えればHigh、3以下であればLowという2値を取る離散的な確率変数とする。この閾値は、各文章の内容とそのスコアの大きさを目視することで決定する。
このような前処理を行った結果、モデル化手段14においては、一つのテキストデータIDについて、クラスごとのスコアと、属性情報とが関連づけられた表12のようなデータを入力とする。
本発明によれば、ベイジアンネットワークでは単語そのものを適用対象とせず、PLSAにより抽出されたクラスを対象とする。これにより、単語を適用対象とするよりも、ベイジアンネットワークによるモデルがシンプルとなり、モデルの把握や解釈を容易とすることができる。
このような推論結果は、業務改善すべき点を効率的に見いだすことに役立てることができる。具体的には、表13のような推論結果によれば、どの様な観点(トピック)が総合得点をどの程度押し上げる、又は押し下げるかを定量的に把握することができる。したがって、どの観点(トピック)から業務改善やサービスの充実を図ればよいか、優先順位を決定することができる。例えば、総合得点が5点となる確率が最も高いのは、クラスC14「スタッフ丁寧さ」であるから、「スタッフ丁寧さ」のスコアが向上するような業務改善等を優先的に行う、などと意思決定することができる。
【符号の説明】
【0113】
PI研のコメント(facebook):
・有限責任監査法人トーマツが、今年の2月、人工知能の技術を2つ組み合せアンケート調査などからトピックを抽出、顧客属性と組み合せ、因果関係を推論、業務改善や販促に活用できるユニークな特許を取得しました。人工知能、AIは機械学習やディープラーニングが注目されていますが、今回の特許となった人工知能の技術はPLSAとBNであり、この2つを組み合せ、アンケート内容をマーケティング戦略の意思決定にまでに高めたところがポイントといえます。PLSAは次元圧縮、ここでは文章から名詞と形容詞をテキストマインングで抽出、この2つの次元を1つのトピックにPLSAを使って圧縮、その圧縮したトピックを顧客一人一人に紐づけ、さらに、顧客の属性をもとにBN、ベインジアンネットワークにかけ因果関係を導き、そこから推論、意思決定にまで高めたことがポイントといえます。通常、この2つの人工知能技術を結び付けることは簡単ではないといえますが、特許の内容を見ると、離散化するなど、様々な工夫が見られ、うまく融合がなされています。この特許、ID-POS分析にも適用が可能だと思いますので、今後、テキストマイニングだけでなく、データマイニングの分野でも力を発揮するのではないかと思います。今回特許は今年成立したといえ、AIシフトはまだはじまったばかりといえますので、今後、様々なAIの特許が申請され、流通業の分野でも活用されるのではないかといえます。2018年度、どのような時代になるか、AIから目が離せない年になりそうです。
続きは、・・:https://twitter.com/PurchaseTW
━━━━━━ お知らせ! ━━━━━━━━━━━━
1.2017年度版、食品スーパー・ドラッグストア財務3表連環分析、リリース!
*現在Vol.1:お申し込みはこちら
*食品スーパー・ドラッグストア、全上場企業約100社を対象!
*過去8年間を(ドラッグストア6年)、エクセルで自由自在に分析!
*分析事例:eラーニングで公開
2.週間!食品スーパーマーケット最新情報:まぐまぐ!
3.facebookに「食品スーパーマーケット最新情報」グループ創設700人!
4. 隔週、ID-POS分析の連載、DRM オンライン、第13回、5/29!
« CPI、2017年11月、コア0.9%、コアコア0.3%! | Main | オーケー、2018年、中間決算、増収、営業減益! »
« CPI、2017年11月、コア0.9%、コアコア0.3%! | Main | オーケー、2018年、中間決算、増収、営業減益! »
Comments