TOP > ソリューション > テキストマイングツール

Text Mining Studio

Text Mining Studio ( TMStudio ) は簡単な操作で本格的なテキストマイニングが行えるツールです。テキストマイニングの第一歩である頻度の分析から、テキストに付随する属性を活かした特徴分析、話題分析など豊富な分析機能を備え、さらにその結果をグラフィカルな表示で表現することができます。

テキストマイニングツール

テキストマイニングツールは、大量のテキストを処理し、テキストに何が書かれているかを容易に把握することができます。また、人手で読むだけでは見つけられなかった、テキストとそれに付属するデータとの関連などの情報を、定量的かつ定性的に見つけ出すことができるようになります。

  • 問い合わせ内容と顧客満足度との関係を把握
  • 社内報告文書の解析による非効率部分の改善
  • 製品に対するブランドイメージの把握
  • 時系列変化による広告効果の評価
  • 他社製品との比較による自社製品の弱点の発見
  • 消費者ニーズの発見 ‥‥などなど

分析機能

基本情報

データの総量や1行の平均的な単語の数などのテキストに関する基本情報や、属性毎の集計など、分析を行う上でまず知っておく必要のある情報を得るための分析です。

単語頻度解析

単語の頻度に関する情報を表示します。属性毎の集計も可能です。様々なグラフでの表現により、多くの情報を得ることができます。また、属性を 2 種類もしくは 3 種類指定し、クロス集計結果を図示することができます。

単語頻度解析

係り受け頻度解析

構文解析で得られた係り受けの情報を元に、係り受けの頻度情報を表示します。属性毎の集計や属性間のクロス集計も可能です。

係り受け頻度解析

グルーピング

テキスト中に出現する単語(1文節及び 係り受け(2文節)の係り受け表現を抽出し、これらの表現をマウス操作で簡単にグルーピングすることができます。グルーピングの結果を他の分析で用いるためのグループ辞書機能を搭載します。文節 のグルーピングデータは、類義語辞書として用いることも可能です。

注目語情報

注目した単語が、どういった使われ方をしているのか、また他のどういった単語と同時に出てくるかといった情報を得ることができます。

特徴語抽出

属性毎に特徴的な単語を抽出します。ターゲットを絞った要求の抽出や属性別の傾向などが把握できます。

特徴抽出

特徴表現抽出

属性毎に特徴的な係り受け表現を抽出します。

評判抽出

良いイメージで語られることば、悪いイメージで語られることばを抽出します。また、抽出した単語の、原文での用いられ方を確認することができます。評価を与える語のカスタマイズを行うこともできます。

評判抽出

ことばネットワーク

属性とことば、また ことば同士の関連性の強さをネットワーク図で図示します。関連性の指標として、単語同士の係り受け関係もしくは同時出現(共起)の確率を用いることができます。ネットワーク図を整理することにより、関連の強いもの同士のクラスタが見えてきます。

ことばネットワーク

対応バブル分析

ことば同士の関係や、ことばと属性の関係を2次元・3次元上にマッピングします。頻度をバブルの大きさで表わすことにより、重要な単語との関連を一目で表します。

対応バブル分析

文章分類

文章を指定のクラスタ数に分類し、各クラスタの情報をレポートします。全クラスタの属性分布と単語分布をグラフで一度に確認することが可能です。また、各クラスタを構成する代表的な文章を抽出します。

文章分類

単語頻度推移

時間軸の属性を持つデータについて、その時間軸ごとの単語頻度や、出現の変化をグラフで確認できます。また、時間方向で動きの大きい単語のみを抽出する機能を持ちます。

係り受け頻度推移

係り受け関係についても、単語頻度推移と同様の抽出を行うことができます。

分析機能

入力データ設定

CSVファイル・MS-Excelファイルに加えWeb経由のHTML文書を入力データとしていただくことが可能です。

分かち書き

Text Mining Studioでは、単純に単語単位へと分かち書きするだけでなく、テキスト中のことば同士の修飾関係を抽出するための構文解析もあわせて行います。また、ユーザ辞書への登録の手間を大きく軽減する、文節単位への分かち書きを行う自動連結機能を搭載しています。

辞書

分かち書きの精度を高めるための、3種類の辞書を搭載しています。

ユーザ辞書

未知語を登録することによって分かち書きの精度を向上させます

分割辞書

自動連結の連結具合をコントロールすることができます

類義語辞書

同じ語として扱いたいことばを登録します

類義語抽出

大小文字・数値表現の合わせ込みなどの表記揺れを解消し、更にことばの使われ方の類似を見ることによって類義語を自動抽出します。

属性加工

既存の属性から新たな属性を作り出します。年齢をもとにして新たな年代」という属性を作成したり、また生年月日から 「星座」 を作成するなど、属性のグルーピングが可能です。

フィルタリングとグルーピング

分かち書き結果を、含まれることばや属性でフィルタリングすることにより、対象を絞った分析を行うことができます。また、単語や係り受け関係をグループ化した新しい分かち書き結果を生成できるようになりました。これにより、グループ化したことばを用いて他の分析を行なうことが可能です。

原文参照

分析結果から、マウス操作で即座に原文を検索できます。単一のことばによる検索だけではなく、係り受け関係を指定しての原文の参照や、否定や肯定などのニュアンスの指定など、厳密な検索が可能です。

原文参照

テキスト編集

表記の揺らぎや記述ミスなどを一括編集し、分析の精度を高めることができます。また、編集後のテキストを出力することができます。

テキスト編集

プロジェクトの読み込みと保存

分析に用いたパラメーターや結果をそのまま保存し、次回の起動時に同じ状態を再現することができます。

結果出力と印刷

分析結果の表およびグラフを印刷します。表はCSVファイルとして出力することができます。

レポート出力

Webブラウザで閲覧可能なhtml形式のレポートが出力されます。分析時のパラメーターも自動的に出力され、分析結果に対応するテキストの原文もレポート上で参照することができます。

カテゴリデータ生成

ことばネットワーク・グルーピング・文章分類の分析結果から、意味的なまとまりとなるグループを自動的に作成し、その結果を元にカテゴリデータを生成します。グループ生成のためのルールや、カテゴリ化の結果は自由に修正することができます。

カテゴリー生成

   

Text Cutter

Text Mining Studioの拡張機能としてご利用頂けるツールTextCutterは、テキストを話題毎に 自動的に分割するツールです。

一件の意見の中で様々な話題に触れられているようなテキスト、特にブログ記事、掲示板、クチコミサイトいったテキストは、フォーカスしたい話題やキーワードに基いてテキストマイニングを行なうような場合に非常に扱いづらいものとなっていました。

このようなテキストにTextCutterを使用することで、分析者にとって興味のある話題のテキストのみを抽出することが可能になり、テキストマイニングの精度を向上させることができます。

textcutter

 

動作環境

ハードウェア PC/AT互換機
CPU 1.0GHz 以上 ( 推奨 2GHz 以上 )
メモリ 512MB ( 推奨 1GB 以上 )
HDD空き領域 200MB 以上 ( 処理データ量によって異なります )
対応OS Microsoft(R) Windows(R) XP/Vista/Server2003/Server2008

※TextMiningStudioは株式会社数理システムの登録商標または商標です。
※TextCutterは株式会社数理システムと弊社との共同開発製品です。