Python x データ分析 | ワードクラウドを用いたデータ可視化_Mecabによる形態素分析

2023.06.24
Python

今回は前回の続きです。

魅せるIT編集部

2023.06.24

Python x データ分析 | ワードクラウドを用いたデータ可視化

https://miseruit.com/2023/06/24/post-4964

みなさん、こんにちは！今回は「ワードクラウド」を用いたデータ分析を紹介します。手順今回はPythonの「wordcloud」を用います。あらかじめ読み込みたいtextデータは「text_data.txt」とし、Pythonプログラムと同じ階層に配置しています。サンプルコードは以下の通りです。from wordcloud import WordCloudimport matplotlib.pyplot as plt# ワードクラウドに表示するテキストデータを用意しますwith open('text_data.txt', 'r', encoding='utf-8') as file: text = file.read()# WordCloudオブジェ...

1. 形態素分析ツール Mecab
2. プログラム
- 2.1. 「単語」のみを抽出する
3. ほかの文書ではどうなるか？
- 3.1. 例１）第4回東京グローバルダイアログ岸田総理大臣　挨拶
- 3.2. 例２）栗山監督　入学式の挨拶
4. まとめ
5. 本日のAmazonおすすめ_Top10

形態素分析ツール Mecab

今回は　形態素分析ツール Mecab　を利用します。

MeCabは、日本語の形態素解析エンジンであり、テキストを形態素（単語や文節など）に分割するためのツールです。

高速かつ高精度な形態素解析を提供し、自然言語処理やテキストマイニングなどのタスクで広く使用されています。

今回はWindows環境でのインストールを行います。

１）バイナリパッケージをインストールする

私の現在の環境はWin11なのですが、公式サイトの32bit版だとMecabが文字化けしてしまい、解析できませんでした。。。

以下の様な感じ↓

\udce3\t\udc96\udcbc\ucd8c, \udc88\udcca.....

ですので、こちらのサイトをもとに64bit版を入れることで利用することができました。

Qiita

Windows用の64-bit版MeCabを簡単にインストールする - Qiita

https://qiita.com/yukinoi/items/5dfc674c040f6d81a8a1

ちゃお・・・†はじめに64-bit版Pythonでは、MeCab公式サイトで配布されているWindows用32-bit版MeCabバイナリが実行できません。そこで、Windows用64-bit版MeCabバイナリが必要となる...

一応…）公式サイトからダウンロードする場合

64bit版はCaboChaが対応していないので、もし公式を入れたい場合は以下から。

公式サイトにアクセスし、バイナリパッケージ「XXX.exe」をダウンロードします。

サイトリンク↓

taku910.github.io

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

https://taku910.github.io/mecab/#download

２）ダウンロードしたexeを実行する

上記「１）」で取得したexeを実行します。

文字コードは「UTF-8」とします。

インストール時に、同時に辞書もダウンロードすることができますので、ダウンロードします。

３）pythonのモジュールをインストール

mecab-python3をインストールします。

pip install mecab-python3

以上で準備完了です。

プログラム

前回作成したPythonプログラムを改造し、Mecabのデータを取り込めるようにします。

データ元は前回同様、オバマ大統領の就任演説です。（リンク）

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import MeCab

# 形態素解析器としてMeCabを初期化します
mecab = MeCab.Tagger()

# ワードクラウドに表示するテキストデータを用意します
with open('text_data.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 使用するフォントのパスを指定します
font_path = 'C:/Windows/Fonts/meiryo.ttc'

# テキストを形態素解析して、単語のリストを取得します
parsed_text = mecab.parse(text).split('\n')
words = []
for line in parsed_text:
    if line == 'EOS':
        break
    else:
        word = line.split('\t')[0]
        words.append(word)

# ワードクラウドを作成します
wordcloud = WordCloud(width=800, height=400, font_path=font_path,background_color='white').generate(' '.join(words))

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

結果を見てみましょう。

単語というよりは助詞が強く表示されます。これでは可視化とは言い難い状況です…

「単語」のみを抽出する

プログラムを以下のように書き換えます。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import MeCab

# 形態素解析器としてMeCabを初期化します
mecab = MeCab.Tagger()

# ワードクラウドに表示するテキストデータを用意します
with open('text_data.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 使用するフォントのパスを指定します
font_path = 'C:/Windows/Fonts/meiryo.ttc'

# テキストを形態素解析して、単語のリストを取得します
parsed_text = mecab.parse(text).split('\n')
words = []
print(parsed_text)

for line in parsed_text:
    if line == 'EOS':
        break
    else:
        elements = line.split('\t')
        if len(elements)==2 and elements[1].startswith('名詞'):
            word = elements[0]
            words.append(word)

# ワードクラウドを作成します
wordcloud = WordCloud(width=800, height=400, font_path=font_path,background_color='white').generate(' '.join(words))

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

結果が以下の通りです。

だいぶ的を絞ることができました。もう少し調整してみます。

NGワードを何個かピックアップして除外してみます。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
from wordcloud import STOPWORDS
import MeCab

# 形態素解析器としてMeCabを初期化します
mecab = MeCab.Tagger()

# ワードクラウドに表示するテキストデータを用意します
with open('text_data.txt', 'r', encoding='utf-8') as file:
    text = file.read()

# 使用するフォントのパスを指定します
font_path = 'C:/Windows/Fonts/meiryo.ttc'

# テキストを形態素解析して、単語のリストを取得します
parsed_text = mecab.parse(text).split('\n')
words = []
print(parsed_text)

for line in parsed_text:
    if line == 'EOS':
        break
    else:
        elements = line.split('\t')
        if len(elements)==2 and elements[1].startswith('名詞'):
            word = elements[0]
            words.append(word)

#除外ワード
NGWORD_Lists = ['私','彼ら','そこ','ここ','あそこ','たち','こと','あれ','これ','それ','ため','もの','ん','の','よう','これら']
for NGWORD in NGWORD_Lists:
   STOPWORDS.add(NGWORD)

# ワードクラウドを作成します
wordcloud = WordCloud(width=800, height=400, font_path=font_path,background_color='white').generate(' '.join(words))

plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

結果が以下です。