Polyglotを使った形態素解析の環境構築

英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。(http://lab.astamuse.co.jp/entry/try-polyglot)
↑を参考にさせていただきながら、Polyglotを使えるようになるまでの話。別の環境で動かす必要が出てきた時にハマらないようにメモ(環境はAWS Cloud9のAmazon Linux)

pipでPolyglotをインストール

$ sudo pip install polyglot

英語用のモデルをダウンロードしようとするとICUが無いと言われる

$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘icu’

pyicuを入れようとすると何か色々言われる

$ sudo pip install pyicu
〜略〜
Please set the ICU_VERSION environment variable to the version of ICU you have installed.

ググったらlibicu-devってのを入れろって言われるけど、ココはUbuntuではなかった。。

$ sudo apt-get install libicu-dev
sudo: apt-get: command not found

yumコマンドにすると、そんなパッケージ無いと言われる

$ sudo yum install libicu-dev
〜略〜
No package libicu-dev available.
Error: Nothing to do

develですがな、と。

$ sudo yum install libicu-devel
〜略〜
Installed:
libicu-devel.x86_64 0:50.1.2-11.12.amzn1

ようやくpyicuが入る

$ sudo pip install pyicu
〜略〜
Successfully installed pyicu-2.0.3

モデルのダウンロードはpycld2が無いと言われて再度失敗する

$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘pycld2’

pycld2入れる

$ sudo pip install pycld2
〜略〜
Successfully installed pycld2-0.31

morfessorってなんですの?

$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘morfessor’

morfessor入れる

$ sudo pip install morfessor
〜略〜
Successfully installed morfessor-2.0.4

ようやくモデルが手に入った…。

$ polyglot download embeddings2.en pos2.en
[polyglot_data] Downloading package embeddings2.en to
[polyglot_data] /home/ec2-user/polyglot_data…
[polyglot_data] Downloading package pos2.en to
[polyglot_data] /home/ec2-user/polyglot_data…

明日は早起きして形態素解析して名詞だけ抜き出す実装するぞ、と。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする