Polyglotを使った形態素解析の環境構築

英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。(http://lab.astamuse.co.jp/entry/try-polyglot)
↑を参考にさせていただきながら、Polyglotを使えるようになるまでの話。別の環境で動かす必要が出てきた時にハマらないようにメモ(環境はAWS Cloud9のAmazon Linux)

pipでPolyglotをインストール

$ sudo pip install polyglot

英語用のモデルをダウンロードしようとするとICUが無いと言われる

$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘icu’

pyicuを入れようとすると何か色々言われる

$ sudo pip install pyicu
〜略〜
Please set the ICU_VERSION environment variable to the version of ICU you have installed.

ググったらlibicu-devってのを入れろって言われるけど、ココはUbuntuではなかった。。

$ sudo apt-get install libicu-dev
sudo: apt-get: command not found

yumコマンドにすると、そんなパッケージ無いと言われる

$ sudo yum install libicu-dev
〜略〜
No package libicu-dev available.
Error: Nothing to do

develですがな、と。

$ sudo yum install libicu-devel
〜略〜
Installed:
libicu-devel.x86_64 0:50.1.2-11.12.amzn1

ようやくpyicuが入る

$ sudo pip install pyicu
〜略〜
Successfully installed pyicu-2.0.3

モデルのダウンロードはpycld2が無いと言われて再度失敗する

$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘pycld2’

pycld2入れる

$ sudo pip install pycld2
〜略〜
Successfully installed pycld2-0.31

morfessorってなんですの?

$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘morfessor’

morfessor入れる

$ sudo pip install morfessor
〜略〜
Successfully installed morfessor-2.0.4

ようやくモデルが手に入った…。

$ polyglot download embeddings2.en pos2.en
[polyglot_data] Downloading package embeddings2.en to
[polyglot_data] /home/ec2-user/polyglot_data…
[polyglot_data] Downloading package pos2.en to
[polyglot_data] /home/ec2-user/polyglot_data…

明日は早起きして形態素解析して名詞だけ抜き出す実装するぞ、と。

amzn_assoc_ad_type =”responsive_search_widget”; amzn_assoc_tracking_id =”diary045-22″; amzn_assoc_marketplace =”amazon”; amzn_assoc_region =”JP”; amzn_assoc_placement =””; amzn_assoc_search_type = “search_widget”;amzn_assoc_width =”auto”; amzn_assoc_height =”auto”; amzn_assoc_default_search_category =””; amzn_assoc_default_search_key =”python”;amzn_assoc_theme =”light”; amzn_assoc_bg_color =”FFFFFF”; //z-fe.amazon-adsystem.com/widgets/q?ServiceVersion=20070822&Operation=GetScript&ID=OneJS&WS=1&Marketplace=JP