英文の自然言語処理におススメ!お手軽なPolyglotを使ってみた。(http://lab.astamuse.co.jp/entry/try-polyglot)
↑を参考にさせていただきながら、Polyglotを使えるようになるまでの話。別の環境で動かす必要が出てきた時にハマらないようにメモ(環境はAWS Cloud9のAmazon Linux)
pipでPolyglotをインストール
$ sudo pip install polyglot
英語用のモデルをダウンロードしようとするとICUが無いと言われる
$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘icu’
pyicuを入れようとすると何か色々言われる
$ sudo pip install pyicu
〜略〜
Please set the ICU_VERSION environment variable to the version of ICU you have installed.
ググったらlibicu-devってのを入れろって言われるけど、ココはUbuntuではなかった。。
$ sudo apt-get install libicu-dev
sudo: apt-get: command not found
yumコマンドにすると、そんなパッケージ無いと言われる
$ sudo yum install libicu-dev
〜略〜
No package libicu-dev available.
Error: Nothing to do
develですがな、と。
$ sudo yum install libicu-devel
〜略〜
Installed:
libicu-devel.x86_64 0:50.1.2-11.12.amzn1
ようやくpyicuが入る
$ sudo pip install pyicu
〜略〜
Successfully installed pyicu-2.0.3
モデルのダウンロードはpycld2が無いと言われて再度失敗する
$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘pycld2’
pycld2入れる
$ sudo pip install pycld2
〜略〜
Successfully installed pycld2-0.31
morfessorってなんですの?
$ polyglot download embeddings2.en pos2.en
〜略〜
ModuleNotFoundError: No module named ‘morfessor’
morfessor入れる
$ sudo pip install morfessor
〜略〜
Successfully installed morfessor-2.0.4
ようやくモデルが手に入った…。
$ polyglot download embeddings2.en pos2.en
[polyglot_data] Downloading package embeddings2.en to
[polyglot_data] /home/ec2-user/polyglot_data…
[polyglot_data] Downloading package pos2.en to
[polyglot_data] /home/ec2-user/polyglot_data…
明日は早起きして形態素解析して名詞だけ抜き出す実装するぞ、と。
amzn_assoc_ad_type =”responsive_search_widget”; amzn_assoc_tracking_id =”diary045-22″; amzn_assoc_marketplace =”amazon”; amzn_assoc_region =”JP”; amzn_assoc_placement =””; amzn_assoc_search_type = “search_widget”;amzn_assoc_width =”auto”; amzn_assoc_height =”auto”; amzn_assoc_default_search_category =””; amzn_assoc_default_search_key =”python”;amzn_assoc_theme =”light”; amzn_assoc_bg_color =”FFFFFF”; //z-fe.amazon-adsystem.com/widgets/q?ServiceVersion=20070822&Operation=GetScript&ID=OneJS&WS=1&Marketplace=JP