せっかくサンフランシスコに旅行にきてるので、久しぶりにこっちのMeetupに行きたいなぁと。
ちょうどナイスな日取りでSF Data MiningってグループのMeetupがあったので、
Crowdsourcing Series: InfoScout and Samasource @Trulia に参加してきました。
場所はNew MontgomeryとMissionの交差点のソバのビル。なかなか趣のある。
エレベーターもユニークな感じ。
9階につくと会場時間ちょっと前なのに凄い人。んで、会場のtruliaのロゴどーん、と。
San FranciscoのIT企業らしく、卓球台もきちんと設置されていて、
外出るとチルアウトするのにナイスそうなテラスが。
日本ではみんな恥ずかしがってアレですが、こっちの人はカジュアルに話まくります。
が、自分は有給消化中の身のため、イマイチ話が盛り上がらなかったりして。。
ってか、なぜかパックマンのゲームもあった。笑
ピザつまみつつ、
ビールもあるし。
■ 主催の方から挨拶
SF Data Miningは毎月Meetupやっててね〜なんて話から、
ピザとビールの協賛だったのかな?Statistics.comっていうそっち系の教育サイトの紹介とか。
■ InfoScout の CTO の Jon Breligさんの話
InfoScoutはSeries AしたSFのスタートアップ。
リアルなお店のお客さんのデータをホゲホゲして〜的な。以下2つのスマホアプリの開発元。
・Receipt Hog – Put $ in your own pocket
・Shoparoo – Fundraise for a cause
アーキテクチャ的な話としては、以下のような感じで、
1. レシートをキャプチャしてJSONにする。
2. Computer Vision(OpenCV) + OCR + MTurk
3. MongoDBに。スクレイピングと分類
4. MySQL + Hadoop(EMR)
Walmart や Walgreen のレシートをJSONに〜っていう例の紹介とか。結構頑張ってピンぼけとかでも。
で、この実装の話はとても面白そうだったのですが、今回はCrowdSourcingがお題ということで、
以下に人手を使ってコンピューターは無理なクオリティの高いアレをするか、と。
そこで Amazon の Mechanical Turk ですよ、と。
恥ずかしながら、全くMechanical Turkというサービスの事を知らなかったのですが、手広くそんな事もやってたのですね。
メリット/デメリットは以下のような感じです、と。
・Pros – Fact, Economical, Large worker volume, Programmatic Interface, Amazon trusted & established
・Cons – Lower quality, Lower skillets, API a bit primitive
Mechanical Turkを使う上でのTIPS的な話とか。
実際にこんな感じでやってる的なデモとか。
Workerがこんな感じでグワっときてるぜ的な。
Quality Controlのための工夫とか、柔軟なテンプレートの作り方とか、怪しい値が入ってきたらバリデーションではじくとか、
同じの2回入ってきちゃった場合にどうシステム側で判断するかとか、細かくガッツリお話してくれて興味深かったです。
#BotoっていうAWSのPythonのライブラリの話とか出てきて。GameDayの時にちょっとだけ触ったのとか思い出しました。
最後は彼らの解析結果をグラフィカルに見れるアレで
Trader Joe、RedBull、マルボロ、Old El なんちゃら、、、とか入れてって、
白人男性が良く買ってるとか、NYのお金持ちの人が〜とか、面白かったです。
んで、お約束の。。
■ Samasource の VP の Martin Andersonさんのお話
Samasourceはnon profitな団体で、世界の貧困をなんとかしましょう的なアレ。
地球のどこかではこんなに悲惨なんだよ的な話からはじまり、
unemployment rateが高いのが問題だと。
なので、こんな感じで教育してクラウドソーシングで働けるように〜って。
クイックに教育して稼げるように〜と。
その為のワークフローやAPIを提供してるらしい。
具体的に例えばこんなことやってます、と。
デジタルなデータを人手で〜
画像のタギングとか。機械学習させて最終的には自動化にもってきたいけど、正確にやれるようになるまでは人手が必要。
Workerはこんな感じになってて、俄然増えてきてるよーと。
■ Q&A
ちょっと英語的についていけず、、でしたが、とにかくみんな質問しまくるというか。だいぶ日本とは雰囲気違います。
—
ちょっと今までやってきた仕事と守備範囲が違くて、話についてイケないところもあったし、
参加してる人がDeveloperじゃない人が多かったりもしましたが、ソレはソレで面白かったというか。
特に、Samasourceの話はイイ感じに広まってったらアツいなぁと思うし、その為に自分がちょっとでも
役に立てたりしたらナイスだなって思ったりしました。
売り上げランキング: 26
コメント
[…] Meetupに関するブログは http://shinodogg.com/?p=5700 にまとめましたので、そちらもどうぞ。 […]