SF Data Mining の Crowdsourcing: InfoScout and Samasource にいってきました。

せっかくサンフランシスコに旅行にきてるので、久しぶりにこっちのMeetupに行きたいなぁと。
ちょうどナイスな日取りでSF Data MiningってグループのMeetupがあったので、
Crowdsourcing Series: InfoScout and Samasource @Trulia に参加してきました。
IMG_0294
 
場所はNew MontgomeryとMissionの交差点のソバのビル。なかなか趣のある。
IMG_0323
 
エレベーターもユニークな感じ。
IMG_0322
 
9階につくと会場時間ちょっと前なのに凄い人。んで、会場のtruliaのロゴどーん、と。
IMG_0298
 
San FranciscoのIT企業らしく、卓球台もきちんと設置されていて、
IMG_0297
 
外出るとチルアウトするのにナイスそうなテラスが。
IMG_0300
 
日本ではみんな恥ずかしがってアレですが、こっちの人はカジュアルに話まくります。
が、自分は有給消化中の身のため、イマイチ話が盛り上がらなかったりして。。
IMG_0302
 
ってか、なぜかパックマンのゲームもあった。笑
IMG_0299
 
ピザつまみつつ、
IMG_0303
 
ビールもあるし。
IMG_0295
 
 
■ 主催の方から挨拶
 
SF Data Miningは毎月Meetupやっててね〜なんて話から、
IMG_0305
 
ピザとビールの協賛だったのかな?Statistics.comっていうそっち系の教育サイトの紹介とか。
IMG_0306
 
 
■ InfoScout の CTO の Jon Breligさんの話
 
InfoScoutはSeries AしたSFのスタートアップ。
リアルなお店のお客さんのデータをホゲホゲして〜的な。以下2つのスマホアプリの開発元。
・Receipt Hog – Put $ in your own pocket
・Shoparoo – Fundraise for a cause
 
アーキテクチャ的な話としては、以下のような感じで、
1. レシートをキャプチャしてJSONにする。
2. Computer Vision(OpenCV) + OCR + MTurk
3. MongoDBに。スクレイピングと分類
4. MySQL + Hadoop(EMR)
Walmart や Walgreen のレシートをJSONに〜っていう例の紹介とか。結構頑張ってピンぼけとかでも。
 
で、この実装の話はとても面白そうだったのですが、今回はCrowdSourcingがお題ということで、
以下に人手を使ってコンピューターは無理なクオリティの高いアレをするか、と。
 
そこで Amazon の Mechanical Turk ですよ、と。
恥ずかしながら、全くMechanical Turkというサービスの事を知らなかったのですが、手広くそんな事もやってたのですね。
メリット/デメリットは以下のような感じです、と。
・Pros – Fact, Economical, Large worker volume, Programmatic Interface, Amazon trusted & established
・Cons – Lower quality, Lower skillets, API a bit primitive
 
Mechanical Turkを使う上でのTIPS的な話とか。
IMG_0308
 
実際にこんな感じでやってる的なデモとか。
IMG_0309
 
Workerがこんな感じでグワっときてるぜ的な。
IMG_0310
 
Quality Controlのための工夫とか、柔軟なテンプレートの作り方とか、怪しい値が入ってきたらバリデーションではじくとか、
同じの2回入ってきちゃった場合にどうシステム側で判断するかとか、細かくガッツリお話してくれて興味深かったです。
#BotoっていうAWSのPythonのライブラリの話とか出てきて。GameDayの時にちょっとだけ触ったのとか思い出しました。
 
最後は彼らの解析結果をグラフィカルに見れるアレで
Trader Joe、RedBull、マルボロ、Old El なんちゃら、、、とか入れてって、
白人男性が良く買ってるとか、NYのお金持ちの人が〜とか、面白かったです。
 
んで、お約束の。。
IMG_0311
 
 
■ Samasource の VP の Martin Andersonさんのお話
 
Samasourceはnon profitな団体で、世界の貧困をなんとかしましょう的なアレ。
 
地球のどこかではこんなに悲惨なんだよ的な話からはじまり、
IMG_0313
 
unemployment rateが高いのが問題だと。
なので、こんな感じで教育してクラウドソーシングで働けるように〜って。
IMG_0314
 
クイックに教育して稼げるように〜と。
IMG_0314
 
その為のワークフローやAPIを提供してるらしい。
IMG_0316
 
具体的に例えばこんなことやってます、と。
デジタルなデータを人手で〜
IMG_0317
 
画像のタギングとか。機械学習させて最終的には自動化にもってきたいけど、正確にやれるようになるまでは人手が必要。
IMG_0318
 
Workerはこんな感じになってて、俄然増えてきてるよーと。
IMG_0320
 
 
■ Q&A
 
ちょっと英語的についていけず、、でしたが、とにかくみんな質問しまくるというか。だいぶ日本とは雰囲気違います。
IMG_0321
 
 

ちょっと今までやってきた仕事と守備範囲が違くて、話についてイケないところもあったし、
参加してる人がDeveloperじゃない人が多かったりもしましたが、ソレはソレで面白かったというか。
特に、Samasourceの話はイイ感じに広まってったらアツいなぁと思うし、その為に自分がちょっとでも
役に立てたりしたらナイスだなって思ったりしました。
 

クラウドソーシングの衝撃 (NextPublishing)
株式会社インプレスR&D (2013-06-21)
売り上げランキング: 26

コメント

  1. […] Meetupに関するブログは http://shinodogg.com/?p=5700 にまとめましたので、そちらもどうぞ。   […]

タイトルとURLをコピーしました