Hadoop Source Code Reading 第0回

技

2010.03.19

自己紹介

普段Hadoop使ってる人が多い
SIer、コンサル、研究、ネット会社、、様々な人。

趣旨

コードを読めばいいジャマイカ。
やれるならビール飲みながらくらいでやりたい。
Happy Source Reading。

ディストリビューション

Apache、Cloudera、Yahoo

バージョン

0.20系で。MapReduceのAPIが2つあるらしい。。

どこから見ていくか

MapReduceは入りやすいけど、
CoreとかHDFSにする？Coreは眠くなっちゃいそう。
→MapReduceで。新API？旧API？
　新はまだちょっときついから、旧APIで。
　旧API→Mapred。

やり方

20分×3本くらいな感じで。

ハッシュタグ

#hadoop_reading

次回

4月23日くらい。

– 西岡さん
　西岡さんはTypeSafe Love
　型指定がめんどいから推論したかったけど。
　MapWritableにヒントが隠されてるらしい。
– 半場さん
　スケジューラ
　Capacity(Y!のキュー)と、Fair(Facebookのプール)の違い。
　Fairの方がいろいろ細かく制御でき、基本100%使う。
– 藤川さん
　PAPYRUS : JRubyでMapReduceする。
　JRubyごとClientからサーバに送りつけて処理する。
　JRubyは10メガくらいだからたいした転送量じゃない。
　RubyでストリーミングでやるよりJava使えた方が早いはず
– 大谷さん
　並列分散処理基盤。巨大なデータを扱う。並列で安価に。
　生態系、エコシステム。ディストリビューションもいっぱい。
　Avroでシリアライズのところとか作り替える？今後重要に。