Hadoop Source Code Reading 第0回

  • 自己紹介

普段Hadoop使ってる人が多い
SIer、コンサル、研究、ネット会社、、様々な人。

  • 趣旨

コードを読めばいいジャマイカ。
やれるならビール飲みながらくらいでやりたい。
Happy Source Reading。

  • ディストリビューション

Apache、Cloudera、Yahoo

  • バージョン

0.20系で。MapReduceのAPIが2つあるらしい。。

  • どこから見ていくか

MapReduceは入りやすいけど、
CoreとかHDFSにする?Coreは眠くなっちゃいそう。
→MapReduceで。新API?旧API?
 新はまだちょっときついから、旧APIで。
 旧API→Mapred。

  • やり方

20分×3本くらいな感じで。

  • ハッシュタグ

#hadoop_reading

  • 次回

4月23日くらい。

  • LT

– 西岡さん
 西岡さんはTypeSafe Love
 型指定がめんどいから推論したかったけど。
 MapWritableにヒントが隠されてるらしい。
– 半場さん
 スケジューラ
 Capacity(Y!のキュー)と、Fair(Facebookのプール)の違い。
 Fairの方がいろいろ細かく制御でき、基本100%使う。
– 藤川さん
 PAPYRUS : JRubyでMapReduceする。
 JRubyごとClientからサーバに送りつけて処理する。
 JRubyは10メガくらいだからたいした転送量じゃない。
 RubyでストリーミングでやるよりJava使えた方が早いはず
– 大谷さん
 並列分散処理基盤。巨大なデータを扱う。並列で安価に。
 生態系、エコシステム。ディストリビューションもいっぱい。
 Avroでシリアライズのところとか作り替える?今後重要に。

コメント

タイトルとURLをコピーしました