- 自己紹介
普段Hadoop使ってる人が多い
SIer、コンサル、研究、ネット会社、、様々な人。
- 趣旨
コードを読めばいいジャマイカ。
やれるならビール飲みながらくらいでやりたい。
Happy Source Reading。
- ディストリビューション
Apache、Cloudera、Yahoo
- バージョン
0.20系で。MapReduceのAPIが2つあるらしい。。
- どこから見ていくか
MapReduceは入りやすいけど、
CoreとかHDFSにする?Coreは眠くなっちゃいそう。
→MapReduceで。新API?旧API?
新はまだちょっときついから、旧APIで。
旧API→Mapred。
- やり方
20分×3本くらいな感じで。
- ハッシュタグ
#hadoop_reading
- 次回
4月23日くらい。
- LT
– 西岡さん
西岡さんはTypeSafe Love
型指定がめんどいから推論したかったけど。
MapWritableにヒントが隠されてるらしい。
– 半場さん
スケジューラ
Capacity(Y!のキュー)と、Fair(Facebookのプール)の違い。
Fairの方がいろいろ細かく制御でき、基本100%使う。
– 藤川さん
PAPYRUS : JRubyでMapReduceする。
JRubyごとClientからサーバに送りつけて処理する。
JRubyは10メガくらいだからたいした転送量じゃない。
RubyでストリーミングでやるよりJava使えた方が早いはず
– 大谷さん
並列分散処理基盤。巨大なデータを扱う。並列で安価に。
生態系、エコシステム。ディストリビューションもいっぱい。
Avroでシリアライズのところとか作り替える?今後重要に。
コメント