Hadoop Conference Japan 2013 Winter(#hcj13w)に行ってきました

朝から丸一日、懇親会まで楽しませていただきました。
グッときた講演をいくつかピックアップする感じで。
　
■ NHN JapanさんのLINEでHBaseを利用してるよって話

1年間培ってきたノウハウをガッツリ紹介。資料は基本的に英語。
　
FacebookよりTwitterよりLINEの方が1億ユーザーを突破するのにかかった時間が短い。
日本で4千万、台湾とタイでそれぞれ1千万。
＃そういえば先月行ったバンコクはタクシーの運転手さんとかもLINE使ってた。
　
日本のあけおめのトラフィックとかホントにハンパなくて、何ヶ月も前から準備。
　
データセンター間のレプリケーションするためにアレやコレや自作しまくり。
NameNodeの障害の対策として/etc/hostsを書き換えるエピソードとか、
現場感がプンプンして、地に足ついてる感じもカッコイイ。
　
ここまでオープンにしながら、チャレンジし続けてる姿勢に非常にリスペクト。
サービスと共に開発現場もイケイケなんだろうなって羨望的な。
　
↓発表資料はこちら
[slideshare id=16097733&w=427&h=356&fb=0&mw=0&mh=0&style=border:1px solid #CCC;border-width:1px 1px 0;margin-bottom:5px&sc=no]

Storage infrastructure using HBase behind LINE messages from NAVER Japan

　
　
■ Treasure Dataの太田さんの話
この話聞いて、Treasure Dataのファンになった人多かったんじゃないかな。
なぜ彼らがクラウドでBigDataな領域に飛び込んで行ったのかということが
とてもロジカルで且つ説得力のある内容で。バズワード感無し。
　
More Sleep, More Value。
人がお金を払って何かの運用を依頼する場合、
寝ててもちゃんと回っていくかって事が重要な要素。
　
極めてシンプルなソリューションだけど、オンプレミスで頑張るよりは、
マルチテナントなので安価、そしてステーブルなサービスを提供。
　
複数のデータセンターに複数のクラスタを構築して、
グローバルスケジューラー＋ローカルスケジューラーでやりくり。
　
日本人で、世界相手に、技術力で正面突破していこうとしてる姿とか
グッときてしまいます。
　
　
■ サイバーエージェントさんがHBase使ってグラフDBを構築したという話
各サービスをミニグラフ。ミニグラフを束ねたものをデカグラフ。
ネーミングがキャッチーでナイスで且つ色んなサービスやってると
それを横断的に〜っていうのはどうしても欲しくなる。
既にHadoopクラスタを運用しててノウハウがあるからHBaseっていう選択。
データ構造とか、ほえぇ〜そういう風にするのねーって。
メジャーコンパクションは夜中にやるとか、リージョーンサーバーのフェールオーバーの話とか、
その辺の運用の話も聞けて参考になりました。
　
　
■ oza_x86さんのローカルで中間ファイルをまとめてから〜という話

インターネット上でよくお見かけする名前で、重鎮っぽい感じの人なのかと思ったら、
随分さわやかなお若い方だったんですね。。
　
あまり内部的な実装の事とかよく知らなかったのですが、
ロジカルな説明を聞いた後に、こうすればHiveでのGroup Byは早くなったりする的な
話が非常に説得力があって、海外のコミュニティの方と進めているようでスゲーなーと。
　
　
■ Hadoopを使って大量のPDFを出力する〜という話
SIerで受託開発をしてた頃は、必ず帳票関連の実装をすることがあって、(特に金融系だったので)
今も、電子書籍関連のプロジェクトにいるので、EPUB3にコンバートとかってのがあったりするので、
ほえぇ〜と思いながら聞いてました。
　
ディストリビューテッドキャッシュに1GBのメタデータをボカンと配って、
オリャっとやってくーっていう男前な実装。
　
何十時間の処理が数十分になる。しかもノード足してけば足してくほど早くなる。
ナイスな象さんの使い方だなと思いました。
　
　
■ LivedoorさんのFluentdとHadoopを使ったログ収集＆分析の話

発表資料は非常にDetailedだったので後ほど公開されると思うのと、
ココで細かい事をダダっと書くのもあれなのでやめておきますが、
思わず講演後につぶやいたのが↓。

カッケーっす。男前すぐる。
＃懇親会でこのツイートをRTしてくれた元同じ会社の@kubornさんにお会いできて良かったです。
　
↓発表資料はこちら
[slideshare id=16092751&w=427&h=356&fb=0&mw=0&mh=0&style=border:1px solid #CCC;border-width:1px 1px 0;margin-bottom:5px&sc=no]

Log analysis with Hadoop in livedoor 2013 from SATOSHI TAGOMORI

　
　
■ FlumeとFluentdについてFluentdの開発者の古橋さんの話
日本語でこんな話が聞けるなんて幸せですねぇ。
実装はシンプルで。プラグインを作り易いように。
インフラの設定も自分たちで頑張らないでChefとかPuppetでやりゃイイじゃん、と。
Flumeとの比較がなんとも唸らせるというか。
　
TDの紹介のところでPerfectQueueって馴染みが無いので、
あとからどんなもんかみてみようかなと思います。
　
↓発表資料はこちら
[slideshare id=16090817&w=427&h=356&fb=0&mw=0&mh=0&style=border:1px solid #CCC;border-width:1px 1px 0;margin-bottom:5px&sc=no]

How to collect Big Data into Hadoop from Sadayuki Furuhashi

　
　
■ So-netさんの広告システムの話

アドネットワークってのがあってな、枠とか在庫がｘｘだからアドエクスチェンジってのが出てきてな、
どこのアドネットワークに広告出す〜とかってのもアレだからDSPってのが出てきて、
媒体の方も収益の最大化がホゲホゲだからSSPってのが出てきて、リアルタイムでオークションして〜
なんていう説明として、この講演よりシンプルで且つ分り易いの見たことないかも。
　
RabbitMQの導入までの道のりや、その使い方も非常にロジカルで説得力があって、
こういう場で、ｘｘが出来ませんってのをキチンと言えるっていうのも、素晴らしい事かな、と。　
　
全部自社データセンターにある物理サーバーで頑張ってた元広告システム担当としては、
アドテク on AWSな事例としてとても参考になりました。
　
　
—
一緒の部署で働いててフットサルとかよくやってた友人に会えたり、
最近どこにいっても遭遇するAWSのソリューションアーキテクトの方とか、
同じ会社で以前同じ部署でクリティカルなシステムの運用をやってた同志とか、
懇親会に参加したら、その昔、SIerで働いてた頃に、競合他社さんと合同で
アーキテクチャ設計に関する勉強会をやっていたのですが、
そこで知り合った人と5年以上振りに会えたり、
こうやって技術を介して人と人が繋がっていくのってイイなぁと。
いやー、こういう技術系のカンファレンスって本当にイイものですねぇ〜