Meetup: Building Realtime Analytics System with Cassandra and GigaSpaces @Square

サンフランシスコにきて初の勉強会に@taichiw0424と一緒に参加してきました。
お題は↓で、まぁCassandra使ってリアルタイムに分析しましょう的なヤツでアツいかな、と。
http://www.sfjava.org/events/32566642/
 
場所はSquare(https://squareup.com/)っていうスマホの決済とかやってるITベンチャー。
日本のスクエアエニックスとかとは関係ない感じ。
 

モロにスクエアって感じのロゴな1階のエントランスで名前とメアドとサインを書いて
2階のオフィスフロアに入ると、ズダーっとでっかいアップルのシネマディスプレイ的なのが
並んでて、みんなゴリゴリソース書いてそうな感じでした。
各島ごとにモニタがあってCI(継続的インテグレーション)のビルドとかテスト結果みたいのが
表示されててナイスな環境。
 
一番奥のキッチンにピザがズラッと並んでて、それ食べながらきてる人たちと話します。
日本だと順番逆だなぁなんて思いながらチョイチョイいろんな人と話してみました。

 
スマホ系の開発やってたけどスタートアップ企業がうまくいかなかったから
やめてサーバサイドやろうかなみたいな事いってたエンジニアの人や、
どっかの会社のヒューマンリソースの人や、
↓のビラ(latestな技術の研修会社)の人とかと軽く話してみました。

にしても、まぁDeveloperってのはこっちじゃ売り手市場なんだなって。
話には聞いてたけど肌で感じたっていうか。
優秀なDeveloperには当然ビザスポンサーするよとか真顔で言われると
ホロっとしちゃいそうになります。。
 
本題がはじまる前にちょっとした挙手のアンケートみたいのがあって、
Oracleのカンファレンス行ってきた人~ってほとんどいなくて、
JavaOne行ってきた人~ってほとんどいなかったです。
 
ダウンタウンはOracleやJavaOneグッズ持った人で溢れかえってて、
Squareもダウンタウンにあるのに意外な感じしました。#スーツとギークみたいのがこっちにもあるのかな。。
 

って、前置き長くなりましたが、以下、勉強会メモです。
 
■ 発表者
Giga Spaceっていうところの人。Nati Shalomさん
Tシャツ着たカジュアルなオッサン。インド系かな?
 
■ リアルタイムな分析とは何か?
イベントドリブンでツイートごとにカウントするような処理だよね、と。秒とかミリ秒で。
Ad-hocなクエリとか分毎のカウントはリアルタイムではない。
HadoopのMap/Reduceとかはバッチだからそれ系じゃない。
 
■ モロモロ紹介
インメモリデータグリッドの話とか。
NoSQL界隈のプロダクトの紹介とか。
 
■ HadoopやMap/Reduceどうなのよ?
各社(Y!, Facebook, Google)の見解
– Y!: fifteen minutes. never be true real-time
– Facebook: Hadoop/Hiveは依存が多かったりコンプリケイテッドでちょっと。。
– Google: 小さい箇所をUpdateしたりするのに適してない
 
■ bottom lineは何かってーと
結局は適切な技術の組み合わせでしか実現できないよね、と。
 
■ Facebookがやったこと
ゴール
– 48時間を30秒にするような。
– SPOFをなくす感じで。
– クソmassiveなloadをハンドリングする。1日20billionのイベントとか
→ LikeボタンやCommentBoxの分析。
 
発表されてる情報から
– ガンガンリアルタイムでHDFSに突っ込んで、
– PTailってのでログをフェッチしつつ、
– PUMAで1.5秒毎にHBase。
→ 各サーバに秒間1万回の書き込み
 
んで、、
– メモリを信頼できるストアに使えるの?
– どのNoSQLプロダクトにするかは決められないよね?
 
#このオッサンはFacebookとは何も関係なさそうだけどもw
 
■ PUMAがやってること
データグリッドにデータ突っ込んだら、プロセッシングするやつは
イベントのリスナ拾ってーって感じみたい。イベントドリブン。
 
■ ショートタームからロングタームへ
ショートタームなデータストアからCassandraやHBaseとかを経て最後はMySQLにって感じに
ロングタームにしてくってのは分かりやすくていいんだけど、
このオッサンこのままFacebookの事例紹介を続けるつもりなんだろうかw
 
■ メモリとディスクどっちが高い?
そりゃモノによるよねって会場からw
で、ディスクの話からEconomicスケーリング的な。
JCloudsって急に出てきたけど何だろう?GigaSpaceのコンポーネント?
 
■ Putting it all together
Elastic Big Data Platformとかいってるけど、何のことなんだろう。。
ゴッソリいれてJPAなインタフェースでクエリで取り出す的な。
裏でMap/Reduceがどうのとか言ってるけど。
 
#てかCassandraの話はどこいった??w
 
■ GigaSpaceのデモ
GroovyのDSLで簡単にコンフィグレーションが書けるとか。
プロビジョニングがホゲホゲで~っていう。
 
アプリケーションはレシピがどうのこうの言ってるけど、
コンポーネント化して簡単に組み合わせられるって事なんだろうか。
 
各ノードのCPUやスレッド数とかがトレース出来るのは便利だけど、
このGUIでx万オーダーのサーバーとかマネージ出来るんだろうか。。
 
プロットする一つの箱の中に何が入ってるかトレース出来るのか。
ココはメモリグリッド、ココはカサンドラ、ココはxx。
んでその箱がYahoo PipesみたいなUIでトレース出来る、と。
 
詳しくはgigaspaces.comで。
 

Facebookの話とGigaSpacesのデモくらいで肝心のCassandraの話とかほとんどなかったし、
なんだか消化不良気味でしたが。。
 

勉強会後にもピザ食いながらみんなとチョロっと話せる時間があって。
せっかくなので講演者の人に、GigaSpacesで何千とか何万とかのサーバを管理するのに
GUIのツールちゃんと機能すんの?って質問してみたら、サーバをツリー状にひとまとめに
する機能があってソレがいい感じに使えるぜって事でした。
 
んで、せっかくなので一緒に写真撮ってもらって終了、とw

 

帰りに一緒になった人と島ごとにあるCIのモニタの事を話してて。
画面に表示されてるのも全部四角(スクエア)だしあいつらクレイジーだなとか、
それにしちゃ赤いスクエア(テストが失敗してる)多くね?とか、
そういうの隠さないオフィスもナイスだし、見ず知らずな人とでも
フランクに冗談話せちゃう雰囲気もなんだかいいなぁと思ってしまいまいた。
 
 

Hadoop徹底入門
Hadoop徹底入門

posted with amazlet at 11.10.05
太田 一樹 下垣 徹 山下 真一 猿田 浩輔 藤井 達朗
翔泳社
売り上げランキング: 46892

コメント

タイトルとURLをコピーしました