第２回NHNテクノロジーカンファレンスを外から眺める

気付いた時には参加枠が埋まってたので
参加した方々の情報発信のおこぼれをまとめて内容を理解したい。

・ツイート抜粋１
レスポンスタイムの測定などのリアルタイムで集計できるデータと、
1日/1週間などの期間で集計する必要があるデータを別々に保存。
後者は Hive で集計。これは近年のログ解析における定石

これはおそらく、データファイルを別にコピーしておくことで
集計処理のローカリティが効くので、
負荷が分散されるということだと思われる。

・ツイート抜粋２
解析は、追試可能でなければならない。
リアルタイムのストリーム解析だけだと後から再現できない。
バッチ解析とリアルタイム解析の両方の基板を組み合わせるのが
現代のログ解析における定石

■HTML5 Animation in Mobile Web Games by 沈相旻
これについては資料が見当たらなかった。

■日々進化するHadoopの「いま」 by @hamaken

日々進化するHadoopの「いま」 from System Platforms Sector / NTT Dara Corp

Hadoop Conference Japanを今年もやるらしい。
詳細は近日発表とのこと。

■HBase at LINE by @sunsuk7tp

HBase at LINE from Shunsuke Nakamura

P.49に異なるtableの同一keyは同じサーバに割当とあるが、
そういうことできるのは知らなかった。

同ページにあるprison RSって何だろう。。。
特別にハイスペックなサーバのことかな。

P.51にHBaseはnetwork-boundで１クラスタ数百台弱が限界とあるけど、
これは1 Gigabitの場合なのかな？
10 Gigaとか、Infinibandにすればもう少しいけるのでは。お金かかるけど。

■OSSで支えられるLivedoorの巨大ログ集計 Hive と Fluentd by @tagomoris

OSSで支えられるライブドアの巨大ログ集計 #nhntech from SATOSHI TAGOMORI

このスライドでは概要とシステム運用に対する考え方を述べられている。
スライドで紹介している以下の方が技術的なことが書かれている。

■Hadoop and Data Scientist by @doryokujin

Hadoop and the Data Scientist from Takahiro Inoue

ビッグデータの活用を以下の４つに分けて、１〜３まで解説している。

■その他、Togetterでツイートされた資料

スライドだけだとわからないことが多い。
やっぱ、行きたかったな〜

pandazx's blog