第2回NHNテクノロジーカンファレンスを外から眺める
気付いた時には参加枠が埋まってたので
参加した方々の情報発信のおこぼれをまとめて内容を理解したい。
■アジェンダ
livedoor Techブログ : 第2回NHNテクノロジーカンファレンス開催!
■Togetter
第2回NHNテクノロジーカンファレンス #nhntech まとめ - Togetter
・ツイート抜粋1
レスポンスタイムの測定などのリアルタイムで集計できるデータと、
1日/1週間などの期間で集計する必要があるデータを別々に保存。
後者は Hive で集計。これは近年のログ解析における定石
これはおそらく、データファイルを別にコピーしておくことで
集計処理のローカリティが効くので、
負荷が分散されるということだと思われる。
・ツイート抜粋2
解析は、追試可能でなければならない。
リアルタイムのストリーム解析だけだと後から再現できない。
バッチ解析とリアルタイム解析の両方の基板を組み合わせるのが
現代のログ解析における定石
■HTML5 Animation in Mobile Web Games by 沈 相旻
これについては資料が見当たらなかった。
■日々進化するHadoopの「いま」 by @hamaken
Hadoop Conference Japanを今年もやるらしい。
詳細は近日発表とのこと。
■HBase at LINE by @sunsuk7tp
P.49に異なるtableの同一keyは同じサーバに割当とあるが、
そういうことできるのは知らなかった。
同ページにあるprison RSって何だろう。。。
特別にハイスペックなサーバのことかな。
P.51にHBaseはnetwork-boundで1クラスタ数百台弱が限界とあるけど、
これは1 Gigabitの場合なのかな?
10 Gigaとか、Infinibandにすればもう少しいけるのでは。お金かかるけど。
■OSSで支えられるLivedoorの巨大ログ集計 Hive と Fluentd by @tagomoris
このスライドでは概要とシステム運用に対する考え方を述べられている。
スライドで紹介している以下の方が技術的なことが書かれている。
- Hive Tools in NHN Japan #hadoopreading
- Distributed Stream Processing on Fluentd / #fluentd
- Plugins by tagomoris #fluentdcasual
ご本人による振り返り
第2回NHNテクノロジーカンファレンスでしゃべってきた - tagomorisのメモ置き場
※当日の講演動画もあります。
■Hadoop and Data Scientist by @doryokujin
ビッグデータの活用を以下の4つに分けて、1〜3まで解説している。
- Monitoring
- BI Tools
- Data Analytics
- ML / Graph Mining
■その他、Togetterでツイートされた資料
- CDH4.0.0のNameNode HAを触ってみて
- Distributed Cube Materialization on Holistic Measures
- MapReduceでCUBEを生成する論文
- http://web.eecs.umich.edu/~congy/work/icde11a.pdf
-
Tenzing A SQL Implementation On The MapReduce Framework
- Googleのtenjingの論文
- [1208.0225] Processing a Trillion Cells per Mouse Click
スライドだけだとわからないことが多い。
やっぱ、行きたかったな〜