pandazx's blog

データ分析など雑多な技術ブログ

Hadoopの新ストレージKuduのβ版リリース

HadoopにはHDFSファイルシステム)やHBase(列指向DB)といった ストレージシステムがありますが、両者を補完する位置づけであるという 新しいストレージシステムKudu(クドゥ)がリリースされました(β版)

Kudu (クドゥ) : HDFSとHBaseを補完する、Hadoopの新しいストレージエンジン | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan

特徴(上記サイトより引用)

  1. スキャンとランダムアクセスの双方における強力なパフォーマンスによってお客様の複雑なハイブリッド・アーキテクチャをシンプルにすることを手助けする
  2. 高いCPU効率によって当社のお客様が最新のプロセッサに行っている投資のリターンを最大化する
  3. 最新の永続化ストレージを活用するための高いIO効率を実現する
  4. 無駄な処理とデータ移動を回避するための、インプレース更新機能
  5. 地理的に離れた場所にある複数のデータセンターにまたがるアクティブ・アクティブ・レプリケーションクラスタのサポート

以下のようにHadoopを使ったシステムを簡素化できるようです。

  • 旧:データ発生源→HBase→HDFSMapReduceなどの分析
  • 新:データ発生源→Kudu→MapReduceなどの分析

とはいえ補完的な製品なので、HBaseもHDFSも残るのでしょうが。 現在、開催中のHadoop World Conferenceでアーキテクチャなどの詳細が発表されるそうです。

Hadoopはディスクがボトルネックという前提で作られたソフトウェアですが、 現在はCPUがボトルネックになることが多いそうです。 そのため、CPUのパフォーマンスを最大限引き出すために、特徴2があります。 (Kudu開発元ClouderaがIntelの出資を受けているのも理由の1つと思われる)

特徴5はHBaseの比較として、よく取り上げられるCassandraが 地理的に離れたデータセンターにデータのコピーが出来るのに対し、 HBaseが出来なかったので、その改善と思われます。

位置づけとしては、IoT向けのデータ蓄積・分析基盤なんでしょうかね。

Kudu公式サイト:Kudu - Fast Analytics on Fast Data