pandazx's blog

Hadoop, データ分析など雑多な技術ブログ

hadoop2.0.3-alpha で気になる機能

Apache Hadoop 2.0.3-alpha Released | Apache Hadoop for the Enterprise | Cloudera

hadoop2.0.3-alphaではジョブ単位に使えるCPUコア数を制御できるらしい。

運用で使えそう。

2.0.3に限らず、新しく見つけた機能にdisk location APIがあります。

このスライドの後ろの方に書いてあります。

hadoopの特徴にdata localityがありますが、これはnode単位のローカリティではなく、一歩進んで、nodeのディスク単位のローカリティを制御できるものです。

Impalaはこれを使っているそうです。