pandazx's blog

データ分析など雑多な技術ブログ

CDH4でのMapReduceプリントデバッグ

横着者なのでプリントデバッグでMapReduceを開発することがよくあります。

その手順を説明します。

yarn-site.xmlの設定

<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<property>
  <description>Where to aggregate logs to.</description>
  <name>yarn.nodemanager.remote-app-log-dir</name>
  <value>/var/log/hadoop-yarn/apps</value>
</property>

上記の設定をしておくと、ログはノードごとに集計される

プログラム中に標準出力でプリントデバッグを仕込んで実行

出力されるログのHDFSパス例
/var/log/hadoop-yarn/apps/実行ユーザ名/logs/application_ID/ノードホスト名_数字

これでプリントデバッグの結果を参照できる

詳しい説明は外道さんのブログを参照
CDH4 LogPath and LogLevel Configurations | 外道父の匠