CDH4でのMapReduceプリントデバッグ
横着者なのでプリントデバッグでMapReduceを開発することがよくあります。
その手順を説明します。
yarn-site.xmlの設定
<property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <description>Where to aggregate logs to.</description> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/var/log/hadoop-yarn/apps</value> </property>
上記の設定をしておくと、ログはノードごとに集計される
プログラム中に標準出力でプリントデバッグを仕込んで実行
出力されるログのHDFSパス例
/var/log/hadoop-yarn/apps/実行ユーザ名/logs/application_ID/ノードホスト名_数字
これでプリントデバッグの結果を参照できる
詳しい説明は外道さんのブログを参照
CDH4 LogPath and LogLevel Configurations | 外道父の匠