pandazx's blog

データ分析など雑多な技術ブログ

Hadoop

Hadoopソースコードリーディング 第20回に行ってきた

久しぶりの参加。 www.eventbrite.com 本日のお品書き Apache Kylin: Materialized View for Big Data Apache Phoenix: Relational database layer over HBase Upgrading from HDP2.1 to HDP2.4 Kylin, Phoenixって何だろう、という動機で参加。どちらもHBas…

Hadoopの新ストレージKuduのβ版リリース

HadoopにはHDFS(ファイルシステム)やHBase(列指向DB)といった ストレージシステムがありますが、両者を補完する位置づけであるという 新しいストレージシステムKudu(クドゥ)がリリースされました(β版) Kudu (クドゥ) : HDFSとHBaseを補完する、Hadoo…

CDH4でのMapReduceプリントデバッグ

横着者なのでプリントデバッグでMapReduceを開発することがよくあります。その手順を説明します。yarn-site.xmlの設定 <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <description>Where to aggregate logs to.</description> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/var/log/hadoop-yarn/apps</value></property>

hadoop2.0.3-alpha で気になる機能

Apache Hadoop 2.0.3-alpha Released | Apache Hadoop for the Enterprise | Clouderahadoop2.0.3-alphaではジョブ単位に使えるCPUコア数を制御できるらしい。運用で使えそう。2.0.3に限らず、新しく見つけた機能にdisk location APIがあります。What's New …

CDH4のデフォルト設定値

Hadoopのチューニングをする時に設定項目のdefaultを確認したい場合がある。CDH4の場合は以下のページのメニューの下の方に「core-default.xml」などのリンクがある。 Hadoop MapReduce Next Generation 2.0.0-cdh4.1.2 - Setting up a Single Node Cluster.

MapReduceでJava heap space や physical memory limits エラー

環境:CDH4.1、YARN対象データが大きいとOutOfMemoryエラーなどが出ることがあります。もし、map実行中にJava heap spaceエラーが出たら、mapreduce.map.java.opts の値を大きくするといいかもしれません。reduce実行中のエラーなら、mapreduce.reduce.java.…

MapReduceの実行時エラー:Type mismatch in key from map

keyだけでなく、Type mismatch in value from map というようにvalueのエラーもあるこのエラーには以下のようなメッセージが続く expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable期待してない型を受け取ったためのエラーだ…