pandazx's blog

データ分析など雑多な技術ブログ

2013-01-13から1日間の記事一覧

HBaseへのbulkload時のデータフロー設計

HBaseにbulkloadする際にMapReduceでHFileを作成しますが、その際にデータフローをちゃんと考えておく必要があります。HBaseのスキーマ定義によるが、1つのCellにたくさんのデータを詰める場合、 何も考えないとMapでグルーピングしてReduceで処理する必要…

MapReduceの実行時エラー:Type mismatch in key from map

keyだけでなく、Type mismatch in value from map というようにvalueのエラーもあるこのエラーには以下のようなメッセージが続く expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable期待してない型を受け取ったためのエラーだ…

HBaseでGzip圧縮ありのHFile作成(事前分割)

前回でHBaseのテーブル作成を学んだ。 HBaseでsplit定義ありのテーブル作成 - pandazx's blog次はデータをインポートするためのHFileを作成する。以下はポイントだけ記述したMapReduceによるHFile作成方法 (サンプルコード。動作保証なし) public class Cr…

HBaseでsplit定義ありのテーブル作成

以下のコードでHBaseに a100, b100 でsplitされたregionを3つ持つtable_nameのテーブルが作成されます。 (サンプルコードなので以下のコードでは動作確認してません) Configuration config = HBaseConfiguration.create(); config.addResource(new Path("/…