pandazx's blog

データ分析など雑多な技術ブログ

HBase

Hadoopソースコードリーディング 第20回に行ってきた

久しぶりの参加。 www.eventbrite.com 本日のお品書き Apache Kylin: Materialized View for Big Data Apache Phoenix: Relational database layer over HBase Upgrading from HDP2.1 to HDP2.4 Kylin, Phoenixって何だろう、という動機で参加。どちらもHBas…

EricssonのHBaseチューニング1

以下の記事の意訳。けど、未検証。 HBase: Performance Tuners | Ericsson Labs5000 row/secの処理性能だったところをチューニングにより、750,000 row/secを達成した。 本ブログでは集計プログラムについてのみ説明しているが、次回ブログではランダムアク…

HBaseのデータ書き込みの仕組み

以下の記事の意訳と補足 Apache HBase Write Path | Apache Hadoop for the Enterprise | Cloudera本記事ではHBaseがどうやってHadoop上で低レイテンシな読み書きを実現しているか、また、データの更新が出来ないHadoopでどうやって更新を実現しているかを説…

HBaseへのbulkload時のデータフロー設計

HBaseにbulkloadする際にMapReduceでHFileを作成しますが、その際にデータフローをちゃんと考えておく必要があります。HBaseのスキーマ定義によるが、1つのCellにたくさんのデータを詰める場合、 何も考えないとMapでグルーピングしてReduceで処理する必要…

HBaseでGzip圧縮ありのHFile作成(事前分割)

前回でHBaseのテーブル作成を学んだ。 HBaseでsplit定義ありのテーブル作成 - pandazx's blog次はデータをインポートするためのHFileを作成する。以下はポイントだけ記述したMapReduceによるHFile作成方法 (サンプルコード。動作保証なし) public class Cr…

HBaseでsplit定義ありのテーブル作成

以下のコードでHBaseに a100, b100 でsplitされたregionを3つ持つtable_nameのテーブルが作成されます。 (サンプルコードなので以下のコードでは動作確認してません) Configuration config = HBaseConfiguration.create(); config.addResource(new Path("/…