第1回Vertica勉強会メモ
勉強会ページ
非公式ハッシュタグは#vertica_meetup
◼︎20分でわかるVertica
概要紹介のみ
◼︎DeNAアナリスト業務
◼︎DeNAのVertica運用
Verticaクラスタ台数14台
ストレージ4TBx12ディスク RAID10
1Gbps x2 bonding
以下、これまでのトラブルシューティング
データロードでエラー検出されない
ABORT ON ERRORつければよい
copy reject on なんとかもある
分散キーのカラムの型は変更不可
あるクエリがリソース占有して、他のクエリが実行できなくなっていた
resource poolで使用リソース制限できる
テーブル一覧などのメタデータアクセスのクエリが遅かった。変なパラメータをチューニングしていたことが原因
Verticaへのデータロードは工夫してる?
してない。まだ問題になってない
kafka経由では、ちょろちょろロードして、Hadoop経由では、ある程度、まとめてロードしている
◼︎CTC. vertica始めました
ベンチマーク結果の発表
並列データロードで高速化
◼︎Verticaの速さの秘密、プロジェクション
テーブルには論理構造のみ、プロジェクションにはデータが入る
Run Length Encoding(RLE)
一般的な圧縮エンコーディングの1つ
連続するデータを繰り返し数で置き換える
select *のクエリを実行する場合はMPP使ったクエリで最後にマージすると高速化できる
データベースの自動チューニング
comprehensiveモードは全列並び替え
incrimentalモードは特定クエリで特定カラムのみのプロジェクションを作る
アグリゲートプロジェクション
集計関数を使う場合にデータロード時に集計を終わらせてしまう
プレジョインプロジェクション
ジョインをデータロード時に終わらせておく
moveout
データロード直後は断片化されたファイル。バックエンドで徐々に整理される