pandazx's blog

データ分析など雑多な技術ブログ

2015-01-01から1年間の記事一覧

Verticaの既存テーブルのCreate文作成

既存テーブルと同じ構造のテーブルを作成したい場合に使える小技。 (テーブル定義のコピーのようなイメージ) 以下のクエリを実行すれば、対象テーブルのCREATE文が表示される。 select export_tables('','table_name'); 参考にしたサイト:Verticaのオブジ…

プログラムをシェルスクリプトで並列処理

1サーバに複数コアがあって、それらを使って並列処理する話。 Hadoopのようなサーバをまたいだ並列処理ではありません。 ビッグデータを処理する際に並列処理したいとします。 前提 ユーザごとに集計を行うとして、指定ユーザだけのデータを読込める ユーザ…

第二回 Hivemall Meetup 参加メモ

以下の勉強会に参加 eventdots.jp 日時:2015/10/20 19:00-21:00 場所:渋谷 dots community space 参加者:130人ぐらい Hivemall v0.4 新機能紹介 発表者:Treasure Data 油井 @myui スライドは後でUPされるらしい(期待) 以下に記載するSQLのサンプルはテ…

Rのggplotでヒートマップ作成時にログスケールとlimitsかけてエラー

R

例えば、以下のようにヒートマップを作成してエラーになったとする。 library(ggplot2) library(reshape2) library(ggthemes) # data.csv には val1, val2, valueというカラムがある data<-read.table("data.csv", header=T, sep=",") # ヒートマップ作成 p …

Hadoopの新ストレージKuduのβ版リリース

HadoopにはHDFS(ファイルシステム)やHBase(列指向DB)といった ストレージシステムがありますが、両者を補完する位置づけであるという 新しいストレージシステムKudu(クドゥ)がリリースされました(β版) Kudu (クドゥ) : HDFSとHBaseを補完する、Hadoo…

JSONファイルを1行で読込む

data = JSON.parse(File.read(filepath)) # または File.open(filepath){|io| JSON.load(io) }

rubyで別ディレクトリのscriptをrequire

作ったスクリプトが増えてくると、昔、作ったスクリプトを使いまわしたいことがあると思います。 ただ、そのスクリプトAが同ディレクトリの別のスクリプトBをrequireしていると、他のディレクトリからスクリプトAをrequireすると パスが違うのでエラーになり…

ダックタイピングとstructural subtyping

プログラミング言語の解説で、ダックタイピングという用語がわからなかったので調べた。これは動的言語において、アヒルのように歩き、同じ鳴き声をするなら、そのオブジェクトはアヒルと同じように扱えるってことらしい(ポリモーフィズム的な感じ)Rubyのサ…

AWS SDK for Ruby(V2)ですべてのS3オブジェクト一覧取得

以下のようにすると、1000個しか取得できない。 s3 = Aws::S3::Client.new response = s3.list_objects(bucket: bucket_name) response.contents.each do |object| puts object.key end これはAWS SDKの制限で一度に1000個しか取れないようになっているから…

Amazon LinuxにPython3とNumpyインストール

Amazon Linux でEC2を作ったら、Python2.7だった。 Python3系とNumpyを使いたかったのでインストールした話。 2015.6.5 追記 もっと簡単な方法があった。Python3はソースからインストール。 pip install numpy で行けた。以下はPython2だが参考になる。 Amaz…

第2回GCPUG in Tokyoメモ

GCP

第二回GCPUG in Tokyo! : ATND Google Cloud Platformユーザ会の勉強会に行って来たが、何故か発表者4人中3人がGoogleの人だったので、ユーザ会じゃなくて、Googleの宣伝活動の場みたいになってた。これから各地に支部が立ち上がる予定らしい。盛り上がる前…

sendmailコマンドで複数人にメール送信

カンマ区切りでスペースを入れずに宛先に以下のように書けばよい。 $sendmail to@test.com,to2@test.com To: to@test.com,to2@test.com From: from@test.com Subject: test test mail desu. .To: のところだけ複数個書いてもダメで、最初のsendmail でも同様…

第1回Vertica勉強会メモ

勉強会ページ第1回 Vertica 勉強会 : ATND非公式ハッシュタグは#vertica_meetup◼︎20分でわかるVertica概要紹介のみ◼︎DeNAアナリスト業務データ発生からVerticaに入るまでの時間は?1時間以下程度。遅くて2-3時間。おそらく、前者がkafka経由、後者がHadoop…