pandazx's blog

データ分析など雑多な技術ブログ

Verticaのデータ削除

delete from で削除できるが、Verticaでは結果の確定をするために commit; を実行する必要があるので注意。 commit; しないでログアウトすると、削除されない。バッチ的に削除する場合は以下のようにする。 vsql -U dbadmin -w password -c "delete from tab…

ffmpeg で動画分割

動画ファイルの再生時間の取得 ffmpeg -i [動画ファイル] 2>&1 | grep Duration | awk '{print $2}' | tr -d ,参考:linux - How to extract duration time from ffmpeg output? - Stack Overflow 動画分割 ffmpeg -i [元動画] -ss [開始位置(秒数)] -t [切…

機械学習の正則化項とは

機械学習の理論でよく見かけるので意味を調べてみました。SVMにおける損失と正則化 http://d.hatena.ne.jp/tkng/touch/20090119/1232340992このブログによると、たいていの機械学習のアルゴリズムは最小化するべき目的関数が、「損失関数+正則化項」という形…

CentOS6で日本語キーボード設定、日本語フォントインストール、かな変換

日本語キーボードレイアウトに切り替える方法 System->Preferences->Keyboard を開く Layouts->Add を開く By Language でJapanese を選択してAdd LyaoutでJapanese を選択してClose 日本語フォントをインストール yum -y groupinstall "Japanese Support" .…

Go Conference 2014 Springに行ってきた

まずは主催者の方のまとめブログがあるので紹介。スライド資料のリンクもあります。 http://ymotongpoo.hatenablog.com/entry/2014/06/01/124350さて、以下はカンファレンスのメモですが、メモ書きレベルなので、読んでも意味わからないところがあるかもしれ…

macでgo install & Vim初期設定

環境:Mac OS X 10.9色々とググって出てくるページを参考にさせていただきました。Mercurialが必要なので以下よりパッケージをダウンロードしてインストール ないと途中でhg のエラーが出る。 http://mercurial.selenic.com/downloads ちなみに開発元が未確…

verticaのwhere句

start_datetime という timestamp 型のカラムがあったとする。その場合、以下のようにシングルクォーテーションで括る必要がある。 select * from table where start_datetime > '2014-03-01 12:00:00'ダブルクォーテーションで括るとColumnと勘違いされる。

javascriptで外部ファイルを動的ロード

変数を使って、動的に読み込むファイルを変える方法。 var elem = document.createElement("script"); elem.type = "text/javascript"; elem.src = "script.js"; document.body.appendChild(elem);この方法はbodyに追加する形を取るので、 bodyタグよりも下…

OpenLayersでサークルを表示

osm

丸というかサークルをOpenLayersに表示する方法 以下のコードそのままは動かしてないので、動かないかも。あくまでイメージで。 var lonLat = new OpenLayers.LonLat(lon, lat).transform( new OpenLayers.Projection("EPSG:4326"), new OpenLayers.Projecti…

OpenLayersのFeatureでzIndexを有効化

osm

OpenLayersのFeatureでz-indexを設定する方法。 以下のコードそのままは動かしてないので、動かないかも。あくまでイメージで。 var layer = new OpenLayers.Layer.Vector("features", { rendererOptions: { zIndexing: true } }); var points = new Array( …

verticaのエクスポート

selectの結果をcsvファイルにエクスポートする方法 vsql -U user_name -w password -c "select * from table;" -A -F ',' > result.csv

Verticaのvsqlの結果を保存反映

vsqlでdeleteして\qで終了して、再度、vsqlでselectするとデータが削除されない。 終了する前に COMMIT; でコミットすれば結果が反映される。 create tableやdrop tableはコミットする必要はない。

Verticaのテーブル一覧、カラム一覧取得

テーブル一覧取得 select table_name from tables; # filterあり select table_name from tables where table_name like 'hoge%'; カラム一覧取得 select column_name from columns;

GitHubアクセス時にPermission denied

以下、しょうもないことを書いていたが、以下を参考にすればよい。 GithubにSSH公開鍵を設定 - Perl日記一応、以前に書いた内容を残しておく。GitHubからcloneしたいのにPermission deniedする場合の対処方法。GitHubにSSH keyを登録するあたりは以下を参照…

Verticaのテーブル作成とCSVインポート

テーブル作成 command.sql にcreate文があるとする。 vsql -U dbadmin -w password -f command.sql インポート vsql -U dbadmin -w password -c "copy table_name from 'csv_full_path' delimiter ',' DIRECT"nullという文字列をNULL値としてインポートして…

PXEブート+Kickstartで自動インストール

さんざんブログで書かれているネタだが、個人的なメモとして書いておく。以下のサイトがわかりやすかった。詳細な内容は以下を参照すること。 PXEブート&KickstartによるOSインストール自動化 - IT 東京 楽しいと思うこと linux:インストール自動化:kickstar…

Linuxでログアウトしても処理続行

ssh でログインしていてバッチを実行してログアウトして家に帰りたい時があります。 その場合に使えるのは nohup disown nohupはコマンド実行時に頭につけて実行するもの。 nohup sh batch.sh > nohup.log &disownはコマンド実行後にdisownして、実行中のジ…

お勉強(匿名化、プライバシー、GPS圧縮、誤字脱字対応の照合技術)

匿名化 Scis2014 匿名化(最終版) from Rie Yamaguchi Scis2014 匿名化(最終版) 匿名化にも銀の弾丸はないという話。 直接的な氏名、会員番号を削除するのは当然として、性別、年齢などの情報は組み合わせると個人特定できてしまう場合がある。 匿名化し…

お勉強(MVC, DOM, ツリー構造)

MVC DDD - MVCの流れを簡単にまとめてみる - Qiita [キータ] Twitterで流れてきたMVC変遷の流れに関する記事。 まだまだ疎結合に設計するための考え方、実装方法は進化しているんだな。 DOM DOMとは何か HTMLを操作する時に作るオブジェクトが「DOM」という…

macのEclipseでJava1.7を設定

Eclipse: KEPLER(4.3.1)Java1.7をインストール後、Eclipseを起動したら、JRE1.6のインストールを促された。 仕方ないのでインストール。次に、Eclipse->環境設定をPreferencesを表示。 Java->Compilerで1.7を使うよう設定。 Java->Installed JREs->Addで、JR…

ML advent calendar 2013でお勉強

Machine Learning Advent Calendar 2013 - Qiita [キータ]初学者のため、読んでも理解できなかったものが多いが、参考になったのは、EMアルゴリズムの説明。MLAC2013 数式を使わずイメージで理解するEMアルゴリズム - Wolfeyes Bioinformatics betaadvent201…

GPSデータから場所クラスタを生成するためのクラスタリング

r - Clustering GPS data using DBSCAN but clusters are not meaningful (in terms of size) - Stack OverflowGPSデータにDBSCANを使ったけど、1km以上の大きいクラスタが出来てしまって 思うようなクラスタが作れないよ、という話。コメントでは、1つのク…

リーダブルコード感想

リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック (Theory in practice)作者: Dustin Boswell,Trevor Foucher,須藤功平,角征典出版社/メーカー: オライリージャパン発売日: 2012/06/23メディア: 単行本(ソフトカバー)購入: 68人…

MacのEclipseコンソールが文字化けする

MacのコンソールにUTF-8を出力すると文字化けする。これを解消するにはeclipse.ini に以下を追加 -Dfile.encoding=utf-8Windowsの場合はEclipseのインストールフォルダにeclipse.iniがあるが、Macの場合はない。どうやって開くかというと、Eclipse起動ファイ…

分散メッセージ処理 Apache kafka

複数データソースからデータをpullで受け取り、後続にメッセージとして流すリアルタイム分散メッセージ処理用のソフトウェア Apache kafka。Linkedin開発。代表的なストリーミング処理ソフトウェアとしめStormがある。Twitter開発。両者の違いは以下が参考に…

CDH4でのMapReduceプリントデバッグ

横着者なのでプリントデバッグでMapReduceを開発することがよくあります。その手順を説明します。yarn-site.xmlの設定 <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <description>Where to aggregate logs to.</description> <name>yarn.nodemanager.remote-app-log-dir</name> <value>/var/log/hadoop-yarn/apps</value></property>

hadoop2.0.3-alpha で気になる機能

Apache Hadoop 2.0.3-alpha Released | Apache Hadoop for the Enterprise | Clouderahadoop2.0.3-alphaではジョブ単位に使えるCPUコア数を制御できるらしい。運用で使えそう。2.0.3に限らず、新しく見つけた機能にdisk location APIがあります。What's New …

CDH4のデフォルト設定値

Hadoopのチューニングをする時に設定項目のdefaultを確認したい場合がある。CDH4の場合は以下のページのメニューの下の方に「core-default.xml」などのリンクがある。 Hadoop MapReduce Next Generation 2.0.0-cdh4.1.2 - Setting up a Single Node Cluster.

EricssonのHBaseチューニング1

以下の記事の意訳。けど、未検証。 HBase: Performance Tuners | Ericsson Labs5000 row/secの処理性能だったところをチューニングにより、750,000 row/secを達成した。 本ブログでは集計プログラムについてのみ説明しているが、次回ブログではランダムアク…

HBaseのデータ書き込みの仕組み

以下の記事の意訳と補足 Apache HBase Write Path | Apache Hadoop for the Enterprise | Cloudera本記事ではHBaseがどうやってHadoop上で低レイテンシな読み書きを実現しているか、また、データの更新が出来ないHadoopでどうやって更新を実現しているかを説…