pandazx's blog

データ分析など雑多な技術ブログ

GPSデータから場所クラスタを生成するためのクラスタリング

r - Clustering GPS data using DBSCAN but clusters are not meaningful (in terms of size) - Stack Overflow

GPSデータにDBSCANを使ったけど、1km以上の大きいクラスタが出来てしまって
思うようなクラスタが作れないよ、という話。

コメントでは、1つのクラスタに含まれるポイント数に上限を持たせたいなら、complete-linkage hierarchical clustering を使えとのこと。ただし、計算量はオーダ(n^3)で遅い。

DBSCANは任意のクラスタを形成するので上限は指定できない。
指定できるのはポイント間が到達可能かどうか判定する最小距離のepsと、1クラスタの最小ポイント数のMinPtsのみ。

まず、重要な場所とは何かを定義しなければ、使えるアルゴリズムはわからないよ、とコメントされている。

他の人がk-meansを提案している。
投稿者クラスタ数は事前にはわからないと言っているが、コメントで以下の方法で事前に最適なクラスタ数を推定することはできるとしている。
Cluster analysis in R: determine the optimal number of clusters - Stack Overflow