GPSデータから場所クラスタを生成するためのクラスタリング
GPSデータにDBSCANを使ったけど、1km以上の大きいクラスタが出来てしまって
思うようなクラスタが作れないよ、という話。
コメントでは、1つのクラスタに含まれるポイント数に上限を持たせたいなら、complete-linkage hierarchical clustering を使えとのこと。ただし、計算量はオーダ(n^3)で遅い。
DBSCANは任意のクラスタを形成するので上限は指定できない。
指定できるのはポイント間が到達可能かどうか判定する最小距離のepsと、1クラスタの最小ポイント数のMinPtsのみ。
まず、重要な場所とは何かを定義しなければ、使えるアルゴリズムはわからないよ、とコメントされている。
他の人がk-meansを提案している。
投稿者はクラスタ数は事前にはわからないと言っているが、コメントで以下の方法で事前に最適なクラスタ数を推定することはできるとしている。
Cluster analysis in R: determine the optimal number of clusters - Stack Overflow