Tạo các nhóm điểm từ các cặp lat / long bằng R?


11

Tôi có một cơ sở dữ liệu chứa các cặp Lat / Long để xác định vị trí của các điểm ưa thích. Tôi muốn nhóm các điểm quan tâm thành các nhóm 10. Nhóm phải theo địa phương và chứa chính xác 10 điểm. Mỗi nhóm nên có diện tích tối thiểu.

Tôi đã xem xét các triển khai khác nhau trong R nhưng không ai trong số chúng (mà tôi có thể thấy) cho phép bạn chỉ định kích thước cụm xác định.

Trước đây tôi đã hỏi Nhóm điểm bản đồ thành các kích thước cụm cố định? nhưng tôi không nghĩ rằng tôi đã đủ chính xác trong câu hỏi của mình để có được câu trả lời hay.


Địa lý địa phương - Tôi nghĩ ý tôi là các nhóm không nên chồng chéo đáng kể. Trong ứng dụng của tôi (phân bổ người vào các nhóm cho mục đích giám sát) sẽ thật lý tưởng nếu mỗi nhóm càng nhỏ càng tốt trong khu vực vật lý.
Khu vực tối thiểu - một lần nữa, cố gắng giữ khu vực nhóm ở mức tối thiểu. Tôi cho rằng điều này có thể được định lượng là giữ cho khu vực của mỗi nhóm dưới một ngưỡng xác định (để tránh hàng chục nhóm nhỏ và một nhóm lớn).


2
Nó sẽ giúp chính xác hơn một chút về những gì bạn đang tìm kiếm. Làm thế nào bạn sẽ định lượng "địa phương địa phương" và "diện tích tối thiểu"?
whuber

Trong một số trường hợp, "khu vực tối thiểu" và "chính xác 10 điểm" sẽ không loại trừ lẫn nhau? Làm thế nào bạn có thể mong đợi cả hai sẽ được sử dụng, ví dụ, bạn có một 1 dặm "diện tích tối thiểu", và 1 tính năng mà không có các tính năng khác trong vòng 10 dặm (một outlier, có thể)?
RyanKDalton

Tôi hy vọng sẽ có một số ngoại lệ, nhưng chúng có thể được xử lý bằng tay. Tôi có một tập dữ liệu có kích thước cố định và không ngại thủ công một vài nhóm, nhưng tôi thực sự muốn một giải pháp tự động cho phần còn lại! :)
Graeme Hilton


Mô tả vẫn còn quá "lượn sóng" để có thể giải quyết theo cách tự động. Bạn có thể làm cho dữ liệu công khai?
BradHards

Câu trả lời:


1

Tôi nghĩ rằng bạn có thể đang tìm kiếm một công cụ hàng xóm gần nhất k. Loại công cụ này có thể được sử dụng để xác định 10 hàng xóm gần nhất của tất cả các điểm trong bộ dữ liệu của bạn. Dường như có một vài lựa chọn khác nhau cho điều này (với một số sử dụng các thuật toán khác nhau hoặc có các chức năng hơi khác nhau), và tôi không chắc đó sẽ là lựa chọn tốt nhất. Nhưng đây là một vài liên kết:

http://stat.ethz.ch/R-manual/R-patched/l Library / class / html /knn.html http://en.wikibooks.org/wiki/Data_Mining_Alacticms_In_R/Classification/kNN

Bạn có thể cần kết hợp các kết quả với một thuật toán phân cụm hoặc công cụ tập hợp cụm để xác định các cụm điểm có tập hợp lân cận tương tự để phân loại các điểm có ít điểm trùng lặp. Bạn có thể cần thực hiện một chút thao tác thủ công với đầu ra, nhưng nó sẽ cho phép bạn tự động hóa một phần lớn công việc

Một số liên kết: http://jmlr.csail.mit.edu/papers/volume3/strehl02a/strehl02a.pdf http://cran.r-project.org/web/packages/clue/vignettes/clue.pdf

Bạn cũng có thể tìm thấy một công cụ phân cụm k-mean sẽ thực hiện tất cả điều này trong một bước và thực thi 10 điểm trong quy tắc cụm (chỉ cần chia tổng số điểm cho 10 và chọn số đó làm số cụm mong muốn cho công cụ).


Ngoài ra, tôi đã tìm thấy hướng dẫn YaRi hữu ích cho R: ahandel.myweb.uga.edu/resource.htmlm
Jezibelle
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.