Làm thế nào để phân cụm điểm dựa trên mật độ hạt nhân?


10

Tôi có một bộ dữ liệu lớn với 36k điểm đại diện cho việc sử dụng đất thương mại, mỗi điểm có một trường chứa cảnh quay vuông. Tôi đã chạy một phân tích mật độ hạt nhân trên bộ dữ liệu này, tạo ra một raster hiển thị mật độ của các cảnh vuông thương mại trên toàn bộ khu vực tàu điện ngầm. Tôi cần chia raster này thành các vùng tương ứng với cực đại cục bộ, mà tôi gọi là "trung tâm". Tôi đã xác định được vị trí của các trung tâm và bây giờ tôi cần thực hiện một trong hai điều sau:

  • sử dụng một công cụ phân cụm điểm, chẳng hạn như "phân vùng xung quanh các vật trung gian", để nhóm các điểm thành các cụm xung quanh các trung tâm mà tôi đã xác định. Vấn đề với phương pháp này là nó có cường độ tính toán cao, và thậm chí còn hơn thế nếu tôi cố gắng sử dụng ma trận không giống nhau để cân các điểm theo kích thước.

  • bằng cách nào đó phân chia raster mật độ hạt nhân (gần giống với raster địa hình) thành các "ngọn đồi" riêng lẻ xung quanh mỗi trung tâm. Nhưng tôi không thể nghĩ ra bất kỳ công cụ nào để làm việc này.

Vấn đề này đã làm tôi khó chịu trong một thời gian và tôi hy vọng rằng tôi có thể thực hiện phương pháp phân cụm trong R, nhưng nó tốn thời gian và tôi sắp hết thời gian. Có ai biết một phương pháp đơn giản để phân chia raster mật độ thành các vùng lân cận cường độ hoặc để nhanh chóng phân cụm các bộ dữ liệu lớn không?


1
Câu hỏi này có liên quan chặt chẽ: stats.stackexchange.com/questions/13995/ cường
whuber

1
Và cũng được đăng bởi tôi, khi nó bật ra.
Patrick

Tôi nghĩ đó sẽ là 1 pt đối với Patrick .....
BWill

Câu trả lời:


6

Thảo luận sau một bài đăng liên quan chặt chẽ đã tiết lộ một giải pháp đơn giản, hiệu quả : tìm "ngọn đồi", lật ngược lưới điện (bằng cách phủ định các giá trị của nó) và tìm lưu vực sông. Những ngọn đồi là chìm và ranh giới lưu vực phân chia lưới vào những bồn.


Giải pháp này đơn giản, nhanh chóng và chính xác những gì tôi đang tìm kiếm. Cảm ơn.
Patrick

3

Câu trả lời đơn giản nhất là sử dụng ngưỡng để che giấu các khu vực nằm dưới ngưỡng. Điều này sẽ cung cấp cho bạn các khu vực riêng biệt xung quanh trung tâm của bạn. Sau đó, nó sẽ có thể chuyển đổi các khu vực thành hình dạng.

Bạn cũng có thể tìm thấy các công cụ thống kê không gian: phân tích phân cụm trên dữ liệu raster một cuộc thảo luận hữu ích về một vấn đề tương tự.


Vâng, đó là một cuộc thảo luận rất có liên quan! Tôi đang đọc qua luận án thạc sĩ của bạn và sẽ thử một số phương pháp.
Patrick

2
Sử dụng một ngưỡng có thể sẽ không hoạt động ở đây, vì tôi đang cố gắng phân biệt các trung tâm với các trung tâm khác ngay lập tức liền kề. Trong lõi thành phố, ranh giới giữa hai người sẽ có mật độ rất cao, nhưng ở rìa ngoại ô, nó sẽ có mật độ rất thấp. Nhưng tôi hy vọng rằng việc sử dụng công cụ phái sinh thứ hai sẽ có hiệu quả.
Patrick

3

Tôi nghĩ bạn nên quay lại vấn đề ban đầu của mình: Tìm các cụm cảnh vuông thương mại trong toàn bộ khu vực tàu điện ngầm.

Tôi giả sử điểm của bạn là trung tâm của bưu kiện với giá trị của quảng cáo cảnh vuông? Tôi giả sử bạn cũng có thể có một lớp bưu kiện đa giác với tổng diện tích hình vuông cho mỗi bưu kiện? Điều đó cung cấp cho bạn một bộ trường hợp (trung tâm) và dân số (đa giác bưu kiện) cho cảnh quay thương mại và cảnh vuông tương ứng.

Đi lấy SatScan http://www.satscan.org/ và chạy một không gian chỉ có mô hình phân phối Poisson và bạn sẽ có các cụm cảnh vuông thương mại của mình theo thứ tự khá nhanh. (Bạn cũng có thể sử dụng diện tích đất vuông như dân số của mình chứ không phải là diện tích vuông của không gian xây dựng. Đó thậm chí có thể là dân số tốt hơn.)


Bạn đúng rằng các điểm là centroid, nhưng không may là tập dữ liệu được tổng hợp bởi những người khác từ lớp bưu kiện của mỗi hạt và chỉ được phân phối dưới dạng điểm. Nhưng SatScan trông giống như một phần mềm rất hữu ích, vì vậy tôi sẽ ghi nhớ các ứng dụng khác.
Patrick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.