Tìm cụm của một tập hợp các điểm xung quanh một tập hợp các điểm khác từ lớp khác nhau?

10

Tôi muốn xem liệu có một cụm các loại tòa nhà (x) nào đó xung quanh một loại tòa nhà khác (y) không.

Hai tập tin điểm nằm trong các lớp khác nhau.

Tôi không thể tìm ra công cụ nào tôi sẽ sử dụng để làm điều này.

arcgis-desktop geoprocessing clustering

— Nikki
nguồn

9

Không có công cụ vượt trội nào trong ArcGIS (hoặc bất kỳ công cụ GIS nào khác, AFAIK) sẽ thực hiện công việc một cách chính xác.

Trong một vấn đề như thế này, bạn cần định lượng ý của bạn bằng cách "phân cụm" và sau đó bạn cần đưa ra một mô hình xác suất để đánh giá xem mức độ phân cụm có thể được tạo ra bởi các cơ hội tình cờ.

Như một ví dụ về cách tiến hành, bạn có thể chọn đo cụm theo khoảng cách điển hình giữa các tòa nhà loại x và tòa nhà gần nhất của loại y . Đây là một phép tính dễ dàng: chỉ cần biểu diễn cả hai tập hợp các tòa nhà bằng các lớp điểm riêng biệt và thực hiện nối không gian của chữ Y với chữ X. Bảng thuộc tính, vẫn có một bản ghi cho mỗi loại x tòa nhà, giờ đây sẽ bao gồm khoảng cách đến y gần nhất . Bạn có thể sử dụng khoảng cách trung bình làm thước đo của bạn.

Kiểm tra xem điều này có thể là kết quả của cơ hội là khó khăn hơn. Một cách giải thích hợp lý cho cài đặt này là sự hiện diện trước đó của các tòa nhà loại y đã khuyến khích sự phát triển của các tòa nhà loại x tương đối gần với y . Mặt khác, chúng tôi có thể đưa ra giả thuyết rằng các tòa nhà loại x có thể đã được xây dựng ở bất cứ nơi nào mà các tòa nhà khác cũng xuất hiện. Điều này dẫn đến các thử nghiệm hoán vị đơn giản sau đây . Tạo một lớp điểm của tất cả các vị trí có thể có các tòa nhà loại x có thể đã xuất hiện. Lớp này có thể là vị trí của tất cả các tòa nhà trong khu vực được dựng lên trong cùng thời gian với xcác tòa nhà là (tất nhiên bao gồm cả các tòa nhà x , tất nhiên). Không gian tham gia lớp y để có được khoảng cách đến tòa nhà loại y gần nhất . Phần còn lại của phép tính hoạt động ngoài bảng thuộc tính: các phép tính địa lý được thực hiện. Những gì bạn sẽ làm là liên tục sử dụng một trình tạo số ngẫu nhiên để lấy một mẫu ngẫu nhiên đơn giản của tất cả các tòa nhà này, mỗi mẫu có chính xác nhiều yếu tố như bạn có các tòa nhà loại x . Tính khoảng cách trung bình cho mẫu này. Lặp lại cho đến khi bạn có nhiều số liệu thống kê khoảng cách trung bình. Nếu gần như tất cả các khoảng cách trung bình thu được ngẫu nhiên này lớn hơn khoảng cách trung bình bạn đo được cho xloại tòa nhà, bạn có thể kết luận rằng x 'không được nhóm một cách tình cờ: hiệu ứng là có thật.

(Các tính toán như vậy được lập trình tốt nhất trên nền tảng phù hợp với các mục đích như vậy, chẳng hạn như 'R', nhưng hầu như bất kỳ phần mềm máy tính nào cũng có thể được nhấn vào dịch vụ, ngay cả Excel. các phần tử từ mảng ngẫu nhiên.)

Phương pháp thử nghiệm hoán vị này vượt trội so với các giải pháp được lập trình sẵn bởi vì nó giải thích rõ ràng cho các mô hình phát triển tòa nhà trong lĩnh vực này. Nếu bạn không làm điều này, bạn thường sẽ tìm thấy bằng chứng "đáng kể" của việc phân cụm, nhưng bạn không thể kết luận bất cứ điều gì hữu ích từ nó, bởi vì việc phân cụm có thể đã được gây ra bởi các yếu tố khác như mô hình đường, vị trí của các trang web phù hợp để phát triển, và nhiều thứ khác.

— whuber
nguồn

1

Tôi nhận ra câu trả lời này là một chút trừu tượng. Khi tôi có nhiều thời gian hơn, tôi sẽ cố gắng tạo ra một minh họa thực tế.

— whuber

Đối với những người sử dụng R, tôi khuyên bạn nên cung cấp gói spatstat ( cran.r-project.org/web/packages/spatstat/index.html ) để phân tích cụm.

— om_henners

2

Tất nhiên, phương pháp phân tích dữ liệu của bạn nên phụ thuộc vào vấn đề thực sự thúc đẩy phân tích.

Nhưng đây là một số ý tưởng:

Từ ESRI:

Cách phân tích cụm không gian đa khoảng cách: Hàm k của Ripley (Thống kê không gian) hoạt động , trong đó i và j trong phương trình sẽ biểu thị các tòa nhà của bạn x và y. Hàm K của Ripley sẽ cung cấp suy luận xác suất.

Từ khoa học máy tính:

Có các thuật toán phức tạp để khám phá mẫu đồng vị trí mà bạn có thể google.

— b_dev
nguồn

"Ý tưởng cốt truyện đơn giản" rất thú vị nhưng bạn cần một cái gì đó để so sánh với nó: thật khó để trích xuất thông tin hữu ích từ nó. Hàm K của Ripley cũng là một công cụ hữu ích, nhưng thật không may, trong nhiều trường hợp, nó chỉ phản ánh hình học của bộ dữ liệu. Với những ngôi nhà ở khu vực ngoại ô hoặc nông thôn, có xu hướng nằm dọc theo các đặc điểm tuyến tính (đường), chức năng K sẽ hiển thị rõ ràng cụm "đáng kể" chỉ vì lý do này. Vì vậy, nó cho thấy không có gì hữu ích về những ngôi nhà ngoài việc chúng được xây dựng gần những con đường!

— whuber

@whuber 1 cảm ơn vì đã giải thích vấn đề về chức năng K của Ripley. Thứ 2, khi chúng ta thấy một biểu đồ giá cổ phiếu theo thời gian, chúng ta có thể tìm kiếm xu hướng chung lên hoặc xuống hoặc ngẫu nhiên, chúng ta cũng có thể chọn ra những lần có sự giảm hoặc tăng lớn và hỏi tại sao. Một âm mưu về cách tập trung của các tòa nhà thay đổi khi thay đổi khoảng cách có thể được sử dụng theo cách tương tự. Nó có thể được sử dụng để tìm kiếm các gai trong nồng độ, là bằng chứng chống lại sự phân phối ngẫu nhiên, nó cũng có thể được sử dụng để tập trung điều tra thêm về các gai tò mò.

— b_dev

Bạn đúng. Quan điểm của tôi là cốt truyện trong và bản thân nó không cho chúng ta biết gì về việc phân cụm. Có lẽ một sự tương tự tốt (chứ không phải giá cổ phiếu) là bản đồ choropleth về số ca mắc ung thư thận theo tiểu bang 2000-2010 ở Mỹ. Điều đó cũng vậy, không cho chúng ta biết gì về phân cụm (địa lý) bởi vì nó không tính đến sự khác biệt về dân số giữa các quốc gia. Tương tự, một âm mưu chéo K cần một chuẩn hóa hoặc tham chiếu phù hợp để có thể hiểu được. Các xu hướng chung, gai, v.v., có thể chỉ phản ánh các mô hình địa lý của tất cả các vị trí tòa nhà.

— whuber

@whuber Bạn nói đúng. Sau khi đọc bình luận trên của bạn, tôi đã quyết định Ý tưởng âm mưu đơn giản của tôi sẽ không cung cấp nhiều thông tin, ít nhất là như đã được mô tả, vì vậy tôi đã xóa nó để không gây nhầm lẫn cho mọi người. Bây giờ tôi tin rằng Thống kê chung là phương pháp đơn giản nhất để tiếp cận vấn đề.

— b_dev

2

Bản thân tôi chưa bao giờ thực hiện phân tích cụm trong GIS, nhưng sẽ dễ dàng hơn nếu bạn tạo các điểm / đa giác để thể hiện một cụm X và / hoặc Y đã cho. Ví dụ: nếu bạn đã tạo các điểm để biểu thị tòa nhà Y, thì bạn có thể sử dụng công cụ Khoảng cách điểm để có được tất cả các điểm của tòa nhà X trong một khoảng cách nhất định từ các vị trí ban đầu của bạn.

Mặt khác, tạo bộ đệm xung quanh các tòa nhà loại Y và chọn tất cả các tòa nhà loại X sẽ đạt được kết quả tương tự nếu bạn không có ArcInfo.

— Anh chàng
nguồn

0

Bạn có thể kết hợp cả hai lớp bằng cách thêm một cột nhị phân (0,1) để xác định xem tòa nhà đến từ X hay Y.

Từ đó, sử dụng GeoDa, bạn có thể xác định tương quan tự động không gian cục bộ (phân cụm) và xác định xem nó ở mức cao thấp (một lớp được bao quanh lớp kia) cao thấp (nghịch đảo) hay cao hoặc thấp thấp (tự- phân cụm). Hướng dẫn sử dụng tại đây (.pdf)

— raphael
nguồn