So sánh hai mô hình điểm không gian?


41

Nếu tôi có hai phân phối mẫu điểm trong cùng một khu vực địa lý, làm thế nào tôi có thể so sánh trực quan và định lượng hai phân phối đó?

Cũng giả sử rằng tôi có nhiều điểm trong một khu vực nhỏ hơn, vì vậy chỉ cần hiển thị bản đồ pin là không chính xác.

Câu trả lời:


32

Như mọi khi, nó phụ thuộc vào mục tiêu của bạn và bản chất của dữ liệu. Đối với dữ liệu được ánh xạ hoàn toàn , một công cụ mạnh mẽ là hàm L của Ripley, họ hàng gần của hàm K của Ripley . Rất nhiều phần mềm có thể tính toán điều này. ArcGIS có thể làm điều đó ngay bây giờ; Tôi chưa kiểm tra. CrimeStat làm điều đó. Vì vậy, làm GeoDa và R . Một ví dụ về việc sử dụng nó, với các bản đồ liên quan, xuất hiện trong

Sinton, DS và W. Huber. Lập bản đồ polka và di sản dân tộc của nó ở Hoa Kỳ. Tạp chí Địa lý tập. 106: 41-47. 2007

Dưới đây là ảnh chụp màn hình CrimeStat của phiên bản "L function" của Ripley's K:

Ảnh chụp màn hình chức năng K của Ripley

Đường cong màu xanh ghi lại sự phân bố các điểm rất không ngẫu nhiên, bởi vì nó không nằm giữa các dải màu đỏ và màu xanh lá cây bao quanh số 0, là nơi mà dấu vết màu xanh cho hàm L của phân phối ngẫu nhiên sẽ nằm.

Đối với dữ liệu được lấy mẫu, phần lớn phụ thuộc vào bản chất của mẫu. Một nguồn tài nguyên tốt cho việc này, có thể truy cập được đối với những người có nền tảng hạn chế (nhưng không hoàn toàn vắng mặt) về toán học và số liệu thống kê, là sách giáo khoa của Steven Thompson về Lấy mẫu .

Nhìn chung, trường hợp hầu hết các so sánh thống kê có thể được minh họa bằng đồ họa và tất cả các so sánh đồ họa tương ứng hoặc đề xuất một đối tác thống kê. Do đó, bất kỳ ý tưởng nào bạn nhận được từ tài liệu thống kê đều có khả năng đề xuất các cách hữu ích để lập bản đồ hoặc so sánh bằng đồ họa hai bộ dữ liệu.


Cảm ơn bạn cho bài báo Dixon, nó dường như là một tài nguyên tuyệt vời. Tôi chưa bao giờ bắt gặp sự khác biệt giữa tương tác không gian và ghi nhãn ngẫu nhiên cho các mẫu đa biến. Tôi sẽ cần phải đọc lên.
Andy W

+1 Tài nguyên tốt. Vì vậy, câu chuyện cũ về câu cá rằng "90% cá nằm trong 10% hồ" có thực sự phụ thuộc vào phương pháp lấy mẫu?
Kirk Kuykendall

@Kirk Đối với nhiều người trong chúng ta, 0% số cá nằm trong 10% hồ mà chúng ta thực sự đạt được!
whuber

14

Lưu ý: những điều sau đây đã được chỉnh sửa sau bình luận của người đánh bóng

Bạn có thể muốn áp dụng một cách tiếp cận Monte Carlo. Đây là một ví dụ đơn giản. Giả sử bạn muốn xác định xem phân phối của các sự kiện tội phạm A có giống nhau về mặt thống kê với B hay không, bạn có thể so sánh thống kê giữa các sự kiện A và B với phân phối theo kinh nghiệm của các biện pháp đó cho các 'dấu hiệu' được gán lại ngẫu nhiên.

Chẳng hạn, được phân phối A (trắng) và B (xanh dương),

nhập mô tả hình ảnh ở đây

bạn ngẫu nhiên gán lại nhãn A và B cho TẤT CẢ các điểm trong bộ dữ liệu kết hợp. Đây là một ví dụ về một mô phỏng duy nhất:

nhập mô tả hình ảnh ở đây

Bạn lặp lại điều này nhiều lần (giả sử 999 lần) và với mỗi mô phỏng, bạn tính một thống kê (thống kê trung bình lân cận gần nhất trong ví dụ này) bằng cách sử dụng các điểm được gắn nhãn ngẫu nhiên. Đoạn mã theo sau nằm trong R (yêu cầu sử dụng thư viện spatstat ).

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

Sau đó, bạn có thể so sánh kết quả bằng đồ họa (đường dọc màu đỏ là thống kê ban đầu),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

nhập mô tả hình ảnh ở đây

hoặc bằng số.

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

Lưu ý rằng thống kê hàng xóm trung bình gần nhất có thể không phải là thước đo thống kê tốt nhất cho vấn đề của bạn. Các số liệu thống kê như hàm K có thể rõ ràng hơn (xem câu trả lời của người đánh bóng).

Những điều trên có thể dễ dàng thực hiện bên trong ArcGIS bằng Modelbuilder. Trong một vòng lặp, gán lại ngẫu nhiên các giá trị thuộc tính cho từng điểm sau đó tính toán thống kê không gian. Bạn sẽ có thể kiểm đếm kết quả trong một bảng.


2
Bạn có thể muốn xem xét một bài kiểm tra hoán vị thay vì phương pháp mật độ hạt nhân, Manny. Giả thuyết khống là các nhãn màu xanh và trắng độc lập với các điểm. Để kiểm tra điều này, hãy áp dụng một thống kê phù hợp với vùng lân cận (chẳng hạn như khoảng cách trung bình gần nhất giữa các chấm màu xanh và trắng, đi dọc theo các đường phố). Xác định lại ngẫu nhiên các màu cho tất cả các chấm, giữ nguyên số lượng màu xanh và trắng và tính toán lại số liệu thống kê. Lặp lại nhiều lần để ước tính phân phối null của thống kê. Tham khảo giá trị thực tế của thống kê cho phân phối này để có giá trị p.
whuber

Cảm ơn ai. Tôi chưa bao giờ thấy đây là một vấn đề quan trọng. Tôi cập nhật câu trả lời của tôi để phản ánh cách tiếp cận này. Tuy nhiên, tôi không rõ lý do tại sao cách tiếp cận ban đầu của tôi (tức là sử dụng lưới mật độ hạt nhân để tạo các điểm ngẫu nhiên) dẫn đến một kết quả khác. Trên thực tế, nó (giải pháp ban đầu của tôi) đã không phản ánh trung thực thực tế là cả A và B đều xuất phát từ một quá trình tương tự nhau. Đây có phải là do cách tiếp cận mật độ hạt nhân không tận dụng được chi tiết được cung cấp cho chúng tôi bởi dữ liệu điểm?
MannyG

1
Mật độ hạt nhân có một yếu tố nhỏ tùy ý (liên quan đến sự lựa chọn nửa băng thông). Điều này có thể làm cho một sự khác biệt. Nó cũng phần nào bị loại bỏ khỏi những gì thực sự đang diễn ra: có một quá trình tạo ra các điểm; bạn thấy một nhận thức về quá trình đó; bạn tạo một KDE của ; sau đó bạn rút ra những nhận thức mới từ KDE đó. Thực tế, bạn chỉ tái tạo các cấu hình mới rất giống với cấu hình đơn lẻ mà bạn quan sát được. Trong phương pháp hoán vị, giả thuyết null cho rằng cả hai phân phối đều giống nhau cho phép hoán vị các dấu hiệu: đây là trực tiếp và mạnh mẽ.
whuber

1
Cảm ơn cho đầu vào, tôi sẽ cho một nhận xét đầy đủ hơn khi tôi có nhiều thời gian hơn. Sẽ rất tốt khi lưu ý mã R này (bạn thậm chí có đề cập đến nó là mã R trong câu trả lời không?) Và nó sử dụng các chức năng trong spatstatgói.
Andy W

2
+1, Một trong những điều tuyệt vời khi sử dụng các thử nghiệm hoán vị như thế này là 1) khi bị ràng buộc với tính đặc hiệu của trình mã hóa địa lý (địa chỉ hoặc phạm vi địa chỉ cho dữ liệu tội phạm trong hầu hết các trường hợp) đánh giá các mẫu điểm so với ngẫu nhiên không gian hoàn toàn không thực hiện quá nhiều ý nghĩa. 2) Các thử nghiệm hoán vị như vậy tránh các vấn đề với hiệu ứng cạnh. Tất nhiên đây là những khái quát quá mức, nhưng tôi nghĩ một khung như vậy có thể được khái quát hóa để đánh giá nhiều loại thống kê mẫu điểm khác nhau.
Andy W

4

Bạn có thể muốn kiểm tra CrimeStat.

Theo trang web:

CrimeStat là một chương trình thống kê không gian để phân tích các địa điểm xảy ra sự cố tội phạm, được phát triển bởi Ned Levine & Associates, được tài trợ bởi các khoản tài trợ từ Viện Tư pháp Quốc gia (tài trợ 1997-IJ-CX-0040, 1999-IJ-CX-0044, 2002-IJ-CX-0007 và 2005-IJ-CX-K037). Chương trình này dựa trên Windows và giao diện với hầu hết các chương trình GIS trên máy tính để bàn. Mục đích là để cung cấp các công cụ thống kê bổ sung để hỗ trợ các cơ quan thực thi pháp luật và các nhà nghiên cứu tư pháp hình sự trong các nỗ lực lập bản đồ tội phạm của họ. CrimeStat đang được sử dụng bởi nhiều sở cảnh sát trên thế giới cũng như công lý hình sự và các nhà nghiên cứu khác. Phiên bản mới nhất là 3.3 (CrimeStat III).


2

Một cách tiếp cận đơn giản và nhanh chóng có thể là tạo ra các bản đồ nhiệt và bản đồ khác biệt của hai bản đồ nhiệt đó. Liên quan: Làm thế nào để xây dựng bản đồ nhiệt hiệu quả?


3
Thật không may, việc phân biệt hai bản đồ được nội suy hoặc được làm mịn có xu hướng cho bạn biết nhiều hơn về phương pháp nội suy hoặc làm mịn hơn là về dữ liệu :-(. Nếu bạn phải nội suy, hãy cẩn thận thực hiện tốt (ví dụ: krige sau khi thực hiện EDA và variography) và Chỉ có thể nội suy một trong các bộ dữ liệu. Bạn có thể so sánh dữ liệu thực tế trong một bộ với các giá trị được nội suy của bộ kia, do đó loại bỏ một nửa lỗi so sánh hai bản đồ được nội suy. Lưu ý rằng phép nội suy không hợp lệ đối với nhiều loại dữ liệu và làm mịn là không phù hợp với các loại dữ liệu khác.
whuber

Tôi đồng ý rằng phương pháp này không phù hợp với nhiều loại dữ liệu đầu vào. Tôi nghĩ rằng nó có thể mang lại ấn tượng ban đầu tốt khi phân tích các mẫu mật độ điểm.
underdark

Tôi không có nghi ngờ bạn là chính xác khi nội suy được thực hiện bởi một chuyên gia và giải thích một cách thận trọng.
whuber

2

Giả sử bạn đã xem xét tài liệu về tương quan tự động không gian. ArcGIS có nhiều công cụ điểm và nhấp khác nhau để thực hiện điều này cho bạn thông qua các tập lệnh Hộp công cụ: Công cụ thống kê không gian -> Phân tích mẫu .

Bạn có thể làm việc ngược - Tìm một công cụ và xem xét thuật toán được triển khai để xem liệu nó có hợp với kịch bản của bạn không. Thỉnh thoảng tôi đã sử dụng Moran's Index trong khi điều tra mối quan hệ không gian trong sự xuất hiện của khoáng chất đất.


2

Bạn có thể chạy phân tích tương quan bivariate trong nhiều phần mềm thống kê để xác định mức độ tương quan thống kê giữa hai biến và mức ý nghĩa. Sau đó, bạn có thể sao lưu các kết quả thống kê của mình bằng cách ánh xạ một biến bằng sơ đồ chloropleth và biến còn lại sử dụng các ký hiệu chia độ. Sau khi phủ, bạn có thể xác định khu vực nào hiển thị các mối quan hệ không gian cao / cao, cao / thấp và thấp / thấp. Bài trình bày này có một số ví dụ tốt.

Bạn cũng có thể thử một số phần mềm geovisualization độc đáo. Tôi thực sự thích CommonGIS cho loại hình ảnh này. Bạn có thể chọn một vùng lân cận (ví dụ của bạn) và tất cả các số liệu thống kê và lô hữu ích sẽ có sẵn cho bạn ngay lập tức. Nó làm cho việc phân tích các bản đồ đa biến khá dễ dàng.


2
Đây là những ý tưởng hay, nhưng tôi nhận thấy các ví dụ bạn đề cập là thành công vì các thuộc tính tương ứng với các bộ tính năng phổ biến. Trong câu hỏi hiện tại, các tính năng có các vị trí khác nhau các vị trí đó là các biến ngẫu nhiên (chẳng hạn như các đơn vị quản trị cố định). Đây là những phức tạp quan trọng, bởi vì bây giờ chúng ta cần tìm một số thủ tục có ý nghĩa để liên kết các giá trị tại một địa điểm với các địa điểm khác và chúng ta cần đối phó với đặc tính ngẫu nhiên của chính các địa điểm đó.
whuber

Cảm ơn đã làm rõ! Tôi đã đọc sai OP và cho rằng đó là hai biến độc lập có chung vị trí / phạm vi địa lý (như với DA / CT, v.v.)
Michael Markieta

1

Một phân tích ô tiêu chuẩn sẽ là tuyệt vời cho việc này. Đó là một cách tiếp cận GIS có thể làm nổi bật và so sánh các mô hình không gian của các lớp dữ liệu điểm khác nhau.

Một phác thảo của phân tích ô tiêu chuẩn định lượng các mối quan hệ không gian giữa các lớp dữ liệu điểm có thể được tìm thấy tại http://www.nccu.edu/academics/sc/artsandscatics/geospatialscience/_document/se_daag_poster.pdf .


1
(1) Liên kết là 404 (đó là lý do tại sao chúng tôi yêu cầu câu trả lời để bao gồm tóm tắt của tất cả các liên kết). (2) Làm thế nào chính xác một phân tích ô tiêu chuẩn sẽ so sánh hai phân phối điểm ?
whuber

(1) Liên kết có thể hoạt động ngay bây giờ. (2) Một phân tích ô tiêu chuẩn chia một khu vực nhất định thành các đơn vị có kích thước bằng nhau, có kích thước phù hợp. Sau đó, nó sử dụng phân tích xác suất để xác định tần số thực tế của các điểm trong mỗi ô tiêu chuẩn so với giá trị dự kiến ​​cho mỗi tần số. Sử dụng lệnh mật độ điểm và thống kê khu vực làm công cụ bảng trong phần mở rộng phân tích không gian cho ArcMap, chúng ta có thể làm nổi bật các khu vực trong phạm vi gần các vị trí điểm mật độ cao ngoài việc tóm tắt các lớp tính năng điểm này để phân tích hồi quy.

Bạn đã mô tả một quy trình phân tích đơn biến các phân phối điểm. Nó có thể được điều chỉnh (bằng cách đánh giá mối tương quan của ô tiêu chuẩn) để so sánh mức độ cùng xuất hiện của hai quá trình, nhưng chịu hai hạn chế đáng kể. Đầu tiên, nó không nghiên cứu các mối quan hệ giữa các quá trình như là một hàm của khoảng cách; thứ hai, bằng cách ghép các điểm trong tứ giác, nó sẽ mất năng lượng. Mất điện có nghĩa là bạn có thể không xác định được các mẫu quan trọng hoặc nếu không, điều đó có nghĩa là bạn cần thu thập thêm dữ liệu để đạt được các mục tiêu điều tra.
whuber

Tôi đã sử dụng "thủ tục" này để phân tích đa biến các phân phối điểm. Mặc dù nó có nghĩa là mất năng lượng, nó cũng cung cấp một cách để so sánh trực quan và định lượng hai phân phối mẫu điểm ở các mức tổng hợp duy nhất (một giải pháp cho câu hỏi ban đầu ở đây).

Tôi hy vọng rằng những gì bạn đọc trên trang web của chúng tôi sẽ truyền cảm hứng cho bạn để xem xét các phương pháp thay thế trong tương lai: chúng sẽ mở rộng khả năng của bạn để tận dụng tối đa dữ liệu của bạn và tài nguyên nghiên cứu hạn chế.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.