Lựa chọn thay thế mạnh mẽ cho Moran's I


19

Moran's I , một biện pháp tự tương quan không gian, không phải là một thống kê đặc biệt mạnh mẽ (nó có thể nhạy cảm với các phân phối sai lệch của các thuộc tính dữ liệu không gian).

Một số kỹ thuật mạnh mẽ hơn để đo tự động tương quan không gian là gì? Tôi đặc biệt quan tâm đến các giải pháp có sẵn / có thể thực hiện được bằng ngôn ngữ kịch bản như R. Nếu các giải pháp áp dụng cho các trường hợp / phân phối dữ liệu duy nhất, vui lòng chỉ định các giải pháp trong câu trả lời của bạn.


EDIT : Tôi đang mở rộng câu hỏi với một vài ví dụ (để trả lời các bình luận / câu trả lời cho câu hỏi ban đầu)

Có ý kiến ​​cho rằng các kỹ thuật hoán vị (nơi phân phối lấy mẫu I của Moran được tạo bằng thủ tục Monte Carlo) mang lại một giải pháp mạnh mẽ. Sự hiểu biết của tôi là thử nghiệm như vậy loại bỏ sự cần thiết phải đưa ra bất kỳ giả định nào về phân phối I của Moran (cho rằng thống kê kiểm tra có thể bị ảnh hưởng bởi cấu trúc không gian của tập dữ liệu), nhưng tôi không thấy kỹ thuật hoán vị sửa như thế nào cho không bình thường dữ liệu thuộc tính phân tán . Tôi đưa ra hai ví dụ: một ví dụ chứng minh ảnh hưởng của dữ liệu sai lệch đối với thống kê I của Moran địa phương, ví dụ khác về I-Hồi của Moran toàn cầu ngay cả trong các thử nghiệm hoán vị.

Tôi sẽ sử dụng Zhang et al. 's (2008) phân tích như ví dụ đầu tiên. Trong bài báo của họ, họ cho thấy ảnh hưởng của phân phối dữ liệu thuộc tính đối với I của Moran địa phương bằng các phép thử hoán vị (mô phỏng 9999). Tôi đã sao chép các kết quả điểm nóng của tác giả về nồng độ chì (Pb) (ở mức độ tin cậy 5%) bằng cách sử dụng dữ liệu gốc (bảng bên trái) và chuyển đổi nhật ký của cùng một dữ liệu (bảng bên phải) trong GeoDa. Boxplots của nồng độ Pb gốc và chuyển đổi log cũng được trình bày. Ở đây, số lượng các điểm nóng đáng kể gần gấp đôi khi dữ liệu được chuyển đổi; ví dụ này cho thấy thống kê cục bộ rất nhạy cảm với phân phối dữ liệu thuộc tính - ngay cả khi sử dụng các kỹ thuật Monte Carlo!

nhập mô tả hình ảnh ở đây

Ví dụ thứ hai (dữ liệu mô phỏng) cho thấy dữ liệu sai lệch ảnh hưởng có thể có trên I toàn cầu của Moran , ngay cả khi sử dụng các phép thử hoán vị. Một ví dụ, trong R , như sau:

library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n  <- length(NB)
set.seed(4956)
x.norm <- rnorm(n) 
rho    <- 0.3          # autoregressive parameter
W      <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value

Lưu ý sự khác biệt về giá trị P. Dữ liệu bị lệch cho thấy không có phân cụm ở mức ý nghĩa 5% (p = 0.167) trong khi dữ liệu được phân phối bình thường chỉ ra rằng có (p = 0,013).


Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Sử dụng I và GIS địa phương của Moran để xác định các điểm nóng ô nhiễm của Pb trong đất đô thị của Galway, Ireland, Khoa học về môi trường toàn diện, Tập 398, Số 1, ngày 3 tháng 7 năm 2008 , Trang 212-221


1
Bạn có tài liệu tham khảo về độ nhạy đối với các bản phân phối sai lệch) không? Bạn có quan tâm đến các thử nghiệm toàn cầu về phân phối không gian không ngẫu nhiên hoặc xác định các tính năng bất thường cục bộ không? Phân phối kết quả của sự quan tâm (biến số dương là gì?)
Andy W

1
AndyW: 1) Một tài liệu tham khảo về độ nhạy của thử nghiệm là 'Phân tích không gian của Fortin và Dale, Hướng dẫn cho các nhà sinh thái học' (tr. 125), 2) Tôi quan tâm đến các giải pháp cho cả các thử nghiệm toàn cầu và địa phương, 3) Tôi không có cụ thể phân phối dữ liệu trong tâm trí.
MannyG

1
Andy, bởi vì I của Moran dựa trên các ước lượng phương sai và hiệp phương sai có trọng số, nên nó sẽ có cùng độ nhạy với các ngoại lệ như các ước tính đó, điều này (như đã biết) là đáng kể. Cái nhìn sâu sắc này cũng chỉ ra nhiều giải pháp khả thi cho vấn đề của Manny: thay thế các phiên bản ước tính phân tán và liên kết mạnh mẽ yêu thích của bạn để hình thành mối tương quan trọng số mạnh mẽ và bạn sẽ tắt và chạy.
whuber

1
Có vẻ như bạn có thể đang nhầm lẫn một số khái niệm ở đây, @Andy. Đầu tiên, Manny muốn đo lường sự tự kỷ; anh ấy không nhất thiết phải tiến hành một bài kiểm tra giả thuyết. Thứ hai, câu hỏi với kiểm tra giả thuyết được đóng khung tốt nhất về sức mạnh hơn là sự mạnh mẽ. Nhưng (thứ ba) các khái niệm có mối liên hệ: một thống kê kiểm tra mạnh mẽ sẽ có xu hướng duy trì sức mạnh của mình dưới một loạt các vi phạm các giả định phân phối (chẳng hạn như ô nhiễm bởi các ngoại lệ) trong khi thống kê kiểm tra không mạnh mẽ có thể mất hầu hết hoặc tất cả sức mạnh của nó trong những tình huống đó.
whuber

1
@ FC84, tôi đã xem lại vấn đề này năm ngoái và đã viết lên một giải pháp đề xuất. Nhưng nó cần kiểm tra. Tôi có kế hoạch cung cấp một phiên bản rút gọn (nhiều) của bài viết đó như là một câu trả lời ở đây tại một số điểm. Hãy lượm lặt những gì bạn có thể từ những gì tôi có. Nhưng sử dụng nó một cách thận trọng!
MannyG

Câu trả lời:


2

(Điều này quá khó sử dụng vào thời điểm này để biến thành một nhận xét)

Điều này liên quan đến các thử nghiệm địa phương và toàn cầu (không phải là một biện pháp độc lập, tương đối mẫu độc lập). Tôi có thể đánh giá rằng tôi cụ thể Moran của biện pháp là một ước tính thiên vị của mối tương quan (giải thích nó trong các điều khoản tương tự như hệ số Pearson tương quan), tôi vẫn không thấy cách thử nghiệm hoán vị giả thuyết là nhạy cảm với sự phân bố ban đầu của biến ( hoặc về các lỗi loại 1 hoặc loại 2).

Hơi thích nghi với mã bạn đã cung cấp trong nhận xét (trọng số không gian colqueenbị thiếu);

library(spdep)
data(columbus)
attach(columbus)

colqueen <- nb2listw(col.gal.nb, style="W") #weights object was missing in original comment
MC1 <- moran.mc(PLUMB,colqueen,999)
MC2 <- moran.mc(log(PLUMB),colqueen,999)
par(mfrow = c(2,2))
hist(PLUMB, main = "Histogram PLUMB")
hist(log(PLUMB), main = "HISTOGRAM log(PLUMB)")
plot(MC1, main = "999 perm. PLUMB")
plot(MC2, main = "999 perm. log(PLUMB)")

Khi một người tiến hành các thử nghiệm hoán vị (trong trường hợp này, tôi muốn nghĩ về nó như làm xáo trộn không gian), thử nghiệm giả thuyết về tương quan tự động không gian toàn cầu sẽ không bị ảnh hưởng bởi phân phối biến, vì bản chất phân phối thử nghiệm mô phỏng sẽ thay đổi về bản chất với sự phân phối của các biến ban đầu. Một khả năng có thể đưa ra mô phỏng thú vị hơn để chứng minh điều này, nhưng khi bạn có thể thấy trong ví dụ này, số liệu thống kê thử nghiệm quan sát được là tốt bên ngoài của sự phân bố tạo ra cho cả hai bản gốc PLUMBvà đăng nhập PLUMB(đó là gần gũi hơn với phân phối chuẩn) . Mặc dù bạn có thể thấy phân phối thử nghiệm PLUMB được ghi lại dưới giá trị null dịch chuyển gần hơn với đối xứng khoảng 0.

nhập mô tả hình ảnh ở đây

Tôi sẽ đề nghị điều này như một cách thay thế, chuyển đổi phân phối thành xấp xỉ bình thường. Tôi cũng sẽ đề nghị tìm kiếm tài nguyên về lọc không gian (và tương tự như thống kê toàn cầu và địa phương của Getis-Ord), mặc dù tôi không chắc điều này sẽ giúp với một biện pháp miễn phí theo quy mô (nhưng có lẽ có hiệu quả đối với các bài kiểm tra giả thuyết) . Tôi sẽ đăng lại sau với tiềm năng nhiều tài liệu quan tâm.


Cảm ơn Andy cho tài khoản chi tiết của bạn. Nếu tôi hiểu bạn một cách chính xác, bạn ngụ ý rằng trong một bài kiểm tra hoán vị, thống kê kiểm tra (Moran's I) sẽ không thay đổi so với phân phối MC kết quả, nhưng điều này không phù hợp với quan sát của tôi. Ví dụ: nếu chúng ta sử dụng biến HOVAL trong cùng một bộ dữ liệu columbus, thì giá trị p thử nghiệm của MC Moran của I sẽ đi từ 0,029 (với dữ liệu sai lệch ban đầu) đến 0,004 (với dữ liệu được chuyển đổi nhật ký) cho thấy khoảng cách mở rộng giữa MC thống kê phân phối và kiểm tra - không đáng kể nếu chúng tôi đã đặt ngưỡng ở mức 1%.
MannyG

1
Có bạn đang giải thích quan điểm của tôi một cách chính xác. Chắc chắn có thể tìm thấy bất kỳ hoạt động cụ thể trong đó kết quả khác nhau. Câu hỏi trở thành liệu tỷ lệ lỗi có giống nhau trong nhiều trường hợp hay không.
Andy W
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.