Moran's I , một biện pháp tự tương quan không gian, không phải là một thống kê đặc biệt mạnh mẽ (nó có thể nhạy cảm với các phân phối sai lệch của các thuộc tính dữ liệu không gian).
Một số kỹ thuật mạnh mẽ hơn để đo tự động tương quan không gian là gì? Tôi đặc biệt quan tâm đến các giải pháp có sẵn / có thể thực hiện được bằng ngôn ngữ kịch bản như R. Nếu các giải pháp áp dụng cho các trường hợp / phân phối dữ liệu duy nhất, vui lòng chỉ định các giải pháp trong câu trả lời của bạn.
EDIT : Tôi đang mở rộng câu hỏi với một vài ví dụ (để trả lời các bình luận / câu trả lời cho câu hỏi ban đầu)
Có ý kiến cho rằng các kỹ thuật hoán vị (nơi phân phối lấy mẫu I của Moran được tạo bằng thủ tục Monte Carlo) mang lại một giải pháp mạnh mẽ. Sự hiểu biết của tôi là thử nghiệm như vậy loại bỏ sự cần thiết phải đưa ra bất kỳ giả định nào về phân phối I của Moran (cho rằng thống kê kiểm tra có thể bị ảnh hưởng bởi cấu trúc không gian của tập dữ liệu), nhưng tôi không thấy kỹ thuật hoán vị sửa như thế nào cho không bình thường dữ liệu thuộc tính phân tán . Tôi đưa ra hai ví dụ: một ví dụ chứng minh ảnh hưởng của dữ liệu sai lệch đối với thống kê I của Moran địa phương, ví dụ khác về I-Hồi của Moran toàn cầu ngay cả trong các thử nghiệm hoán vị.
Tôi sẽ sử dụng Zhang et al. 's (2008) phân tích như ví dụ đầu tiên. Trong bài báo của họ, họ cho thấy ảnh hưởng của phân phối dữ liệu thuộc tính đối với I của Moran địa phương bằng các phép thử hoán vị (mô phỏng 9999). Tôi đã sao chép các kết quả điểm nóng của tác giả về nồng độ chì (Pb) (ở mức độ tin cậy 5%) bằng cách sử dụng dữ liệu gốc (bảng bên trái) và chuyển đổi nhật ký của cùng một dữ liệu (bảng bên phải) trong GeoDa. Boxplots của nồng độ Pb gốc và chuyển đổi log cũng được trình bày. Ở đây, số lượng các điểm nóng đáng kể gần gấp đôi khi dữ liệu được chuyển đổi; ví dụ này cho thấy thống kê cục bộ rất nhạy cảm với phân phối dữ liệu thuộc tính - ngay cả khi sử dụng các kỹ thuật Monte Carlo!
Ví dụ thứ hai (dữ liệu mô phỏng) cho thấy dữ liệu sai lệch ảnh hưởng có thể có trên I toàn cầu của Moran , ngay cả khi sử dụng các phép thử hoán vị. Một ví dụ, trong R , như sau:
library(spdep)
library(maptools)
NC <- readShapePoly(system.file("etc/shapes/sids.shp", package="spdep")[1],ID="FIPSNO", proj4string=CRS("+proj=longlat +ellps=clrk66"))
rn <- sapply(slot(NC, "polygons"), function(x) slot(x, "ID"))
NB <- read.gal(system.file("etc/weights/ncCR85.gal", package="spdep")[1], region.id=rn)
n <- length(NB)
set.seed(4956)
x.norm <- rnorm(n)
rho <- 0.3 # autoregressive parameter
W <- nb2listw(NB) # Generate spatial weights
# Generate autocorrelated datasets (one normally distributed the other skewed)
x.norm.auto <- invIrW(W, rho) %*% x.norm # Generate autocorrelated values
x.skew.auto <- exp(x.norm.auto) # Transform orginal data to create a 'skewed' version
# Run permutation tests
MCI.norm <- moran.mc(x.norm.auto, listw=W, nsim=9999)
MCI.skew <- moran.mc(x.skew.auto, listw=W, nsim=9999)
# Display p-values
MCI.norm$p.value;MCI.skew$p.value
Lưu ý sự khác biệt về giá trị P. Dữ liệu bị lệch cho thấy không có phân cụm ở mức ý nghĩa 5% (p = 0.167) trong khi dữ liệu được phân phối bình thường chỉ ra rằng có (p = 0,013).
Chaosheng Zhang, Lin Luo, Weilin Xu, Valerie Ledwith, Sử dụng I và GIS địa phương của Moran để xác định các điểm nóng ô nhiễm của Pb trong đất đô thị của Galway, Ireland, Khoa học về môi trường toàn diện, Tập 398, Số 1, ngày 3 tháng 7 năm 2008 , Trang 212-221