Tại sao bao gồm vĩ độ và kinh độ trong tài khoản GAM cho tự động tương quan không gian?


60

Tôi đã sản xuất các mô hình phụ gia tổng quát cho nạn phá rừng. Để giải thích cho sự tự tương quan không gian, tôi đã bao gồm vĩ độ và kinh độ như một thuật ngữ tương tác được làm mịn (ví dụ s (x, y)).

Tôi đã dựa vào điều này khi đọc nhiều bài báo mà các tác giả nói 'để giải thích cho sự tự tương quan không gian, tọa độ của các điểm được đưa vào dưới dạng các thuật ngữ được làm mịn' nhưng chúng chưa bao giờ giải thích lý do tại sao điều này thực sự giải thích cho nó. Nó khá là bực bội. Tôi đã đọc tất cả những cuốn sách tôi có thể tìm thấy trên GAM với hy vọng tìm được câu trả lời, nhưng hầu hết (ví dụ: Mô hình phụ gia tổng quát, Giới thiệu với R, SN Wood) chỉ cần chạm vào chủ đề mà không giải thích.

Tôi thực sự đánh giá cao nếu ai đó có thể giải thích TẠI SAO việc bao gồm các tài khoản vĩ độ và kinh độ cho tự động tương quan không gian và 'kế toán' cho nó thực sự có nghĩa là gì - chỉ đơn giản là đủ để đưa nó vào mô hình, hoặc bạn nên so sánh mô hình với s (x, y) trong và một mô hình không có? Và sự sai lệch được giải thích bởi thuật ngữ chỉ ra mức độ tự tương quan không gian?


Nếu nó có liên quan, tôi đã sử dụng chức năng 'bam' từ gói 'mgcv' trong R.
gisol

Ngoài ra, tôi đã kiểm tra tự động tương quan không gian bằng cách sử dụng I.
Moris


3
Đưa ra các câu trả lời ở đây, chúng tôi có thể gắn cờ các liên kết Q @Macro khác thành một bản sao của liên kết này để mọi người đi qua xem câu trả lời ở đây, đặc biệt là các câu trả lời.
Gavin Simpson

+1 @GavinSimpson - nhân tiện, lưu ý rằng bạn có quyền bỏ phiếu sát sao, đủ điều đó sẽ dẫn đến hai câu hỏi được hợp nhất.
Macro

Câu trả lời:


38

Vấn đề chính trong bất kỳ mô hình thống kê nào là các giả định làm nền tảng cho bất kỳ thủ tục suy luận nào. Trong loại mô hình bạn mô tả, phần dư được giả định độc lập. Nếu chúng có một số phụ thuộc không gian và điều này không được mô hình hóa trong phần tổng hợp của mô hình, phần dư từ mô hình đó cũng sẽ thể hiện sự phụ thuộc không gian, hay nói cách khác, chúng sẽ được tự động hóa không gian. Sự phụ thuộc như vậy sẽ làm mất hiệu lực lý thuyết tạo ra giá trị p từ thống kê kiểm tra trong GAM chẳng hạn; bạn không thể tin tưởng vào các giá trị p vì chúng được tính toán độc lập.

Bạn có hai tùy chọn chính để xử lý dữ liệu đó; i) mô hình hóa sự phụ thuộc không gian trong phần hệ thống của mô hình, hoặc ii) nới lỏng giả định về tính độc lập và ước tính mối tương quan giữa các phần dư.

i) là những gì đang được cố gắng bằng cách bao gồm cả các vị trí không gian trong mô hình. ii) yêu cầu ước tính ma trận tương quan của phần dư thường trong quá trình điều chỉnh mô hình bằng cách sử dụng một quy trình như bình phương tối thiểu tổng quát. Một trong hai cách tiếp cận này đối phó với sự phụ thuộc không gian như thế nào sẽ phụ thuộc vào bản chất & độ phức tạp của sự phụ thuộc không gian và mức độ dễ dàng có thể được mô hình hóa.

Tóm lại, nếu bạn có thể mô hình hóa sự phụ thuộc không gian giữa các quan sát thì phần dư có nhiều khả năng là các biến ngẫu nhiên độc lập và do đó không vi phạm các giả định của bất kỳ thủ tục suy luận nào.


Cảm ơn câu trả lời rõ ràng của bạn. Điều gì làm cho tự động tương quan không gian khác biệt cơ bản với bất kỳ độ dốc nào không có trong mô hình? Giả sử khu vực nghiên cứu của bạn nằm trên một ngọn đồi dốc và các loài quan tâm ưa thích môi trường sống thấp hơn môi trường sống cao hơn. Không bao gồm độ cao trong mô hình sẽ để lại một cấu trúc trong phần dư, phải không? Có phải chỉ đơn giản là sự tự tương quan không gian bị (hoặc) bị lãng quên hoặc không được xem xét? (PS có lẽ đây là một ví dụ kém khi bao gồm lat, lâu cũng sẽ ảnh hưởng đến hiệu ứng này).
gisol

4
Đúng. Tôi nghi ngờ rằng trong các ví dụ bạn đã xem xét thành phần không gian được quan tâm nên đã được mô hình hóa rõ ràng thông qua lat / lon hoặc thành phần không gian là một thuật ngữ phiền toái nhưng cần được mô hình hóa để rời khỏi phần dư iid Nếu "không gian "Thành phần được mô hình hóa tốt hơn thông qua một biến khác (ví dụ: độ cao trong nhận xét của bạn), sau đó, một biến của biến đó sẽ được sử dụng thay cho các vị trí không gian.
Gavin Simpson

1
Tại sao phải làm mịn? "Làm mịn" chính xác có nghĩa là gì?
Julian

1
@Julian Giá trị của phản hồi được làm mịn đối với 2 tọa độ không gian. Hoặc nói cách khác, hiệu ứng không gian được ước tính là hàm 2 chiều trơn tru. Bằng cách trơn tru, chúng tôi có nghĩa là có một số độ rung được đo bằng đạo hàm thứ hai bình phương tích hợp của spline. Sự gượng gạo được chọn để cân bằng sự phù hợp và độ phức tạp của mô hình. Nếu bạn muốn biết làm thế nào các chức năng trơn tru (splines) được hình thành thì có thể đáng để hỏi một câu hỏi cụ thể.
Gavin Simpson

55

"Tự tương quan không gian" có nghĩa là những thứ khác nhau cho nhiều người. Tuy nhiên, một khái niệm bao quát là một hiện tượng được quan sát tại các vị trí có thể phụ thuộc một cách xác định vào (a) hiệp phương sai, (b) vị trí và (c) các giá trị của nó tại các vị trí gần đó . (Trường hợp các định nghĩa kỹ thuật khác nhau nằm ở loại dữ liệu đang được xem xét, "cách xác định" được quy định và "gần đó" nghĩa là gì: tất cả những điều này phải được định lượng để tiến hành.)z

Để xem những gì có thể xảy ra, hãy xem xét một ví dụ đơn giản về mô hình không gian như vậy để mô tả địa hình của một khu vực. Đặt độ cao đo được tại một điểm y ( z ) . Một mô hình có thể là y phụ thuộc vào một số cách toán học xác định vào tọa độ của z , mà tôi sẽ viết ( z 1 , z 2 ) trong tình huống hai chiều này. Để ε biểu thị độ lệch (độc lập giả định) giữa các quan sát và mô hình (mà như thường lệ được cho là không có kỳ vọng), chúng tôi có thể viếtzy(z)yz(z1,z2)ε

y(z)= =β0+β1z1+β2z2+ε(z)

cho một mô hình xu hướng tuyến tính . Các xu hướng tuyến tính (đại diện bởi các β 2 hệ số) là một cách để nắm bắt những ý kiến cho rằng giá trị lân cận y ( z )y ( z ' ) , cho z gần z ' , nên có xu hướng để được gần gũi với nhau . Chúng ta thậm chí có thể tính toán điều này bằng cách xem xét giá trị dự kiến ​​của kích thước của sự khác biệt giữa y ( z )y ( z ) , E [ | yβ1β2y(z)y(z')zz'y(z)y(z) . Hóa ra toán họcđơn giản hơnnhiềunếu chúng ta sử dụng một thước đo khác biệt hơi khác: thay vào đó, chúng ta tính toán sựkhác biệtbình phươngdự kiến:E[|y(z)y(z)|]

E[(y(z)-y(z'))2]= =E[(β0+β1z1+β2z2+ε(z)-(β0+β1z1'+β2z2'+ε(z')))2]= =E[(β1(z1-z1')+β2(z2-z2)'+ε(z)-ε(z'))2]= =E[(β1(z1-z1')+β2(z2-z2)')2+2(β1(z1-z1')+β2(z2-z2)')(ε(z)-ε(z'))+(ε(z)-ε(z'))2]= =(β1(z1-z1')+β2(z2-z2)')2+E[(ε(z)-ε(z'))2]

Mô hình này không có bất kỳ sự tự tương quan không gian rõ ràng nào, bởi vì không có thuật ngữ nào trong đó liên quan trực tiếp đến với các giá trị gần đó y ( z ) .y(z)y(z')

Một mô hình thay thế, khác nhau, bỏ qua xu hướng tuyến tính và chỉ cho rằng có sự tự tương quan. Một cách để làm điều đó là thông qua cấu trúc của độ lệch . Chúng tôi có thể đặt ra rằngε(z)

y(z)= =β0+ε(z)

và, để giải thích cho sự mong đợi của chúng ta về sự tương quan, chúng tôi sẽ đảm nhận một số loại "cấu trúc hiệp phương sai" cho . Đối với điều này là không gian có ý nghĩa, chúng tôi sẽ giả định hiệp phương sai giữa ε ( z )ε ( z ' ) , tương đương với E [ ε ( z ) ε ( z ' ) ]ε có không có nghĩa là, có xu hướng giảm như zz ' ngày càng trở nên xa hơn. Bởi vì các chi tiết không quan trọng, chúng ta hãy chỉ gọi hiệp phương sai này Cεε(z)ε(z')E[ε(z)ε(z')]εzz' . Đây là tự động tương quan không gian. Thật vậy, mối tương quan (thông thường Pearson) giữa y ( z ) y ( z )C(z,z)y(z)y(z)

ρ(y(z),y(z))=C(z,z)C(z,z)C(z,z).

Trong ký hiệu này, dự kiến chênh lệch bình phương trước của 's cho mô hình đầu tiên lày

E[(y(z)y(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+C1(z,z)+C1(z,z)

zzεC1C

εyzzβ0β1

y

E[(y(z)-y(z'))2]= =E[(β0+ε(z)-(β0+ε(z')))2]= =E[(ε(z)-ε(z'))2]= =E[ε(z)2-2ε(z)ε(z')+ε(z')2]= =C2(z,z)-2C2(z,z')+C2(z',z').

C2(z,z')zz'y

E[(y(z)-y(z'))2](β1(z1-z1')+β2(z2-z2)')2-2C2(z,z')CTôi(z,z)

ε). Trong thực tế, các mô hình kết hợp cả hai phương pháp. Cái nào bạn chọn phụ thuộc vào những gì bạn muốn thực hiện với mô hình và theo quan điểm của bạn về cách thức tự tương quan không gian phát sinh - cho dù nó được ngụ ý bởi các xu hướng cơ bản hoặc phản ánh các biến thể bạn muốn xem xét ngẫu nhiên. Không ai luôn đúng và trong bất kỳ vấn đề nào, thường có thể sử dụng cả hai loại mô hình để phân tích dữ liệu, hiểu hiện tượng và dự đoán giá trị của nó tại các vị trí khác (nội suy).


2
+1 - thật tuyệt khi thấy liên kết giữa hai cách tiếp cận để xử lý sự phụ thuộc không gian. Câu trả lời tuyệt vời, whuber!
Macro

Rất toàn diện, cảm ơn bạn. Tôi sẽ mất vài phút để suy nghĩ tất cả về điều này.
gisol

6
Nếu tất cả các văn bản thống kê là của ilk này, sẽ có rất nhiều công việc thống kê được áp dụng tư duy rõ ràng hơn trên thế giới. Làm đẹp.
Ari B. Friedman

Tôi có hiểu chính xác câu trả lời này không khi tôi rút ra từ nó chỉ cần thêm tọa độ X / Y làm biến độc lập cho bất kỳ mô hình (?!) Nào sẽ giải thích cho sự tự tương quan không gian ở một mức độ nào đó?
Julian

1
@Julian: Chúng ta đang nói về việc xây dựng các mô hình khác nhau cho cùng một dữ liệu. Nếu bạn bao gồm tọa độ X và Y là các biến giải thích nhưng nếu không thì không tính đến tương quan không gian, thì "tương quan không gian" không có ý nghĩa gì đối với mô hình này, vì vậy chúng ta phải cẩn thận về ý nghĩa của "nghĩa là tương quan không gian". Nhưng nếu chúng tôi hiểu câu hỏi của bạn để hỏi liệu việc bao gồm các tọa độ như các biến giải thích có thể hiệu quả như việc xây dựng một mô hình trong đó tương quan không gian được trình bày rõ ràng hay không, thì câu trả lời của tôi là "có, thường là như vậy".
whuber

0

Các câu trả lời khác là tốt Tôi chỉ muốn thêm một cái gì đó về 'tính toán' tự tương quan không gian. Đôi khi, yêu cầu này được đưa ra mạnh mẽ hơn dọc theo dòng "kế toán cho sự tự tương quan không gian không được giải thích bởi các hiệp phương sai".

Điều này có thể trình bày một bức tranh sai lệch về những gì mịn màng không gian làm. Không giống như có một số hàng đợi có trật tự trong khả năng người bệnh kiên nhẫn chờ đợi các đồng biến đi trước và sau đó sẽ làm sạch các phần 'không giải thích được'. Trong thực tế tất cả họ đều có cơ hội để giải thích dữ liệu.

Bài viết này với một tiêu đề được đặt tên khéo léo thể hiện vấn đề thực sự rõ ràng, mặc dù theo quan điểm của một mô hình CAR, các nguyên tắc áp dụng cho các hoạt động trơn tru của GAM.

Thêm các lỗi tương quan không gian có thể làm rối loạn hiệu ứng cố định mà bạn yêu thích

"Giải pháp" trong bài báo là làm mịn phần dư thay vì làm mịn trên không gian. Điều đó sẽ có tác dụng cho phép đồng phương của bạn giải thích những gì họ có thể. Tất nhiên, có nhiều ứng dụng trong đó đây không phải là một giải pháp mong muốn.


-2

Tương quan không gian chỉ đơn giản là cách tọa độ x và y liên quan đến độ lớn của bề mặt kết quả trong không gian. Vì vậy, tự động tương quan giữa các tọa độ có thể được thể hiện dưới dạng mối quan hệ chức năng giữa các điểm lân cận.


1
Xin chào Michael, cảm ơn bạn đã phản hồi. Tôi nghĩ rằng tôi hiểu những gì bạn đã nói, nhưng dường như đó là một mô tả về tự động tương quan không gian hơn là cách các tọa độ bao gồm các tài khoản cho nó - mặc dù tôi có thể thiếu quan điểm của bạn. Ví dụ: giả sử tôi có 2 mô hình, mô hình đầu tiên (A) với một thuật ngữ duy nhất - phá rừng là một hàm của khoảng cách đến thành phố thủ đô và mô hình thứ hai (B) với khoảng cách đến thuật ngữ thành phố thủ đô nhưng cũng có độ trễ và dài kỳ hạn. Bạn có phiền nhắc lại câu trả lời của bạn trong bối cảnh này? Có lẽ tôi có thể hiểu nó tốt hơn.
gisol

1
Tôi nghĩ rằng nếu không có thuật ngữ tương tác trong mô hình thì tự động tương quan không gian giữa các điểm lân cận là 0. Khi bạn có một thuật ngữ lặp, thuật ngữ đó xác định giá trị của tự động tương quan không gian.
Michael Chernick

4
@Michael, tự động tương quan không gian có nghĩa là mối tương quan giữa các điểm phụ thuộc vào vị trí không gian của chúng. Tôi nghĩ rằng câu trả lời này sẽ hữu ích hơn nếu bạn có thể giải thích tại sao sử dụng ước tính hàm trơn tru, với các vị trí không gian làm đầu vào, chiếm phần này. Nhìn bề ngoài, có vẻ như cách tiếp cận chức năng trơn tru mô hình trung bình trong khi tự tương quan không gian đề cập đến cấu trúc hiệp phương sai . Tôi biết có một mối quan hệ giữa hàm hiệp phương sai của một quá trình trơn tru và ước lượng hàm trơn tru, nhưng, không thực hiện kết nối đó, câu trả lời này có vẻ không đầy đủ.
Macro

1
@Michael, chắc chắn bạn có thể thấy rằng việc tạo tọa độ lat / long ảnh hưởng đến giá trị trung bình khác với mô hình hóa mối tương quan giữa hai điểm trong không gian ... OP đã hỏi cách mô hình tự động tương quan không gian và tôi nghĩ là một phần của đối số - phần mà giải thích chính xác làm thế nào phù hợp với một bề mặt không gian mịn (đó là những gì một mô hình phụ gia tổng quát trong tọa độ sẽ làm) mô hình tự tương quan không gian. Có một mối quan hệ giữa các trò chơi và chức năng hiệp phương sai (tôi không biết chính xác hơn) nhưng việc thu hút mối quan hệ đó dường như là điều bắt buộc ở đây.
Macro

1
@Marco Tôi sẽ xem cuốn sách của Simon Wood nếu bạn có thể vì nó có các chi tiết và trích dẫn các tài liệu liên quan về sự mượt mà dưới dạng bit hiệu ứng ngẫu nhiên.
Gavin Simpson
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.