Mô hình hồi quy và tự động tương quan không gian

Tôi đã sử dụng OLS và GWR để xác nhận các phụ thuộc giữa hai cơ sở dữ liệu riêng biệt. Quảng trường dư cho GWR là 0,82 và do đó biến nó thành mô hình hồi quy đúng được sử dụng để xác định mối quan hệ giữa hai bộ dữ liệu.

Điều tôi muốn biết là, GWR là hồi quy cục bộ và OLS là hồi quy toàn cầu, nên được sử dụng ở đâu và khi nào?

Ngoài ra, điều đó thực sự có ý nghĩa gì nếu I của Moran cho mô hình GWR là Ngẫu nhiên?

— Sam007
nguồn

Những thủ tục này là gì

Mặc dù OLS và GWR chia sẻ nhiều khía cạnh trong công thức thống kê của họ, chúng được sử dụng cho các mục đích khác nhau:

OLS chính thức mô hình một mối quan hệ toàn cầu của một loại cụ thể. Ở dạng đơn giản nhất, mỗi bản ghi (hoặc trường hợp) trong tập dữ liệu bao gồm một giá trị x, được đặt bởi người thử nghiệm (thường được gọi là "biến độc lập") và một giá trị khác, y, được quan sát ("biến phụ thuộc" ). OLS cho rằng y xấp xỉliên quan đến x theo cách đặc biệt đơn giản: cụ thể là tồn tại các số (chưa biết) 'a' và 'b' mà a + b * x sẽ là ước tính tốt của y cho tất cả các giá trị của x mà người thử nghiệm có thể quan tâm . "Ước tính tốt" thừa nhận rằng các giá trị của y có thể, và sẽ khác với mọi dự đoán toán học như vậy bởi vì (1) chúng thực sự làm - bản chất hiếm khi đơn giản như một phương trình toán học - và (2) y được đo bằng một số lỗi. Ngoài việc ước tính các giá trị của a và b, OLS cũng định lượng lượng biến thể trong y. Điều này mang lại cho OLS khả năng thiết lập ý nghĩa thống kê của các tham số a và b.

Đây là một OLS phù hợp:

nhập mô tả hình ảnh ở đây

GWR được sử dụng để khám phá các mối quan hệ địa phương . Trong cài đặt này vẫn có các cặp (x, y), nhưng hiện tại (1) thông thường, cả hai x và y đều được quan sát - không thể được xác định trước bởi người thử nghiệm - và (2) mỗi bản ghi có vị trí không gian, z . Đối với bất kỳ vị trí nào , z (không nhất thiết là một nơi có sẵn dữ liệu), GWR áp dụng thuật toán OLS cho các giá trị dữ liệu lân cận để ước tính mối quan hệ cụ thể theo vị trí giữa y và x ở dạng y = a (z) + b (z) * x. Ký hiệu "(z)" nhấn mạnh rằng các hệ số a và b khác nhau giữa các vị trí. Như vậy, GWR là phiên bản chuyên dụng của máy làm mịn có trọng lượng cục bộtrong đó chỉ tọa độ không gian được sử dụng để xác định vùng lân cận. Đầu ra của nó được sử dụng để đề xuất cách các giá trị của x và y phối hợp trên một vùng không gian. Đáng chú ý là thường không có lý do để chọn 'x' và 'y' nào đóng vai trò của biến độc lập và biến phụ thuộc trong phương trình, nhưng khi bạn chuyển đổi các vai trò này, kết quả sẽ thay đổi ! Đây là một trong nhiều lý do khiến GWR nên được xem là thăm dò - một trợ giúp trực quan và khái niệm để hiểu dữ liệu - chứ không phải là một phương pháp chính thức.

Đây là một mịn địa phương trọng lượng. Lưu ý cách nó có thể đi theo các "wiggles" rõ ràng trong dữ liệu, nhưng không vượt qua chính xác qua mọi điểm. (Nó có thể được thực hiện để đi qua các điểm hoặc theo dõi các vặn nhỏ hơn, bằng cách thay đổi cài đặt trong quy trình, chính xác như GWR có thể được thực hiện để theo dõi dữ liệu không gian chính xác hơn hoặc ít hơn bằng cách thay đổi cài đặt trong quy trình của nó.)

Lowess

Theo trực giác, hãy nghĩ rằng OLS phù hợp với hình dạng cứng nhắc (chẳng hạn như đường thẳng) với biểu đồ phân tán của các cặp (x, y) và GWR khi cho phép hình dạng đó ngọ nguậy tùy ý.

Lựa chọn giữa họ

Trong trường hợp hiện tại, mặc dù không rõ "hai cơ sở dữ liệu riêng biệt" có nghĩa là gì, có vẻ như việc sử dụng OLS hoặc GWR để "xác thực" mối quan hệ giữa chúng có thể không phù hợp. Chẳng hạn, nếu các cơ sở dữ liệu biểu thị các quan sát độc lập có cùng số lượng tại cùng một vị trí, thì (1) OLS có thể không phù hợp vì cả x (các giá trị trong một cơ sở dữ liệu) và y (các giá trị trong cơ sở dữ liệu khác) phải được quan niệm là khác nhau (thay vì nghĩ x là cố định và được trình bày chính xác) và (2) GWR là tốt để khám phá mối quan hệ giữa x và y, nhưng nó không thể được sử dụng để xác nhậnbất cứ điều gì: nó được đảm bảo để tìm mối quan hệ, không có vấn đề gì. Ngoài ra, như đã nhận xét trước đây, vai trò đối xứng của "hai cơ sở dữ liệu" chỉ ra rằng có thể được chọn là 'x' và khác là 'y', dẫn đến hai kết quả GWR có thể được đảm bảo khác nhau.

Đây là một tỷ lệ mịn cục bộ của cùng một dữ liệu, đảo ngược vai trò của x và y. So sánh điều này với cốt truyện trước: chú ý mức độ phù hợp tổng thể dốc hơn bao nhiêu và nó cũng khác nhau như thế nào trong các chi tiết.

Lowess 2

Các kỹ thuật khác nhau được yêu cầu để thiết lập rằng hai cơ sở dữ liệu đang cung cấp cùng một thông tin hoặc để đánh giá độ lệch tương đối của chúng hoặc độ chính xác tương đối. Sự lựa chọn của kỹ thuật phụ thuộc vào các thuộc tính thống kê của dữ liệu và mục đích của việc xác nhận. Ví dụ, cơ sở dữ liệu về các phép đo hóa học thường sẽ được so sánh bằng cách sử dụng các kỹ thuật hiệu chuẩn .

Phiên dịch I của Moran

Thật khó để nói "Moran's I cho mô hình GWR" nghĩa là gì. Tôi đoán rằng thống kê I của Moran có thể đã được tính cho phần dư của phép tính GWR. (Phần dư là sự khác biệt giữa giá trị thực tế và giá trị phù hợp.) Moran's I là thước đo toàn cầu về tương quan không gian. Nếu nó nhỏ, nó gợi ý rằng các biến thể giữa các giá trị y và GWR phù hợp với các giá trị x có ít hoặc không có mối tương quan về không gian. Khi GWR được "điều chỉnh" dữ liệu (điều này liên quan đến việc quyết định cái gì thực sự cấu thành "hàng xóm" của bất kỳ điểm nào), mối tương quan không gian thấp trong phần dư sẽ được dự kiến bởi vì GWR (ngầm) khai thác bất kỳ mối tương quan không gian nào giữa x và y các giá trị trong thuật toán của nó.

— whuber
nguồn

Vì vậy, trong GWR, bạn đã nói rằng việc đảo ngược các biến cho kết quả khác nhau, nhưng biến số cho bình phương dư cao hơn, không có nghĩa là nó cho thấy mối quan hệ mạnh mẽ hơn giữa hai biến?

— Sam007

Sam, một hình vuông còn lại thấp tự nó không chỉ ra mối quan hệ mạnh mẽ hơn. Cụ thể, khi bạn đảo ngược vai trò của x và y, bạn thậm chí không thể so sánh các hình vuông còn lại - chúng thường ở các đơn vị khác nhau. (Ví dụ: một cái có thể là nhiệt độ vuông và cái kia có thể là một lượng mưa vuông: làm thế nào để bạn biết cái nào thấp hơn?) Bạn luôn có thể giảm một hình vuông dư bằng cách bao gồm nhiều tham số hơn trong một mô hình, ngay cả khi chúng vô nghĩa : đi quá xa theo hướng này được gọi là "quá mức." Ở một khía cạnh nào đó, GWR với phạm vi không gian ngắn là một hình thức quá mức.

— whuber

Bạn có thể nghĩ về R-squared, Sam: đó là một tỷ lệ. (Tôi hiểu "bình phương dư" chính xác như những gì nó nói: tổng bình phương của phần dư. Hầu hết các phần mềm thống kê báo cáo thống kê này cùng với các giá trị bình phương R.) Nhưng nó vẫn nguy hiểm và thường sai khi so sánh các mô hình khác nhau (như vậy như y về mặt x so với x về mặt y) về mặt bình phương R: xem thống kê.stackexchange.com/questions/13314 . Bởi vì GWR mang tính khám phá, thật tuyệt vời khi tìm ra các mô hình và đưa ra giả thuyết về các mối quan hệ, nhưng (như thường lệ, dù sao đi nữa), nó không phù hợp để chứng minh các yêu cầu.

— whuber

WOW đó thực sự là tất cả các số liệu thống kê. Trên thực tế lý do tôi cảm thấy khó khăn là vì tôi có nền tảng thống kê rất kém, vì vậy tôi chỉ dựa vào kết quả mô hình, mà không hiểu ý nghĩa chính xác của chúng. Hầu hết những thứ trên R2, đã đi qua đầu tôi. Bạn có thể đề xuất một số cuốn sách mới bắt đầu tốt để giúp tôi bắt đầu và xây dựng nền tảng của tôi trong thống kê?

— Sam007

Hãy thử các cách sau: stats.stackexchange.com/questions/25506 , stats.stackexchange.com/questions/421 và stats.stackexchange.com/questions/7165 .

— whuber

Không nên sử dụng Rupquared để so sánh các mô hình. Sử dụng các giá trị đăng nhập likihood hoặc AIC.

Nếu phần dư của bạn trong GWR là ngẫu nhiên hoặc tôi đoán có vẻ là ngẫu nhiên (không phải là thống kê sig.) Hơn bạn có thể có một mô hình được chỉ định. Ít nhất nó gợi ý rằng bạn không có số dư tương quan và nên đề xuất rằng bạn không có bất kỳ biến nào bị bỏ qua.

— Giàu
nguồn