Không có phương sai không đổi trong một mô hình hồi quy tuyến tính nghĩa là gì?


53

Không có "phương sai không đổi" trong thuật ngữ lỗi có nghĩa là gì? Như tôi thấy, chúng ta có một dữ liệu với một biến phụ thuộc và một biến độc lập. Phương sai không đổi là một trong những giả định của hồi quy tuyến tính. Tôi đang tự hỏi đồng nghĩa là gì. Vì ngay cả khi tôi có 500 hàng, tôi sẽ có một giá trị phương sai duy nhất không đổi. Với biến nào tôi nên so sánh phương sai?

Câu trả lời:


34

Điều đó có nghĩa là khi bạn vẽ lỗi riêng lẻ theo giá trị dự đoán, phương sai của giá trị dự đoán lỗi sẽ không đổi. Xem các mũi tên màu đỏ trong hình dưới đây, chiều dài của các đường màu đỏ (một proxy của phương sai của nó) là như nhau.

nhập mô tả hình ảnh ở đây


1
Ok Hiểu rồi. !! Nhưng vì đó là một giả định nên chúng ta không cần xác thực giả định trước khi chạy mô hình. Và tại sao chúng ta cần giả định này
Mukul

2
Một số giả định chỉ có thể được kiểm tra sau khi mô hình được chạy. Tính toán một mô hình chỉ là toán học và không giống như diễn giải một mô hình.
Giăng

6
Phạm vi không bằng phương sai Penguin Knight vì vậy bạn có thể muốn cập nhật từ ngữ của mình ở đây.
Giăng

4
Nếu giả định phương sai của bạn là sai, thì điều đó thường có nghĩa là các lỗi tiêu chuẩn là sai và bất kỳ kiểm tra giả thuyết nào cũng có thể đưa ra kết luận sai. (Một John khác)
John

4
Tôi khác một chút. Tôi không nói rằng tính không đồng nhất nhất thiết có nghĩa là các lỗi tiêu chuẩn của betas của bạn là sai, nhưng thay vào đó, công cụ ước tính OLS không còn là công cụ ước tính không thiên vị hiệu quả nhất. Nghĩa là, bạn có thể nhận được nhiều năng lượng / độ chính xác hơn nếu bạn có phương sai không đổi (có lẽ là do biến đổi của Y) hoặc nếu bạn đã tính chính xác tính không hằng số (có thể thông qua công cụ ước lượng bình phương nhỏ nhất).
gung - Phục hồi Monica

58

Đây là một nơi mà tôi thấy việc xem xét một số công thức giúp ích, ngay cả đối với những người có một số lo lắng về toán học (tôi không khuyên bạn nên làm như vậy, nhất thiết phải như vậy). Mô hình hồi quy tuyến tính đơn giản là: Điều quan trọng cần lưu ý ở đây là mô hình này rõ ràng cần lưu ý ở đây tuyên bố một khi bạn ước tính thông tin có ý nghĩa trong dữ liệu (đó là " ") không còn gì ngoài tiếng ồn trắng. Hơn nữa, các lỗi được phân phối dưới dạng Bình thường với phương sai .

Y=β0+β1X+εwhere εN(0,σε2)
β0+β1Xσε2

Điều quan trọng là phải nhận ra rằng không phải là một biến số (mặc dù trong đại số cấp trung học cơ sở, chúng tôi sẽ gọi nó là như vậy). Nó không khác nhau. thay đổi. thay đổi. Thuật ngữ lỗi, , thay đổi ngẫu nhiên ; có nghĩa là, nó là một biến ngẫu nhiên . Tuy nhiên, các tham số ( là các phần giữ chỗ cho các giá trị mà chúng tôi không biết - chúng không thay đổi. Thay vào đó, chúng là hằng số chưa biết . Kết quả cuối cùng của cuộc thảo luận này là cho dù là gì (nghĩa là giá trị nào được cắm vào đó),σε2XYεβ0, β1, σε2)Xσε2vẫn như cũ. Nói cách khác, phương sai của sai số / phần dư là không đổi. Để tương phản (và có lẽ rõ ràng hơn), hãy xem xét mô hình này: Trong trường hợp này, chúng tôi cắm một giá trị cho (bắt đầu từ dòng thứ ba) , vượt qua nó thông qua chức năng và nhận được phương sai lỗi mà có được ở đó giá trị chính xác của . Sau đó, chúng tôi di chuyển qua phần còn lại của phương trình như bình thường.

Y=β0+β1X+εwhere εN(0,f(X)) where f(X)=exp(γ0+γ1X)and γ10
Xf(X) X

Các cuộc thảo luận ở trên sẽ giúp hiểu được bản chất của giả định; câu hỏi cũng hỏi về cách đánh giá nó. Về cơ bản có hai cách tiếp cận: kiểm tra giả thuyết chính thức và kiểm tra các ô. Các thử nghiệm về độ không đồng nhất có thể được sử dụng nếu bạn có dữ liệu thử nghiệm (nghĩa là chỉ xảy ra ở các giá trị cố định của ) hoặc ANOVA. Tôi thảo luận về một số thử nghiệm như vậy ở đây: Tại sao Levene kiểm tra sự bằng nhau của phương sai thay vì tỷ lệ FX. Tuy nhiên, tôi có xu hướng nghĩ rằng nhìn vào các mảnh đất là tốt nhất. @Penquin_Knight đã thực hiện tốt việc hiển thị phương sai không đổi trông như thế nào bằng cách vẽ các phần dư của một mô hình nơi độ đồng nhất đạt được so với các giá trị được trang bị. Tính không đồng nhất cũng có thể được phát hiện trong một biểu đồ của dữ liệu thô hoặc trong một biểu đồ vị trí tỷ lệ (còn gọi là mức độ lây lan). R thuận tiện âm mưu sau cho bạn với một cuộc gọi đến plot.lm(model, which=2); nó là căn bậc hai của các giá trị tuyệt đối của các số dư so với giá trị được trang bị với một lowess đường cong helpfully phủ. Bạn muốn phù hợp với lowess là phẳng, không dốc.

Hãy xem xét các sơ đồ dưới đây, so sánh các dữ liệu homoscedastic và heteroscedastic có thể trông như thế nào trong ba loại hình khác nhau này. Lưu ý hình dạng phễu cho hai ô không đồng nhất phía trên và đường thấp dốc lên trên ở ô cuối cùng.

nhập mô tả hình ảnh ở đây

Để đầy đủ, đây là mã mà tôi đã sử dụng để tạo các dữ liệu này:

set.seed(5)

N  = 500
b0 = 3
b1 = 0.4

s2 = 5
g1 = 1.5
g2 = 0.015

x        = runif(N, min=0, max=100)
y_homo   = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2            ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))

mod.homo   = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)

1
cảm ơn nó rất hữu ích Bạn cũng có thể giải thích tại sao chúng ta cần giả định này bằng ngôn ngữ giáo dân
Mukul

5
Không có gì đâu, @Mukul. Giả định về tính đồng nhất (phương sai không đổi) là cần thiết để làm công cụ ước tính OLS (nghĩa là phần mềm thủ tục mặc định sử dụng để ước tính betas) quy trình ước tính sẽ tạo ra các phân phối mẫu của betas có lỗi tiêu chuẩn hẹp nhất trong tất cả các quy trình ước tính mang lại phân phối lấy mẫu được tập trung vào giá trị thực. IE, cần thiết cho công cụ ước tính OLS là công cụ ước tính không thiên vị tối thiểu .
gung - Phục hồi Monica

5
Nếu biến trả lời của bạn là nhị phân , nó sẽ được phân phối dưới dạng nhị thức. IE, nhiều phần của mô hình hồi quy tuyến tính được mô tả ở trên là không phù hợp. Một trong những vấn đề đó là, vì phương sai của nhị thức là hàm của giá trị trung bình (trung bình: , phương sai: ), giả định về tính đồng nhất bị vi phạm. Để hiểu những điều này tốt hơn, có thể giúp đọc câu trả lời của tôi ở đây: mô hình khác biệt giữa logit-và-probit- , mặc dù nó được viết trong một bối cảnh khác. p(p(1p))/n)
gung - Phục hồi Monica

2
@gung trong bình luận của bạn, bạn đặt chữ nghiêng trên tất cả các từ trong cụm từ ước lượng phương sai tối thiểu không thiên vị. Tôi hiểu rằng với tính không đồng nhất, công cụ ước tính sẽ trở nên kém hiệu quả hơn (nhiều phương sai hơn), nhưng nó cũng sẽ trở nên sai lệch?
user1205901 - Phục hồi Monica

5
@ user1205901, nó vẫn không thiên vị.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.