Đây là một nơi mà tôi thấy việc xem xét một số công thức giúp ích, ngay cả đối với những người có một số lo lắng về toán học (tôi không khuyên bạn nên làm như vậy, nhất thiết phải như vậy). Mô hình hồi quy tuyến tính đơn giản là:
Điều quan trọng cần lưu ý ở đây là mô hình này rõ ràng cần lưu ý ở đây tuyên bố một khi bạn ước tính thông tin có ý nghĩa trong dữ liệu (đó là " ") không còn gì ngoài tiếng ồn trắng. Hơn nữa, các lỗi được phân phối dưới dạng Bình thường với phương sai .
Y=β0+β1X+εwhere ε∼N(0,σ2ε)
β0+β1Xσ2ε
Điều quan trọng là phải nhận ra rằng không phải là một biến số (mặc dù trong đại số cấp trung học cơ sở, chúng tôi sẽ gọi nó là như vậy). Nó không khác nhau. thay đổi. thay đổi. Thuật ngữ lỗi, , thay đổi ngẫu nhiên ; có nghĩa là, nó là một biến ngẫu nhiên . Tuy nhiên, các tham số ( là các phần giữ chỗ cho các giá trị mà chúng tôi không biết - chúng không thay đổi. Thay vào đó, chúng là hằng số chưa biết . Kết quả cuối cùng của cuộc thảo luận này là cho dù là gì (nghĩa là giá trị nào được cắm vào đó),σ2εXYεβ0, β1, σ2ε)Xσ2εvẫn như cũ. Nói cách khác, phương sai của sai số / phần dư là không đổi. Để tương phản (và có lẽ rõ ràng hơn), hãy xem xét mô hình này:
Trong trường hợp này, chúng tôi cắm một giá trị cho (bắt đầu từ dòng thứ ba) , vượt qua nó thông qua chức năng và nhận được phương sai lỗi mà có được ở đó giá trị chính xác của . Sau đó, chúng tôi di chuyển qua phần còn lại của phương trình như bình thường.
Y=β0+β1X+εwhere ε∼N(0,f(X)) where f(X)=exp(γ0+γ1X)and γ1≠0
Xf(X) X
Các cuộc thảo luận ở trên sẽ giúp hiểu được bản chất của giả định; câu hỏi cũng hỏi về cách đánh giá nó. Về cơ bản có hai cách tiếp cận: kiểm tra giả thuyết chính thức và kiểm tra các ô. Các thử nghiệm về độ không đồng nhất có thể được sử dụng nếu bạn có dữ liệu thử nghiệm (nghĩa là chỉ xảy ra ở các giá trị cố định của ) hoặc ANOVA. Tôi thảo luận về một số thử nghiệm như vậy ở đây: Tại sao Levene kiểm tra sự bằng nhau của phương sai thay vì tỷ lệ FX. Tuy nhiên, tôi có xu hướng nghĩ rằng nhìn vào các mảnh đất là tốt nhất. @Penquin_Knight đã thực hiện tốt việc hiển thị phương sai không đổi trông như thế nào bằng cách vẽ các phần dư của một mô hình nơi độ đồng nhất đạt được so với các giá trị được trang bị. Tính không đồng nhất cũng có thể được phát hiện trong một biểu đồ của dữ liệu thô hoặc trong một biểu đồ vị trí tỷ lệ (còn gọi là mức độ lây lan). R thuận tiện âm mưu sau cho bạn với một cuộc gọi đến plot.lm(model, which=2)
; nó là căn bậc hai của các giá trị tuyệt đối của các số dư so với giá trị được trang bị với một lowess đường cong helpfully phủ. Bạn muốn phù hợp với lowess là phẳng, không dốc.
Hãy xem xét các sơ đồ dưới đây, so sánh các dữ liệu homoscedastic và heteroscedastic có thể trông như thế nào trong ba loại hình khác nhau này. Lưu ý hình dạng phễu cho hai ô không đồng nhất phía trên và đường thấp dốc lên trên ở ô cuối cùng.
Để đầy đủ, đây là mã mà tôi đã sử dụng để tạo các dữ liệu này:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)