Cách tốt nhất để đối phó với sự không đồng nhất?


19

Tôi có một biểu đồ các giá trị còn lại của một mô hình tuyến tính có chức năng của các giá trị được trang bị trong đó độ không đồng nhất rất rõ ràng. Tuy nhiên tôi không chắc chắn làm thế nào tôi nên tiến hành ngay bây giờ bởi vì theo như tôi hiểu thì tính không đồng nhất này làm cho mô hình tuyến tính của tôi không hợp lệ. (Có đúng không?)

  1. Sử dụng khớp nối tuyến tính mạnh mẽ bằng cách sử dụng rlm()chức năng của MASSgói vì nó rõ ràng là mạnh mẽ đối với tính không đồng nhất.

  2. Vì các lỗi tiêu chuẩn của các hệ số của tôi là sai vì tính không đồng nhất, tôi chỉ có thể điều chỉnh các lỗi tiêu chuẩn để mạnh mẽ đến độ không đồng nhất? Sử dụng phương pháp được đăng trên Stack Overflow tại đây: Hồi quy với Heteroskedasticity Sửa lỗi tiêu chuẩn đã sửa

Đó sẽ là phương pháp tốt nhất để sử dụng để giải quyết vấn đề của tôi? Nếu tôi sử dụng giải pháp 2 thì khả năng dự đoán mô hình của tôi hoàn toàn vô dụng?

Thử nghiệm Breusch-Pagan xác nhận rằng phương sai không phải là hằng số.

Phần dư của tôi trong chức năng của các giá trị được trang bị trông như thế này:

https://i.gyazo.com/9407a829a168492b31dfa3d1dd33a21d.png

(phiên bản lớn hơn)


Bạn có nghĩa là 'stackoverflow' chứ không phải 'stackexchange'? .
Glen_b -Reinstate Monica

Sự khác biệt về mức độ lây lan không nhiều đến mức ảnh hưởng sẽ nghiêm trọng (nghĩa là, trong khi nó sẽ thiên vị các lỗi tiêu chuẩn của bạn và do đó suy luận về tác động, có lẽ nó sẽ không tạo ra sự khác biệt lớn). Tôi có khuynh hướng xem xét liệu sự lây lan có liên quan đến ý nghĩa hay không, và có lẽ nhìn vào GLM hoặc có thể chuyển đổi (nó chắc chắn có vẻ liên quan đến trang bị). Biến y là gì?
Glen_b -Reinstate Monica

2
Một khả năng khác là mô hình hóa tính không đồng nhất, ví dụ, sử dụng glsvà một trong các cấu trúc phương sai từ gói nlme.
Roland

Câu trả lời:


18

Đó là một câu hỏi hay, nhưng tôi nghĩ đó là câu hỏi sai. Hình của bạn cho thấy rõ rằng bạn có một vấn đề cơ bản hơn là tính không đồng nhất, tức là mô hình của bạn có tính phi tuyến mà bạn chưa tính đến. Nhiều vấn đề tiềm ẩn mà một mô hình có thể có (phi tuyến, tương tác, ngoại lệ, không đồng nhất, không quy tắc) có thể giả trang lẫn nhau. Tôi không nghĩ có một quy tắc khó và nhanh, nhưng nói chung tôi sẽ đề nghị xử lý các vấn đề theo thứ tự

outliers > nonlinearity > heteroscedasticity > non-normality

(vd

Trong trường hợp cụ thể này, tôi sẽ phù hợp với một mô hình bậc hai y ~ poly(x,2)(hoặc poly(x,2,raw=TRUE)hoặc y ~ x + I(x^2)xem liệu nó có làm cho vấn đề biến mất không.


Cốt truyện nhỏ & các trục không được dán nhãn. Tôi không biết nếu đó là phần dư so với cốt truyện được trang bị. Tôi giả sử OP bao gồm một thuật ngữ bình phương, ví dụ. Nếu không, bạn rõ ràng đúng.
gung - Phục hồi Monica

1
trong trình duyệt của tôi, tôi có thể thấy rằng phạm vi trục y đi từ -4 đến 3, dường như gợi ý phần dư so với âm mưu được trang bị / loại trừ âm mưu vị trí tỷ lệ ...
Ben Bolker

1
Chào Ben, yêu những gì bạn làm. Bạn có thể mở rộng ý tưởng rằng "ngoại lệ" là vấn đề lớn nhất không? Bạn có bao gồm các điểm đòn bẩy cao duy nhất là "ngoại lệ" ngay cả khi chúng có số dư nhỏ không? Tôi luôn luôn đối phó với các quan sát giá trị cực đoan trong công việc của mình (thống kê môi trường) và tôi thấy rằng một số người (đặc biệt là EPA) có xu hướng thổi phồng ra khỏi tỷ lệ (tha thứ cho bất kỳ sự trừng phạt vô ý nào) và là cách để háo hức để loại trừ chúng. Tôi có xu hướng chấp nhận một thái độ khoan dung đối với những người ngoài cuộc nếu tôi không thể tìm thấy bằng chứng tốt cho thấy họ rõ ràng là kết quả của lỗi dữ liệu (thu thập, nhập cảnh).
Dalton Hance

1
@DaltonHance: có lẽ chúng ta có khá nhiều trên cùng một trang. Quan điểm của tôi chỉ là nếu bạn có các ngoại lệ (theo bất kỳ định nghĩa nào) và chúng không được tính đến bởi bất kỳ mô hình / phương pháp thống kê nào bạn đang sử dụng (mô hình hỗn hợp, thống kê mạnh mẽ, phân phối có đuôi, v.v.), thì nó sẽ có xu hướng làm hỏng tất cả các phần còn lại của chẩn đoán của bạn - nó sẽ làm cho phần dư trông không tuyến tính / không đồng nhất / không bình thường. Tôi chắc chắn đồng ý rằng bạn không nên suy nghĩ / phản xạ ném chúng ra ngoài.
Ben Bolker

8

Tôi liệt kê một số phương pháp xử lý sự không đồng nhất (có Rví dụ) ở đây: Các phương pháp thay thế cho ANOVA một chiều cho dữ liệu không đồng nhất . Nhiều trong số những đề xuất đó sẽ ít lý tưởng hơn vì bạn có một biến liên tục duy nhất, thay vì một biến phân loại đa cấp, nhưng dù sao cũng có thể đọc qua như một tổng quan.

Đối với tình huống của bạn, bình phương tối thiểu có trọng số (có thể kết hợp với hồi quy mạnh nếu bạn nghi ngờ có thể có một số ngoại lệ) sẽ là một lựa chọn hợp lý. Sử dụng các lỗi bánh sandwich Huber-White cũng sẽ tốt.

Dưới đây là một số câu trả lời cho câu hỏi cụ thể của bạn:

  1. Hồi quy mạnh mẽ là một lựa chọn khả thi, nhưng sẽ tốt hơn nếu kết hợp với trọng số theo ý kiến ​​của tôi. Nếu bạn không lo lắng rằng sự không đồng nhất là do ngoại lệ, bạn chỉ có thể sử dụng hồi quy tuyến tính thông thường với trọng số. Xin lưu ý rằng phương sai có thể rất nhạy cảm với các ngoại lệ và kết quả của bạn có thể nhạy cảm với các trọng số không phù hợp, vì vậy điều quan trọng hơn là sử dụng hồi quy mạnh cho mô hình cuối cùng sẽ sử dụng một biện pháp phân tán mạnh mẽ để ước tính các trọng số. Trong chuỗi liên kết, tôi sử dụng 1 / IQR chẳng hạn.
  2. Các lỗi tiêu chuẩn là sai vì tính không đồng nhất. Bạn có thể điều chỉnh các lỗi tiêu chuẩn với công cụ ước tính sandwich Huber-White. Đó là những gì @GavinSimpson đang làm trong luồng SO được liên kết.

XX


1
sử dụng hồi quy mạnh mẽ từ gói lmrob sẽ tự động suy ra một số trọng số, tại sao không sử dụng các mức thay thế trong # 1?
tool.ish

1

Tải sandwich packagevà tính toán ma trận var-cov của hồi quy của bạn với var_cov<-vcovHC(regression_result, type = "HC4")(đọc hướng dẫn sử dụng sandwich). Bây giờ với chức năng lmtest packagesử dụng coeftest:

coeftest(regression_result, df = Inf, var_cov)

0

Làm thế nào để phân phối dữ liệu của bạn trông như thế nào? Nó trông giống như một đường cong chuông ở tất cả? Từ các vấn đề, nó có thể được phân phối bình thường ở tất cả? Thời lượng của một cuộc gọi điện thoại có thể không âm, ví dụ. Vì vậy, trong trường hợp cụ thể của các cuộc gọi, phân phối gamma mô tả nó tốt. Và với gamma, bạn có thể sử dụng mô hình tuyến tính tổng quát (glm in R)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.