Giả định của mô hình tuyến tính và phải làm gì nếu phần dư không được phân phối bình thường


22

Tôi hơi bối rối về các giả định của hồi quy tuyến tính là gì.

Cho đến nay tôi đã kiểm tra xem:

  • tất cả các biến giải thích tương quan tuyến tính với biến trả lời. (Đây là trường hợp)
  • có bất kỳ sự cộng tác nào giữa các biến giải thích. (có ít sự cộng tác).
  • khoảng cách của các điểm dữ liệu của mô hình của tôi là dưới 1 (đây là trường hợp, tất cả các khoảng cách đều dưới 0,4, vì vậy không có điểm ảnh hưởng nào).
  • phần dư được phân phối bình thường. (Điều này có thể không phải là trường hợp)

Nhưng sau đó tôi đọc như sau:

vi phạm tính quy phạm thường phát sinh do (a) phân phối của các biến phụ thuộc và / hoặc độc lập tự chúng không bình thường đáng kể và / hoặc (b) giả định tuyến tính bị vi phạm.

Câu hỏi 1 Điều này làm cho âm thanh như thể các biến độc lập và phụ thuộc cần được phân phối bình thường, nhưng theo như tôi biết thì đây không phải là trường hợp. Biến phụ thuộc của tôi cũng như một trong các biến độc lập của tôi thường không được phân phối. Họ có nên?

Câu hỏi 2 Cốt truyện QQ của tôi về phần dư trông như thế này:

normality check of residuals

Điều đó hơi khác với phân phối bình thường và shapiro.testcũng bác bỏ giả thuyết khống rằng phần dư là từ phân phối bình thường:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Phần dư so với giá trị được trang bị trông như sau:

residuals vs fitted

Tôi có thể làm gì nếu phần dư của tôi không được phân phối bình thường? Có nghĩa là mô hình tuyến tính là hoàn toàn vô dụng?


3
Phần dư của bạn so với âm mưu được trang bị cho thấy rằng biến phụ thuộc của bạn có giới hạn thấp hơn. Điều này có thể lái các mô hình bạn nhìn thấy. Điều này có thể cung cấp cho bạn một chỉ dẫn cho các mô hình thay thế mà bạn có thể xem xét.
Maarten Buis

Câu trả lời:


25

Trước hết, tôi sẽ lấy cho mình một bản sao của bài viết cổ điển và dễ tiếp cận này và đọc nó: Anscombe FJ. (1973) Đồ thị trong phân tích thống kê Thống kê người Mỹ . 27: 17, 2121.

Về câu hỏi của bạn:

Trả lời 1: Không phải biến phụ thuộc hay biến độc lập cần được phân phối bình thường. Trong thực tế, họ có thể có tất cả các loại phân phối loopy. Giả định bình thường áp dụng đối với sự phân bố của các lỗi ( YiY^i ).

Trả lời 2: Bạn thực sự đang hỏi về hai giả định riêng biệt về hồi quy bình phương nhỏ nhất (OLS):

  1. Một là giả định về tuyến tính . Điều này có nghĩa là mối quan hệ giữa YX được biểu thị bằng một đường thẳng (Phải? Quay lại đại số: y=a+bx , trong đó ay intercept và b là độ dốc của đường.) Vi phạm giả định này đơn giản có nghĩa là mối quan hệ không được mô tả tốt bằng một đường thẳng (ví dụ: Y là một hàm hình sin của Xhoặc một hàm bậc hai, hoặc thậm chí là một đường thẳng thay đổi độ dốc tại một số điểm). Cách tiếp cận hai bước ưa thích của riêng tôi để giải quyết vấn đề phi tuyến tính là (1) thực hiện một số loại hồi quy làm mịn không tham số để đề xuất các mối quan hệ chức năng phi tuyến cụ thể giữa YX (ví dụ: sử dụng THẤP , hoặc GAM , v.v.), và (2) để xác định một mối quan hệ chức năng bằng cách sử dụng một hồi quy nhiều bao gồm tính chất phi tuyến trong X , (ví dụ, YX+X2 ), hoặc một hình vuông hồi quy nhất phi tuyến mô hình bao gồm tính chất phi tuyến trong thông số của X (ví dụ như YX+max(Xθ,0) , trong đóθ biểu thị điểm tại đó đường hồi quy củaY trênX thay đổi độ dốc).

  2. Khác là giả định của phần dư phân phối bình thường. Đôi khi người ta có thể thoát khỏi những phần dư không bình thường trong bối cảnh OLS; xem ví dụ, Lumley T, Emerson S. (2002) Tầm quan trọng của giả định về tính quy phạm trong các bộ dữ liệu y tế công cộng lớn . Đánh giá hàng năm về sức khỏe cộng đồng . 23: 151 bóng69. Đôi khi, người ta không thể (một lần nữa, xem bài viết Anscombe).

Tuy nhiên, tôi khuyên bạn nên suy nghĩ về các giả định trong OLS không nhiều như các thuộc tính mong muốn của dữ liệu của bạn, mà là các điểm khởi hành thú vị để mô tả bản chất. Rốt cuộc, hầu hết những gì chúng ta quan tâm trên thế giới thú vị hơn so với y intercept và dốc. Vi phạm sáng tạo các giả định OLS (với các phương pháp thích hợp) cho phép chúng tôi hỏi và trả lời các câu hỏi thú vị hơn.


2
Cảm ơn! Trong các trang trình bày của một số khóa học thống kê, nó nói rằng nếu các giả định thất bại, bạn có thể cố gắng biến đổi Y hoặc biến đổi các biến giải thích. Khi tôi biến đổi Y bằng cách thực hiện ví dụ lm (Y ^ 0,3 ~ + X1 + X2 + ...) thì phần dư của tôi sẽ trở nên phân phối bình thường. Đây có phải là một điều hợp lệ để làm?
Stefan

@Stefan Vâng! Chuyển đổi một phản ứng thường là một việc nên làm log, và biến đổi sức mạnh đơn giản là phổ biến.
Gregor

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@Alexis: Tại sao các trang này nói rằng các biến phải được phân phối bình thường? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/...
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

Vấn đề đầu tiên của bạn là

  • mặc dù đảm bảo của bạn, âm mưu còn lại cho thấy đáp ứng mong đợi có điều kiện không tuyến tính trong các giá trị được trang bị; mô hình cho trung bình là sai.

  • bạn không có phương sai liên tục. Mô hình cho phương sai là sai.

bạn thậm chí không thể đánh giá tính bình thường với những vấn đề đó.


Xin hãy giải thích về cách bạn đã kết luận về tuyến tính bằng cách nhìn vào các ô? Tôi hiểu rằng giả định homoskedasticity không được đáp ứng ở đây.
Bác sĩ Nisha Arora

y^y^=30060<00303060>60), vẽ ước tính tốt nhất của bạn về một đường thẳng. Đối với tôi, hai cái giữa gần như trùng khớp, vì vậy tôi đã kết hợp các dòng của chúng, đưa ra một cái gì đó như thế này
Glen_b -Reinstate Monica

Ở nửa giữa, gần như tất cả các phần dư là âm, ở phần bên ngoài gần như tất cả các phần dư là dương. Đây không phải là số dư ngẫu nhiên trông như thế nào.
Glen_b -Reinstate Monica

Cảm ơn, @Glen_b. Sau một khoảng cách dài, tôi đang xem lại các khái niệm của mình để không thể hình dung ngay từ đầu.
Bác sĩ Nisha Arora

Mặc dù không có nhiều thứ để tiếp tục ở đây, tôi hy vọng dữ liệu gốc không âm tính và mô hình tuyến tính tổng quát (có thể là gamma với liên kết log) hoặc chuyển đổi (có thể là chuyển đổi log) sẽ là lựa chọn phù hợp hơn .
Glen_b -Reinstate Monica

3

Tôi sẽ không nói mô hình tuyến tính là hoàn toàn vô dụng. Tuy nhiên, điều này có nghĩa là mô hình của bạn không giải thích chính xác / đầy đủ dữ liệu của bạn. Có một phần mà bạn phải quyết định xem mô hình có "đủ tốt" hay không.

Đối với câu hỏi đầu tiên của bạn, tôi không nghĩ rằng mô hình hồi quy tuyến tính giả định rằng các biến phụ thuộc và độc lập của bạn phải bình thường. Tuy nhiên, có một giả định về tính quy luật của phần dư.

Đối với câu hỏi thứ hai của bạn, có hai điều khác nhau bạn có thể xem xét:

  1. Kiểm tra các loại mô hình khác nhau. Một mô hình khác có thể tốt hơn để giải thích dữ liệu của bạn (ví dụ: hồi quy phi tuyến tính, v.v.). Bạn vẫn sẽ phải kiểm tra xem các giả định của "mô hình mới" này không bị vi phạm.
  2. Dữ liệu của bạn có thể không chứa đủ đồng biến (biến phụ thuộc) để giải thích phản hồi (kết quả). Trong trường hợp này, bạn không thể làm gì khác. Đôi khi, chúng tôi có thể chấp nhận kiểm tra xem phần dư có tuân theo phân phối khác không (ví dụ: phân phối t) nhưng dường như đó không phải là trường hợp dành cho bạn.

Ngoài câu hỏi của bạn, tôi thấy rằng QQPlot của bạn không được "bình thường hóa". Thông thường nó là dễ dàng hơn để nhìn vào cốt truyện khi dư của bạn được chuẩn hóa, xem stdres .

stdres(lmobject)

Tôi hy vọng nó sẽ giúp bạn, có thể người khác sẽ giải thích điều này tốt hơn tôi.


0

Ngoài câu trả lời trước, tôi muốn thêm một số điểm để cải thiện mô hình của bạn:

  1. Đôi khi sự không bình thường của phần dư cho thấy sự hiện diện của các ngoại lệ. Nếu đây là trường hợp, xử lý các ngoại lệ đầu tiên.

  2. Có thể được sử dụng một số biến đổi giải quyết mục đích.

  3. Ngoài ra, để đối phó với đa quốc gia, bạn có thể tham khảo https://www.researchgate.net/post/My_data_has_the_pro Hiệu_of_multicolinearity_Removing_unique_variabled_USE_variance_inflation_factor_VIF_didnt_work


-1

Đối với câu hỏi thứ hai của bạn,

Một điều xảy ra với tôi trong thực tế là tôi đã phản ứng thái quá với nhiều biến số độc lập. Trong mô hình quá mức tôi có phần dư không bình thường. Mặc dù vậy, các kết quả đã xác định rằng không có bằng chứng nào đủ để loại bỏ khả năng rằng một số hệ số là 0 (với giá trị p-pater hơn 0,2). Vì vậy, trong một mô hình thứ hai, loại bỏ các biến theo quy trình lựa chọn lạc hậu, tôi nhận được các phần dư bình thường được xác nhận cả về mặt đồ họa với một qqplot và bằng cách kiểm tra hypotesis bằng thử nghiệm Shapiro-Wilk. Kiểm tra nếu đây có thể là trường hợp của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.