Làm thế nào không chính xác là một mô hình hồi quy khi các giả định không được đáp ứng?


28

Khi điều chỉnh mô hình hồi quy, điều gì xảy ra nếu các giả định của đầu ra không được đáp ứng, cụ thể:

  1. Điều gì xảy ra nếu phần dư không phải là homoscedastic? Nếu phần dư hiển thị mô hình tăng hoặc giảm trong biểu đồ Residuals so với Fited.
  2. Điều gì xảy ra nếu phần dư không được phân phối bình thường và thất bại trong bài kiểm tra Shapiro-Wilk? Kiểm tra tính quy phạm của Shapiro-Wilk là một thử nghiệm rất nghiêm ngặt và đôi khi ngay cả khi âm mưu Bình thường-QQ có vẻ hợp lý, dữ liệu vẫn thất bại trong thử nghiệm.
  3. Điều gì xảy ra nếu một hoặc nhiều dự đoán không được phân phối bình thường, không nhìn đúng vào biểu đồ QQ-bình thường hoặc nếu dữ liệu không thành công trong bài kiểm tra Shapiro-Wilk?

Tôi hiểu rằng không có phân chia đen trắng cứng, rằng 0,94 là đúng và 0,95 là sai và trong câu hỏi, tôi muốn biết:

  1. Điều gì không làm mất tính quy tắc có nghĩa là cho một mô hình phù hợp với giá trị R-Squared. Nó trở nên ít đáng tin cậy, hoặc hoàn toàn vô dụng?
  2. Ở mức độ nào, độ lệch là chấp nhận được, hoặc nó có thể chấp nhận được không?
  3. Khi áp dụng các phép biến đổi trên dữ liệu để đáp ứng các tiêu chí chuẩn, mô hình sẽ tốt hơn nếu dữ liệu bình thường hơn (giá trị P cao hơn trong thử nghiệm Shapiro-Wilk, tìm kiếm tốt hơn trên biểu đồ QQ bình thường) hoặc vô dụng (tốt như nhau hoặc xấu so với bản gốc) cho đến khi dữ liệu vượt qua kiểm tra tính chuẩn?

Tôi nghĩ rằng câu trả lời cho tiêu đề chỉ là "Có".
Thomas Cleberg

@ThomasCleberg Câu trả lời thú vị. Có phải đó là những gì bạn cũng nói khi mọi người hỏi bạn "Bạn có khỏe không?" :)
JohnK

Không, nhưng đó là nếu họ hỏi tôi có còn sống không. :)
Thomas Cleberg

Một câu hỏi cơ bản để tự hỏi: "Bạn muốn sử dụng mô hình hồi quy để làm gì?"
Floris

Câu trả lời:


32

Điều gì xảy ra nếu phần dư không phải là homoscedastic? Nếu phần dư hiển thị mô hình tăng hoặc giảm trong biểu đồ Residuals so với Fited.

Nếu thuật ngữ lỗi không phải là homoscedastic (chúng tôi sử dụng phần dư làm proxy cho thuật ngữ lỗi không quan sát được), công cụ ước tính OLS vẫn nhất quán và không thiên vị nhưng không còn hiệu quả nhất trong lớp các công cụ ước tính tuyến tính. Đó là công cụ ước tính GLS bây giờ thích khách sạn này.

Điều gì xảy ra nếu phần dư không được phân phối bình thường và thất bại trong bài kiểm tra Shapiro-Wilk? Kiểm tra tính quy phạm của Shapiro-Wilk là một thử nghiệm rất nghiêm ngặt và đôi khi ngay cả khi âm mưu Bình thường-QQ có vẻ hợp lý, dữ liệu vẫn thất bại trong thử nghiệm.

Định mức không được yêu cầu bởi định lý Gauss-Markov. Công cụ ước tính OLS vẫn là MÀU XANH nhưng không có tính quy phạm, bạn sẽ gặp khó khăn khi thực hiện suy luận, tức là kiểm tra giả thuyết và khoảng tin cậy, ít nhất là đối với các cỡ mẫu hữu hạn. Vẫn còn bootstrap, tuy nhiên.

Không có triệu chứng, đây không phải là vấn đề vì công cụ ước tính OLS có giới hạn phân phối bình thường trong điều kiện đều đặn nhẹ.

Điều gì xảy ra nếu một hoặc nhiều dự đoán không được phân phối bình thường, không nhìn đúng vào biểu đồ QQ-bình thường hoặc nếu dữ liệu không thành công trong bài kiểm tra Shapiro-Wilk?

Theo như tôi biết thì các yếu tố dự đoán được coi là cố định hoặc hồi quy là điều kiện đối với chúng. Điều này hạn chế ảnh hưởng của tính phi quy phạm.

Điều gì không làm mất tính quy tắc có nghĩa là cho một mô hình phù hợp với giá trị R-Squared. Nó trở nên ít đáng tin cậy, hoặc hoàn toàn vô dụng?

Bình phương R là tỷ lệ phương sai được giải thích bởi mô hình. Nó không đòi hỏi giả định thông thường và đó là thước đo mức độ phù hợp bất kể. Nếu bạn muốn sử dụng nó cho một thử nghiệm F một phần, đó là một câu chuyện hoàn toàn khác.

Ở mức độ nào, độ lệch là chấp nhận được, hoặc nó có thể chấp nhận được không?

Sai lệch so với tính bình thường, phải không? Nó thực sự phụ thuộc vào mục đích của bạn bởi vì như tôi đã nói, suy luận trở nên khó khăn khi không có sự bình thường nhưng không phải là không thể (bootstrap!).

Khi áp dụng các phép biến đổi trên dữ liệu để đáp ứng các tiêu chí chuẩn, mô hình sẽ tốt hơn nếu dữ liệu bình thường hơn (giá trị P cao hơn trong thử nghiệm Shapiro-Wilk, tìm kiếm tốt hơn trên biểu đồ QQ bình thường) hoặc vô dụng (tốt như nhau hoặc xấu so với bản gốc) cho đến khi dữ liệu vượt qua kiểm tra tính chuẩn?

Nói tóm lại, nếu bạn có tất cả các giả định Gauss-Markov cộng với tính quy tắc thì công cụ ước tính OLS là Không thiên vị nhất (BUE), tức là hiệu quả nhất trong tất cả các loại công cụ ước tính - Đạt được giới hạn Cramer-Rao. Điều này là mong muốn tất nhiên nhưng nó không phải là kết thúc của thế giới nếu nó không xảy ra. Những lưu ý trên được áp dụng.

Về các biến đổi, hãy nhớ rằng trong khi phân phối phản hồi có thể được đưa gần hơn với tính quy tắc, thì việc giải thích có thể không đơn giản sau đó.

Đây chỉ là một số câu trả lời ngắn cho câu hỏi của bạn. Bạn dường như đặc biệt quan tâm đến những tác động của tính phi quy tắc. Nhìn chung, tôi sẽ nói rằng nó không thảm khốc như mọi người (đã được thực hiện?) Tin tưởng và có cách giải quyết. Hai tài liệu tham khảo tôi đã đưa vào là một điểm khởi đầu tốt để đọc thêm, đầu tiên có bản chất lý thuyết.

Tài liệu tham khảo :

Hayashi, Fumio. : "Kinh tế lượng.", Nhà xuất bản Đại học Princeton, 2000

Kutner, Michael H., et al. "Các mô hình thống kê tuyến tính ứng dụng.", McGraw-Hill Irwin, 2005.


YXtôiβtôi

2
y

Vâng, cả hai điểm đều đúng, thực sự. Một trong những giả thuyết của GM thực sự là mô hình lý tưởng là tuyến tính trong , xem: en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem Đồng thời, đúng như bạn nói: OLS là một công cụ ước tính của β iβtôiβtôiYY1,Giáo dục,Yn

@DeltaIV Ý bạn là gì bởi "hình mẫu lý tưởng"? Đây là mô hình thực sự tuyến tính trong các tham số. Điều đó không hạn chế chúng tôi tuy nhiên trong việc xem xét như các công cụ ước tính chỉ có chức năng tuyến tính của phản hồi. GM tuyên bố rằng nếu chúng ta hạn chế sự chú ý của mình trong các chức năng tuyến tính của phản hồi, thì OLS là MÀU XANH theo một số giả định bổ sung. Bây giờ, nếu chúng ta cũng giả sử tính bình thường thì cho dù bạn đang xem xét chức năng nào của phản hồi , bạn chỉ đơn giản là không thể làm tốt hơn OLS, tất nhiên với điều kiện là công cụ ước tính không thiên vị.
JohnK

Ytôiβtôi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.