Hồi quy khi phần dư OLS không được phân phối bình thường


43

Có một số chủ đề trên trang web này thảo luận như thế nào để xác định nếu dư OLS được tiệm phân phối bình thường. Một cách khác để đánh giá tính quy phạm của phần dư với mã R được cung cấp trong câu trả lời xuất sắc này . Đây là một cuộc thảo luận khác về sự khác biệt thực tế giữa phần dư được chuẩn hóa và quan sát được.

Nhưng hãy nói rằng phần dư chắc chắn không được phân phối bình thường, như trong ví dụ này . Ở đây chúng ta có hàng ngàn quan sát và rõ ràng chúng ta phải từ chối giả định phân phối dư thường. Một cách để giải quyết vấn đề là sử dụng một số hình thức ước tính mạnh mẽ như được giải thích trong câu trả lời. Tuy nhiên tôi không giới hạn ở OLS và trong thực tế tôi muốn hiểu lợi ích của các phương pháp glm hoặc phi tuyến tính khác.

Cách hiệu quả nhất để mô hình hóa dữ liệu vi phạm quy tắc OLS của giả định dư là gì? Hoặc ít nhất những gì nên là bước đầu tiên để phát triển một phương pháp phân tích hồi quy âm thanh?


5
Ngoài ra còn có một số chủ đề thảo luận về sự bình thường về cơ bản là không liên quan cho nhiều mục đích. Nếu bạn có các quan sát độc lập và ít nhất là cỡ mẫu vừa phải, điều duy nhất quan trọng đối với suy luận OLS là tất cả các phần dư có cùng phương sai. Không bình thường. Nếu bạn sử dụng các ước tính mạnh mẽ / không đồng nhất / nhất quán / sandwich / Huber-Eicker-White về lỗi tiêu chuẩn thì ngay cả yêu cầu phương sai không đổi cũng không bắt buộc.
khách

@guest Tôi chỉ đọc về hiệu quả kiểm tra tính quy phạm trong chủ đề đó. Phân tích hồi quy thậm chí không được gắn thẻ.
Robert Kubrick

Hãy thử này . Đây là một liên kết bên ngoài . Và xem các chương OLS của ví dụ Stock và Watson, Giới thiệu về Kinh tế lượng . Tôi thề tôi không làm những thứ này lên!
khách

@guest Hai liên kết liên quan đến phân phối chuẩn của các kết quả, không phải là phần dư.
Robert Kubrick

1
Không, họ không có. Các tác giả thường gọi "phân phối của Y" là một cách viết tắt cho "phân phối của Y có điều kiện trên X". Để trở lại câu hỏi ban đầu của bạn; trừ khi bạn có một mẫu nhỏ hoặc dữ liệu đuôi nặng, sử dụng OLS với các lỗi tiêu chuẩn mạnh là bước đầu tiên tốt. Trong những trường hợp này, Normality chỉ là một vấn đề.
khách

Câu trả lời:


53

Ước tính bình phương tối thiểu thông thường vẫn là một ước lượng hợp lý khi đối mặt với các lỗi không bình thường. Cụ thể, Định lý Gauss-Markov nói rằng ước lượng bình phương nhỏ nhất bình thường là ước lượng không thiên vị tuyến tính tốt nhất (BLUE) của các hệ số hồi quy ('Tốt nhất' có nghĩa là tối ưu về mặt tối thiểu hóa sai số bình phương trung bình ) miễn là sai số bình phương )

(1) có nghĩa là không

(2) không tương quan

(3) có phương sai không đổi

Lưu ý rằng không có điều kiện về tính quy tắc ở đây (hoặc thậm chí bất kỳ điều kiện nào là các lỗi là IID ).

Điều kiện thông thường có hiệu lực khi bạn đang cố gắng đạt được khoảng tin cậy và / hoặc giá trị . Như @MichaelCécick đề cập (+1, btw), bạn có thể sử dụng suy luận mạnh mẽ khi các lỗi không bình thường miễn là có thể xử lý theo quy tắc - ví dụ như (như chúng ta đã thảo luận trong chủ đề này ) Huber -estimator có thể cung cấp suy luận mạnh mẽ khi phân phối lỗi thực sự là hỗn hợp giữa phân phối bình thường và phân phối đuôi dài (ví dụ của bạn trông giống như vậy) nhưng có thể không hữu ích cho các lần khởi hành khác từ quy tắc. Một khả năng thú vị mà Michael ám chỉ là bootstrapping để có được khoảng tin cậy cho các ước tính OLS và xem cách so sánh này với suy luận dựa trên Huber.MpM

Chỉnh sửa: Tôi thường nghe nói rằng bạn có thể dựa vào Định lý giới hạn trung tâm để xử lý các lỗi không bình thường - điều này không phải lúc nào cũng đúng (tôi không chỉ nói về các phản ứng mẫu khi định lý thất bại). Trong ví dụ dữ liệu thực tế mà OP đề cập, chúng tôi có cỡ mẫu lớn nhưng có thể thấy bằng chứng về phân phối lỗi dài - trong trường hợp bạn có lỗi kéo dài, bạn không nhất thiết phải dựa vào Định lý giới hạn trung tâm để đưa ra bạn suy luận không thiên vị cho các cỡ mẫu hữu hạn thực tế. Ví dụ: nếu các lỗi tuân theo phân phối với độ tự do (không rõ ràng hơn2,01t2.01 dài hơn so với các lỗi đã thấy trong dữ liệu của OP), các ước tính hệ số được phân phối một cách bất thường, nhưng sẽ mất nhiều thời gian hơn để "khởi động" so với các phân phối đuôi ngắn khác.

Dưới đây, tôi chứng minh bằng một mô phỏng thô ở Rchỗ khi , trong đó , phân phối lấy mẫu của vẫn còn khá dài ngay cả khi cỡ mẫu là :ε i ~ t 2,01 β 1 n = 4000yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

nhập mô tả hình ảnh ở đây


2
+1, đây là một tổng quan thực sự tuyệt vời của chủ đề. Tôi đặc biệt đánh giá cao việc chỉnh sửa. Có điều gì đặc biệt về không? Điều đó có vẻ hết sức cụ thể. df=2.01
gung - Phục hồi Monica

2
@gung, Cảm ơn - Tôi đã chọn do phương sai của biến ngẫu nhiên phân phối không tồn tại khi và do đó định lý giới hạn trung tâm sẽ không áp dụng. t d f 2df=2.01tdf2
Macro

1
@guest, đây là một ví dụ giả định chỉ để cho thấy rằng bạn không thể tin tưởng một cách mù quáng vào CLT khi bạn có lỗi kéo dài. Tôi đồng ý rằng điều này là cực kỳ đối với nhiều ứng dụng nhưng trong ví dụ ( stats.stackexchange.com/questions/29636/ mẹo ) mà OP đã đề cập, dữ liệu hiển thị phân phối lỗi rất dài - hình dạng hơi khác so với phân phối, nhưng nó không phải là rõ ràng ít đuôi dài, và nó đã làm kết quả từ dữ liệu thực tế. Tôi đã chỉnh sửa "Chỉnh sửa" của mình để làm nổi bật điều này. t2.01
Macro

2
p

2
@guest, tôi chưa bao giờ tranh cãi với OLS. Trên thực tế, tôi nghĩ rằng một phần lớn câu trả lời của tôi là OLS là một điều hợp lý để làm, bất kể mọi giả định phân phối. Tôi cũng không bao giờ lập luận rằng phải tuân thủ quy tắc nghiêm ngặt để suy luận - điều tôi đang nói là, khi bạn có lỗi kéo dài, suy luận dựa trên xấp xỉ bình thường có thể gây hiểu nhầm (tôi không chắc là như thế nào / nếu điều này không đồng ý tất cả với những gì bạn đang nói) và người ta sẽ được khuyên nên cân nhắc một giải pháp thay thế (ví dụ bootstrap). .
Macro

10

Tôi nghĩ rằng bạn muốn xem xét tất cả các thuộc tính của phần dư.

  1. tính quy luật
  2. phương sai không đổi
  3. tương quan với một hiệp phương sai.
  4. kết hợp ở trên

Nếu nó chỉ là 1 và đó là do các loại rượu nặng hoặc xiên do một cái đuôi nặng, hồi quy mạnh mẽ có thể là một cách tiếp cận tốt hoặc có thể là một sự chuyển đổi sang tính quy tắc. Nếu đó là một phương sai không cố định, hãy thử một phép biến đổi ổn định phương sai hoặc cố gắng mô hình hóa hàm phương sai. Nếu nó chỉ là 3 gợi ý một dạng mô hình khác liên quan đến hiệp phương sai đó. Dù vấn đề khởi động các vectơ hay reiduals luôn là một lựa chọn.


Đối với 1, bạn có thể xây dựng một chút về việc chuyển đổi thành bình thường cho phần dư đuôi nặng không?
Robert Kubrick

2
chuyển đổi log hoặc Box-Cox với lambda nhỏ thu nhỏ đuôi. Điều đó có thể làm việc cho một số phân phối nặng và sai lệch. Tôi không biết nếu có bất kỳ biến đổi nào sẽ hoạt động cho các bản phân phối rất nặng.
Michael Chernick

3
Michael trả lời tốt đẹp. Tôi đã bắt đầu sử dụng bootstrap thường xuyên hơn cho các khoảng tin cậy liên quan đến ước tính hồi quy và độ tương phản chung, và đã làm điều này dễ dàng thực hiện trong rmsgói R của tôi . Nhưng như bạn đã đề xuất, việc tìm kiếm một phép biến đổi giúp cải thiện độ ổn định của phương sai và đôi khi cải thiện tính quy tắc của phần dư thường có một số lợi thế, ngay cả khi chúng ta khởi động. Các ước lượng bình phương nhỏ nhất sử dụng phép biến đổi "sai" có thể rất kém hiệu quả và dẫn đến sai số tuyệt đối trung bình tuyệt đối và trung bình lớn trong các dự đoán. Tôi cũng thích sử dụng mô hình hồi quy bán đảo.
Frank Harrell

2

Kinh nghiệm của tôi là hoàn toàn phù hợp với Michael Chernick. Đôi khi không chỉ áp dụng chuyển đổi dữ liệu làm cho lỗi mô hình hóa được phân phối bình thường, nó cũng có thể sửa lỗi không đồng nhất.

Xin lỗi, nhưng để đề xuất khác như thu thập một lượng dữ liệu điên rồ, hoặc sử dụng các phương pháp hồi quy mạnh mẽ kém hiệu quả, theo quan điểm của tôi, là thực hành khoa học / nghệ thuật này.


1

Macro (jsut ở trên) đã nêu câu trả lời đúng. Chỉ cần một số chính xác bởi vì tôi có cùng một câu hỏi

Điều kiện về tính quy tắc của phần dư là hữu ích khi phần dư cũng là homoskedastic. Kết quả là OLS có phương sai nhỏ nhất giữa tất cả các công cụ ước tính (tuyến tính HOẶC phi tuyến tính).

Các giả định OLS mở rộng:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. Ngoại lệ lớn là hiếm
  4. bạn là người đồng tính
  5. u được phân phốiN(0,σ2)

nếu 1-5 được xác minh, thì OLS có phương sai nhỏ nhất giữa tất cả các công cụ ước tính (tuyến tính HOẶC phi tuyến tính) .

nếu chỉ được xác minh 1-4, thì theo Gauss-Markov, OLS là công cụ ước tính tuyến tính (chỉ!) tốt nhất (BLUE).

Nguồn: Stock và Watson, Kinh tế lượng + khóa học của tôi (EPFL, Kinh tế lượng)


Không có yêu cầu về tính quy tắc cho bình phương tối thiểu thông thường trong phần dư y, mặc dù tính quy tắc có một số tính chất mong muốn, ví dụ, để phân tích khả năng tối đa. Thứ hai thường được sử dụng cho tiêu chí thông tin Akaike. Tuy nhiên, điều này là hạn chế không cần thiết, không thường xuyên gặp phải và yêu cầu chính thức hơn là tính đồng nhất, không phải tính quy tắc, điều may mắn vì trong trường hợp ngược lại, sẽ có rất ít sử dụng cho bình phương tối thiểu thông thường trong y.
Carl

@Carl: nói đúng là không có yêu cầu nào đối với OLS, thậm chí không phải 1 hoặc 2 (yêu cầu Excel chạy hồi quy và sẽ không có câu hỏi nào được hỏi): tính quy tắc là một trong một số tính chất giúp suy luận hợp lý, ví dụ như dự đoán, độ tin cậy khoảng thời gian, kiểm tra.
PatrickT

@PatrickT Khả năng tính toán một cái gì đó không mang lại ý nghĩa. Ví dụ, hồi quy tuyến tính OLS về một dòng có lỗi -value phân tán Cauchy làm tăng độ dốc của CI và chặn để thừa nhận hầu như mọi thứ, nó không trả về đường ban đầu hoặc độ dốc. Người ta có thể gọi đây là một phép tính Pyrros. y
Carl

Chúng ta phải nói điều tương tự. Có lẽ cụm từ bình luận đầu tiên của bạn làm tôi bối rối.
PatrickT

1

Đối với các điều kiện không bình thường, đôi khi người ta sẽ sử dụng hồi quy mạnh , đặc biệt là sử dụng các liên kết đến các phương thức .

Để trình bày bối cảnh cho tính phi quy tắc, có thể giúp xem xét các giả định cho hồi quy OLS tuyến tính , đó là:

  • Yếu ngoại sinh . Điều này về cơ bản có nghĩa là các biến dự đoán, x , có thể được coi là giá trị cố định, thay vì các biến ngẫu nhiên. Điều này có nghĩa là, ví dụ, các biến dự đoán được giả sử là không có lỗi, không bị nhiễm lỗi đo lường. Giả định này là giả định thường xuyên bị vi phạm nhất và dẫn đến các lỗi được liệt kê theo danh sách giả định này.
  • Tuyến tính. Điều này có nghĩa là giá trị trung bình của biến trả lời là sự kết hợp tuyến tính của các tham số (hệ số hồi quy) và các biến dự đoán. Lưu ý rằng giả định này ít hạn chế hơn nhiều so với lúc đầu. Do các biến dự đoán được coi là giá trị cố định (xem ở trên), tuyến tính thực sự chỉ là một hạn chế đối với các tham số. Bản thân các biến dự đoán có thể được biến đổi tùy ý và trên thực tế, có thể thêm nhiều bản sao của cùng một biến dự báo cơ bản, mỗi biến được biến đổi khác nhau.
  • Phương sai không đổi (hay còn gọi là homoscedasticity). Điều này có nghĩa là các giá trị khác nhau của biến trả lời có cùng phương sai trong các lỗi của chúng, bất kể giá trị của các biến dự đoán. Trong thực tế, giả định này không hợp lệ (nghĩa là các lỗi không đồng nhất) nếu biến phản ứng có thể thay đổi trên phạm vi rộng. Để kiểm tra phương sai lỗi không đồng nhất hoặc khi một mô hình phần dư vi phạm các giả định mô hình của tính đồng nhất (lỗi có thể thay đổi như nhau quanh 'đường phù hợp nhất' cho tất cả các điểm của x), thật thận trọng khi tìm kiếm "hiệu ứng quạt" giữa lỗi dư và giá trị dự đoán. Điều này có nghĩa là sẽ có một sự thay đổi có hệ thống trong phần dư tuyệt đối hoặc bình phương khi được vẽ dựa trên các biến dự đoán. Lỗi sẽ không được phân phối đều trên đường hồi quy. Sự không đồng nhất sẽ dẫn đến việc tính trung bình các phương sai có thể phân biệt xung quanh các điểm để có một phương sai duy nhất đại diện không chính xác cho tất cả các phương sai của đường. Trong thực tế, phần dư xuất hiện cụm và phân tán trên các ô dự đoán của chúng cho các giá trị lớn hơn và nhỏ hơn cho các điểm dọc theo đường hồi quy tuyến tính và lỗi bình phương trung bình cho mô hình sẽ sai.
  • Độc lập của lỗi. Điều này giả định rằng các lỗi của các biến trả lời là không tương quan với nhau. (Độc lập thống kê thực tế là một điều kiện mạnh hơn so với việc thiếu tương quan và thường không cần thiết, mặc dù nó có thể được khai thác nếu nó được giữ. Điều này có thể được kiểm tra bằng phân tích cụm và hiệu chỉnh cho tương tác.) Một số phương pháp (ví dụ: khái quát bình phương tối thiểu) có khả năng xử lý các lỗi tương quan, mặc dù chúng thường yêu cầu nhiều dữ liệu hơn trừ khi một số loại chính quy được sử dụng để thiên vị mô hình theo hướng giả định lỗi không tương quan. Hồi quy tuyến tính Bayes là một cách chung để xử lý vấn đề này.
  • Mối quan hệ thống kê giữa các điều khoản lỗi và các biến hồi quy đóng vai trò quan trọng trong việc xác định liệu một thủ tục ước tính có các thuộc tính lấy mẫu mong muốn như không thiên vị và nhất quán hay không.

  • Sự sắp xếp hoặc phân phối xác suất của các biến dự đoán x có ảnh hưởng lớn đến độ chính xác của ước tính. Lấy mẫu và thiết kế các thí nghiệm là các trường con thống kê được phát triển cao cung cấp hướng dẫn để thu thập dữ liệu theo cách để đạt được ước tính chính xác.

Vì đây câu trả lời minh họa, mô phỏng Student's- phân phối trục lỗi từ một dòng dẫn đến đường hồi quy OLS với khoảng tin cậy cho độ dốc và đánh chặn mà gia tăng kích thước như các bậc tự do ( ) giảm. Với , Student's là phân phối Cauchy và khoảng tin cậy cho độ dốc trở thành .tydfdf=1t(,+)

Việc gọi phân phối Cauchy là tùy ý đối với phần dư theo nghĩa là khi các lỗi tạo được phân phối Cauchy, phần dư OLS từ một dòng giả thông qua dữ liệu thậm chí còn kém tin cậy hơn, ví dụ như rác trong --- rác ra. Trong những trường hợp đó, người ta có thể sử dụng hồi quy hồi quy Theil-Sen . Theil-Sen chắc chắn mạnh hơn OLS đối với phần dư không bình thường, ví dụ, lỗi phân tán Cauchy sẽ không làm giảm khoảng tin cậy và không giống như OLS cũng là hồi quy bivariate, tuy nhiên trong trường hợp bivariate, nó vẫn bị sai lệch. Hồi quy Passing-Bablok có thể được phân chia nhiều hơn không thiên vị, nhưng không áp dụng cho các dốc hồi quy âm. Nó thường được sử dụng cho các nghiên cứu so sánh phương pháp. Nên nhắc đến hồi quy Demingở đây, không giống như các hồi quy Theil-Sen và Passing-Bablok, nó là một giải pháp thực tế cho vấn đề bivariate, nhưng thiếu sự mạnh mẽ của các hồi quy khác. Tính mạnh mẽ có thể được tăng lên bằng cách cắt bớt dữ liệu để bao gồm các giá trị trung tâm hơn, ví dụ, đồng thuận mẫu ngẫu nhiên (RANSAC) là một phương pháp lặp để ước tính các tham số của mô hình toán học từ một tập hợp dữ liệu được quan sát có chứa các ngoại lệ.

Thế thì hồi quy bivariate là gì? Việc thiếu kiểm tra về bản chất của các vấn đề là nguyên nhân thường gặp nhất đối với pha loãng hồi quy OLS và đã được trình bày độc đáo ở những nơi khác trên trang web này. Khái niệm về thiên vị OLS trong bối cảnh này không được công nhận rõ ràng, xem ví dụ Frost và Thompson như được trình bày bởi Longford et al. (2001), trong đó đề cập đến người đọc các phương thức khác, mở rộng mô hình hồi quy để thừa nhận tính biến thiên của biến , do đó không phát sinh sai lệch . Nói cách khác, đôi khi hồi quy trường hợp bivariate đôi khi không thể bỏ qua khi cả - vàx1 x y x y y 2 x y x y = f ( x )1xy-giá trị được phân phối ngẫu nhiên. Có thể kiểm tra nhu cầu hồi quy bivariate bằng cách khớp đường hồi quy OLS với phần dư từ hồi quy OLS của dữ liệu. Sau đó, nếu phần dư OLS có độ dốc khác không, thì vấn đề là bivariate và hồi quy OLS của dữ liệu sẽ có cường độ dốc quá nông và một mức chặn quá lớn để thể hiện mối quan hệ chức năng giữa và . Trong những trường hợp đó, công cụ ước tính tuyến tính ít lỗi nhất của giá trị thực sự vẫn là từ hồi quy OLS và giá trị R của nó sẽ ở giá trị tối đa có thể, nhưng đường hồi quy OLS sẽ không biểu thị hàm dòng thực tế có liên quan các vàxyy2xy biến ngẫu nhiên. Như một ví dụ ngược lại, khi xảy ra giữa các vấn đề khác trong chuỗi thời gian có giá trị tương đương, OLS của dữ liệu thô không phải lúc nào cũng không phù hợp, nó có thể biểu thị dòng tốt nhất , nhưng vẫn phải tuân theo biến đổi biến, ví dụ cho dữ liệu đếm, người ta sẽ lấy căn bậc hai của số đếm để chuyển đổi các lỗi cho lỗi phân phối Poisson sang các điều kiện bình thường hơn và người ta vẫn nên kiểm tra độ dốc khác không của số dư. xy=f(x)

  1. Longford, NT (2001). "Thư tín". Tạp chí của Hiệp hội Thống kê Hoàng gia, Sê-ri A. 164: 565. doi: 10.1111 / 1467-985x.00219
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.