Các giả định của hồi quy sườn núi và làm thế nào để kiểm tra chúng?


21

Hãy xem xét các mô hình chuẩn cho nhiều hồi quy

Y=Xβ+ε
nơi εN(0,σ2In) , vì vậy bình thường, homoscedasticity và uncorrelatedness lỗi tất cả các tổ chức.

Giả sử rằng chúng ta thực hiện hồi quy sườn núi, bằng cách thêm cùng một lượng nhỏ vào tất cả các phần tử của đường chéo của X :

βridge=[XX+kI]1XY

Có một số giá trị mà hệ số sườn núi có sai số bình phương trung bình ít hơn so với OLS, mặc dù là một ước lượng sai lệch của . Trong thực tế, thu được bằng cách xác nhận chéo.kβridgeβk

Đây là câu hỏi của tôi: các giả định bên dưới mô hình sườn núi là gì? Để cụ thể hơn,

  1. Có phải tất cả các giả định của bình phương nhỏ nhất (OLS) đều hợp lệ với hồi quy sườn?

  2. Nếu có cho câu hỏi 1, làm thế nào để chúng tôi kiểm tra tính đồng nhất và thiếu tự động tương quan với một công cụ ước tính sai lệch của ?β

  3. Có công việc nào trong việc kiểm tra các giả định OLS khác (homoscedasticity và thiếu autocorrelation) theo hồi quy sườn không?


6
Xin lưu ý rằng OLS không cho rằng các yếu tố dự đoán là độc lập. Chỉ có một số phương pháp giải pháp cụ thể hoặc công thức đưa ra các giả định đó. Điều quan trọng là cách bạn chọn hệ số hồi quy sườn, không phải là ước tính của có thể bị sai lệch. Nếu hệ số nhân đó được chọn bằng cách đánh dấu vết trên một sườn núi, thì bạn thực sự không có cách nào để định lượng độ không đảm bảo, điều này đặt ra câu hỏi cho hầu hết các xét nghiệm chẩn đoán chính thức trong lý thuyết hồi quy tuyến tính. Điều này dẫn tôi hỏi ý nghĩa thực sự của bạn về "hồi quy sườn núi": bạn ước tính chính xác tham số của nó như thế nào? β
whuber

Có lẽ tôi đã sai, nhưng xem xét mô hình chuẩn của hồi quy bội . Và nếu không có thứ hạng đầy đủ, điều này dẫn đến một ma trận không thể đảo ngược , đặc biệt là trong trường hợp kích thước cao của X. Tôi đã chỉnh sửa câu hỏi của mình. Cảm ơn. XβOLS=(XX)1XYXXX
akyves

1
Hồi quy tuyến tính hoàn toàn có thể đối phó với cộng tuyến, miễn là nó không "quá lớn".
jona

3
Đó không phải là mô hình cho hồi quy bội: đó chỉ là một cách để biểu thị ước lượng bình phương nhỏ nhất. Khi không thể đảo ngược, các phương trình bình thường vẫn có các giải pháp và (thông thường) mô hình vẫn có một sự phù hợp duy nhất , có nghĩa là nó đưa ra dự đoán duy nhất. XX
whuber

Câu trả lời:


21

Một giả định của một thủ tục thống kê là gì?

Tôi không phải là một nhà thống kê và vì vậy điều này có thể sai, nhưng tôi nghĩ từ "giả định" thường được sử dụng khá không chính thức và có thể đề cập đến nhiều thứ khác nhau. Đối với tôi, một "giả định", nói đúng ra, một cái gì đó mà chỉ một kết quả lý thuyết (định lý) có thể có.

Khi mọi người nói về các giả định của hồi quy tuyến tính ( xem ở đây để thảo luận chuyên sâu), họ thường đề cập đến định lý Gauss-Markov nói rằng theo các giả định về lỗi không tương quan, sai phương sai, sai số trung bình, ước tính OLS là BLUE , tức là không thiên vị và có phương sai tối thiểu. Bên ngoài bối cảnh của định lý Gauss-Markov, tôi không rõ "giả định hồi quy" có nghĩa là gì.

Tương tự, các giả định của a, giả sử, kiểm tra t một mẫu đề cập đến các giả định theo đó -statistic được phân phối và do đó suy luận là hợp lệ. Nó không được gọi là "định lý", nhưng nó là một kết quả toán học rõ ràng: nếu mẫu được phân phối bình thường, thì -statistic sẽ tuân theo phân phối của Học sinh với bậc tự do.ttnttn1

Giả định về kỹ thuật hồi quy bị phạt

Bây giờ hãy xem xét bất kỳ kỹ thuật hồi quy chính quy nào: hồi quy sườn, lasso, lưới đàn hồi, hồi quy thành phần chính, hồi quy bình phương nhỏ nhất một phần, v.v. Toàn bộ các phương pháp này là ước tính sai lệch các tham số hồi quy và hy vọng giảm dự kiến mất bằng cách khai thác sự đánh đổi sai lệch thiên vị.

Tất cả các phương thức này bao gồm một hoặc một vài tham số chính quy và không có phương thức nào có quy tắc xác định để chọn các giá trị của tham số này. Giá trị tối ưu thường được tìm thấy thông qua một số loại thủ tục xác thực chéo, nhưng có nhiều phương pháp xác thực chéo khác nhau và chúng có thể mang lại kết quả hơi khác nhau. Hơn nữa, không có gì lạ khi gọi một số quy tắc bổ sung ngoài việc xác thực chéo. Do đó, kết quả thực tế của bất kỳ phương pháp hồi quy bị phạt nào này không thực sự được xác định đầy đủ bằng phương pháp, nhưng có thể phụ thuộc vào lựa chọn của nhà phân tích.β^

Do đó, tôi không rõ làm thế nào có thể có bất kỳ tuyên bố lạc quan lý thuyết nào về , và vì vậy tôi không chắc rằng việc nói về "các giả định" (hiện diện hay vắng mặt) của các phương pháp bị phạt như hồi quy sườn núi có ý nghĩa gì cả .β^

Nhưng những gì về kết quả toán học mà hồi quy sườn luôn đánh bại OLS?

Hoerl & Kennard (1970) trong Hồi quy độ dốc: Ước tính thiên vị cho các vấn đề không liên quan đã chứng minh rằng luôn tồn tại một giá trị của tham số chính quy sao cho ước tính hồi quy sườn của có tổn thất dự kiến ​​nhỏ hơn so với ước tính OLS. Đó là một kết quả đáng ngạc nhiên - xem ở đây để thảo luận, nhưng nó chỉ chứng minh sự tồn tại của , sẽ phụ thuộc vào dữ liệu.beta bước sóngλβλ

Kết quả này không thực sự đòi hỏi bất kỳ giả định nào và luôn luôn đúng, nhưng sẽ thật kỳ lạ khi tuyên bố rằng hồi quy sườn không có bất kỳ giả định nào.

Được rồi, nhưng làm thế nào để tôi biết nếu tôi có thể áp dụng hồi quy sườn núi hay không?

Tôi sẽ nói rằng ngay cả khi chúng ta không thể nói về các giả định, chúng ta có thể nói về các quy tắc của ngón tay cái . Người ta biết rằng hồi quy sườn có xu hướng hữu ích nhất trong trường hợp hồi quy bội với các yếu tố dự đoán tương quan. Người ta biết rằng nó có xu hướng vượt trội hơn OLS, thường là do biên độ lớn. Nó sẽ có xu hướng tốt hơn nó ngay cả trong trường hợp không đồng nhất, lỗi tương quan, hoặc bất cứ điều gì khác. Vì vậy, quy tắc đơn giản nói rằng nếu bạn có dữ liệu đa hướng, hồi quy sườn và xác thực chéo là một ý tưởng tốt.

Có lẽ có các quy tắc hữu ích khác về ngón tay cái và các thủ thuật thương mại (chẳng hạn như phải làm gì với các ngoại lệ thô). Nhưng chúng không phải là giả định.

Lưu ý rằng đối với hồi quy OLS, người ta cần một số giả định cho giá trị để giữ. Ngược lại, thật khó để đạt được giá trị trong hồi quy sườn. Nếu điều này được thực hiện hoàn toàn, nó được thực hiện bằng bootstrapping hoặc một số cách tiếp cận tương tự và một lần nữa, thật khó để chỉ ra các giả định cụ thể ở đây vì không có đảm bảo toán học.ppp


Trong trường hợp người ta đưa ra các đặc tính suy luận liên quan đến một số thủ tục, cho dù đó là thuộc tính của kiểm tra giả thuyết về độ dốc hồi quy hoặc các thuộc tính của khoảng tin cậy hoặc khoảng dự đoán, ví dụ, bản thân các thử nghiệm sẽ được dẫn xuất theo một số tập hợp các giả định. Vì trong nhiều lĩnh vực chủ đề, mục đích phổ biến nhất của việc sử dụng hồi quy là để thực hiện một số loại suy luận (thực sự, trong một số lĩnh vực ứng dụng, nó hiếm khi được thực hiện vì bất kỳ lý do nào khác), các giả định được đưa ra cho thủ tục suy luận được liên kết một cách tự nhiên với ... ctd
Glen_b -Reinstate Monica

Ctd ... thứ họ đang sử dụng. Vì vậy, nếu bạn cần một số giả định để rút ra một bài kiểm tra t để kiểm tra hệ số hồi quy hoặc cho một bài kiểm tra F một phần hoặc cho một CI cho giá trị trung bình hoặc khoảng dự đoán ... và các hình thức suy luận thông thường đều giống nhau hoặc gần như cùng một tập hợp các giả định, sau đó chúng sẽ được coi là các giả định liên quan đến việc thực hiện suy luận bằng cách sử dụng điều đó. Nếu một người thực hiện bất kỳ suy luận nào với hồi quy sườn núi (giả sử khoảng thời gian dự đoán) và đưa ra các giả định để làm như vậy, thì đó có thể được coi là giả định ... ctd
Glen_b -Reinstate Monica

cần thiết để có thể rút ra (và có lẽ, sau đó, để sử dụng) loại suy luận đặc biệt đó về hồi quy sườn núi.
Glen_b -Reinstate Monica

R2

1
Không quá muộn, tôi hy vọng sẽ nói lời cảm ơn @amoeba. Câu trả lời chính xác!
akyves

1

Tôi muốn cung cấp một số đầu vào từ quan điểm thống kê. Nếu Y ~ N (Xb, sigma2 * In), thì lỗi bình phương trung bình của b ^ là

MSE(b^)=E(b^-b).T*(b^-b)=E(|b^-b|^2)=sigma2*trace(inv(X.T*X))

D(|b^-b|^2)=2*sigma4*trace((X.T*X)^(-2))

b^=inv(X.T*X)*X.T*Y

Nếu XT X xấp xỉ bằng 0, thì inv (XT X) sẽ rất lớn. Vì vậy, ước tính tham số của b không ổn định và có thể có vấn đề sau.

  1. một số giá trị tuyệt đối của ước tính tham số là rất lớn
  2. b có dấu hiệu tích cực hoặc tiêu cực ngược lại so với dự kiến.
  3. thêm hoặc loại bỏ các biến hoặc quan sát sẽ làm cho các ước tính tham số thay đổi đáng kể.

Để làm cho ước lượng bình phương nhỏ nhất của b ổn định, chúng tôi đưa ra hồi quy sườn bằng cách ước tính b^(k)=inv(X.T*X+kI)*X.T*Y.Và chúng tôi có thể chứng minh rằng luôn có ak gây ra lỗi bình phương trung bình của

MSE(b^(k)) < MSE(b^).

Trong học máy, hồi quy sườn được gọi là chính quy L2 và để chống lại các vấn đề quá khớp do nhiều tính năng gây ra.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.