Một giả định của một thủ tục thống kê là gì?
Tôi không phải là một nhà thống kê và vì vậy điều này có thể sai, nhưng tôi nghĩ từ "giả định" thường được sử dụng khá không chính thức và có thể đề cập đến nhiều thứ khác nhau. Đối với tôi, một "giả định", nói đúng ra, một cái gì đó mà chỉ một kết quả lý thuyết (định lý) có thể có.
Khi mọi người nói về các giả định của hồi quy tuyến tính ( xem ở đây để thảo luận chuyên sâu), họ thường đề cập đến định lý Gauss-Markov nói rằng theo các giả định về lỗi không tương quan, sai phương sai, sai số trung bình, ước tính OLS là BLUE , tức là không thiên vị và có phương sai tối thiểu. Bên ngoài bối cảnh của định lý Gauss-Markov, tôi không rõ "giả định hồi quy" có nghĩa là gì.
Tương tự, các giả định của a, giả sử, kiểm tra t một mẫu đề cập đến các giả định theo đó -statistic được phân phối và do đó suy luận là hợp lệ. Nó không được gọi là "định lý", nhưng nó là một kết quả toán học rõ ràng: nếu mẫu được phân phối bình thường, thì -statistic sẽ tuân theo phân phối của Học sinh với bậc tự do.ttnttn - 1
Giả định về kỹ thuật hồi quy bị phạt
Bây giờ hãy xem xét bất kỳ kỹ thuật hồi quy chính quy nào: hồi quy sườn, lasso, lưới đàn hồi, hồi quy thành phần chính, hồi quy bình phương nhỏ nhất một phần, v.v. Toàn bộ các phương pháp này là ước tính sai lệch các tham số hồi quy và hy vọng giảm dự kiến mất bằng cách khai thác sự đánh đổi sai lệch thiên vị.
Tất cả các phương thức này bao gồm một hoặc một vài tham số chính quy và không có phương thức nào có quy tắc xác định để chọn các giá trị của tham số này. Giá trị tối ưu thường được tìm thấy thông qua một số loại thủ tục xác thực chéo, nhưng có nhiều phương pháp xác thực chéo khác nhau và chúng có thể mang lại kết quả hơi khác nhau. Hơn nữa, không có gì lạ khi gọi một số quy tắc bổ sung ngoài việc xác thực chéo. Do đó, kết quả thực tế của bất kỳ phương pháp hồi quy bị phạt nào này không thực sự được xác định đầy đủ bằng phương pháp, nhưng có thể phụ thuộc vào lựa chọn của nhà phân tích.β^
Do đó, tôi không rõ làm thế nào có thể có bất kỳ tuyên bố lạc quan lý thuyết nào về , và vì vậy tôi không chắc rằng việc nói về "các giả định" (hiện diện hay vắng mặt) của các phương pháp bị phạt như hồi quy sườn núi có ý nghĩa gì cả .β^
Nhưng những gì về kết quả toán học mà hồi quy sườn luôn đánh bại OLS?
Hoerl & Kennard (1970) trong Hồi quy độ dốc: Ước tính thiên vị cho các vấn đề không liên quan đã chứng minh rằng luôn tồn tại một giá trị của tham số chính quy sao cho ước tính hồi quy sườn của có tổn thất dự kiến nhỏ hơn so với ước tính OLS. Đó là một kết quả đáng ngạc nhiên - xem ở đây để thảo luận, nhưng nó chỉ chứng minh sự tồn tại của , sẽ phụ thuộc vào dữ liệu.beta bước sóngλβλ
Kết quả này không thực sự đòi hỏi bất kỳ giả định nào và luôn luôn đúng, nhưng sẽ thật kỳ lạ khi tuyên bố rằng hồi quy sườn không có bất kỳ giả định nào.
Được rồi, nhưng làm thế nào để tôi biết nếu tôi có thể áp dụng hồi quy sườn núi hay không?
Tôi sẽ nói rằng ngay cả khi chúng ta không thể nói về các giả định, chúng ta có thể nói về các quy tắc của ngón tay cái . Người ta biết rằng hồi quy sườn có xu hướng hữu ích nhất trong trường hợp hồi quy bội với các yếu tố dự đoán tương quan. Người ta biết rằng nó có xu hướng vượt trội hơn OLS, thường là do biên độ lớn. Nó sẽ có xu hướng tốt hơn nó ngay cả trong trường hợp không đồng nhất, lỗi tương quan, hoặc bất cứ điều gì khác. Vì vậy, quy tắc đơn giản nói rằng nếu bạn có dữ liệu đa hướng, hồi quy sườn và xác thực chéo là một ý tưởng tốt.
Có lẽ có các quy tắc hữu ích khác về ngón tay cái và các thủ thuật thương mại (chẳng hạn như phải làm gì với các ngoại lệ thô). Nhưng chúng không phải là giả định.
Lưu ý rằng đối với hồi quy OLS, người ta cần một số giả định cho giá trị để giữ. Ngược lại, thật khó để đạt được giá trị trong hồi quy sườn. Nếu điều này được thực hiện hoàn toàn, nó được thực hiện bằng bootstrapping hoặc một số cách tiếp cận tương tự và một lần nữa, thật khó để chỉ ra các giả định cụ thể ở đây vì không có đảm bảo toán học.ppp