Tại sao Daniel Wilks (2011) nói rằng hồi quy thành phần chính sẽ bị thiên vị?


13

Trong Phương pháp thống kê trong Khoa học khí quyển , Daniel Wilks lưu ý rằng hồi quy tuyến tính nhiều có thể dẫn đến các vấn đề nếu có sự giao thoa rất mạnh giữa các yếu tố dự đoán (ấn bản thứ 3, trang 559-560):

Một bệnh lý có thể xảy ra trong hồi quy tuyến tính đa biến là một tập hợp các biến dự đoán có tương quan tương hỗ mạnh có thể dẫn đến việc tính toán mối quan hệ hồi quy không ổn định.

(...)

Sau đó, ông giới thiệu hồi quy thành phần chính:

Một cách tiếp cận để khắc phục vấn đề này là trước tiên chuyển đổi các yếu tố dự đoán thành các thành phần chính của chúng, các mối tương quan giữa chúng bằng không.

Càng xa càng tốt. Nhưng tiếp theo, anh ta đưa ra một số tuyên bố mà anh ta không giải thích (hoặc ít nhất là không đủ chi tiết để tôi hiểu):

Nếu tất cả các thành phần chính được giữ lại trong hồi quy thành phần chính, thì không có gì đạt được so với bình phương tối thiểu thông thường phù hợp với bộ dự đoán đầy đủ.

(..) và:

Có thể kiểm tra lại hồi quy thành phần chính theo các yếu tố dự đoán ban đầu, nhưng nói chung, kết quả sẽ liên quan đến tất cả các biến dự đoán ban đầu ngay cả khi chỉ sử dụng một hoặc một vài yếu tố dự đoán thành phần chính. Hồi quy hoàn nguyên này sẽ bị sai lệch, mặc dù thường phương sai nhỏ hơn nhiều, dẫn đến tổng thể MSE nhỏ hơn.

Tôi không hiểu hai điểm này.

Tất nhiên, nếu tất cả các thành phần chính được giữ lại, chúng tôi sử dụng thông tin giống như khi chúng tôi sử dụng các yếu tố dự đoán trong không gian ban đầu của chúng. Tuy nhiên, vấn đề tương quan lẫn nhau được loại bỏ bằng cách làm việc trong không gian thành phần chính. Chúng ta có thể vẫn còn thừa, nhưng đó có phải là vấn đề duy nhất? Tại sao không có gì đạt được?

Thứ hai, ngay cả khi chúng ta cắt ngắn các thành phần chính (có lẽ để giảm nhiễu và / hoặc để ngăn chặn quá mức), tại sao và làm thế nào điều này dẫn đến hồi quy hoàn nguyên sai lệch? Xu hướng theo cách nào?


Nguồn sách: Daniel S. Wilks, Phương pháp thống kê trong khoa học khí quyển, ấn bản thứ ba, 2011. Tập địa vật lý quốc tế Tập 100, Nhà xuất bản học thuật.


4
(+1) Trong trích dẫn thứ hai, "sẽ bị sai lệch" không tuân theo logic: tốt hơn sẽ là một tuyên bố nhẹ hơn như "có khả năng bị sai lệch." Tôi nghi ngờ lý do đằng sau nó có thể là một cái gì đó dọc theo dòng "vì PCR áp đặt mối quan hệ tuyến tính giữa các ước tính tham số, các ước tính đó sẽ có xu hướng khác với ước tính OLS và vì ước tính OLS không thiên vị, điều đó có nghĩa là ước tính PCR sẽ bị sai lệch." Theo trực giác, nó là một heuristic tốt nhưng nó không hoàn toàn chính xác.
whuber

có thể nói rằng "PCR sẽ bị sai lệch" nếu (a) điểm dữ liệu không chiếm đa tạp tuyến tính thấp hơn hoặc bằng chiều so với số lượng PC được chọn và (b) điểm dữ liệu không hoàn toàn không tương thích? hoặc thế nào?
Soren Havelund Welling

Câu trả lời:


15

Điều gì xảy ra khi tất cả các PC được sử dụng?

Nếu tất cả các PC được sử dụng, thì các hệ số hồi quy kết quả sẽ giống hệt với các hệ số hồi quy OLS, và vì vậy quy trình này tốt hơn không nên được gọi là "hồi quy thành phần chính". Đó là hồi quy tiêu chuẩn, chỉ được thực hiện theo cách vòng.

Bạn đang hỏi làm thế nào có thể không có gì đạt được, cho rằng sau PCA, các yếu tố dự đoán sẽ trở thành trực giao. Ma quỷ ẩn giấu trong sự biến đổi ngược của các hệ số hồi quy từ không gian PCA sang không gian ban đầu. Điều bạn cần biết là phương sai của các hệ số hồi quy ước tính nghịch đảo phụ thuộc vào ma trận hiệp phương sai của các yếu tố dự đoán. Các dự đoán được chuyển đổi PCA, hãy gọi chúng là , có ma trận hiệp phương sai chéo (vì chúng không tương quan). Vì vậy, tất cả các hệ số hồi quy choZZcũng không tương quan; những cái tương ứng với các PC có phương sai cao có phương sai thấp (nghĩa là được ước tính một cách đáng tin cậy) và những PC tương ứng với các PC có phương sai thấp có phương sai cao (nghĩa là không đáng tin cậy). Khi các hệ số này được chuyển đổi ngược lại thành các yếu tố dự đoán ban đầu , mỗi yếu tố dự đoán sẽ nhận được một phần ước tính không đáng tin cậy, và vì vậy tất cả các hệ số có thể trở nên không đáng tin cậy .XXTôi

Vì vậy, không có gì đạt được.

Điều gì xảy ra khi chỉ có vài PC được sử dụng?

Khi không phải tất cả các PC được giữ lại trong PCR, thì giải pháp kết quả thường sẽ không bằng giải pháp bình phương tối thiểu thông thường tiêu chuẩn . Đó là một kết quả tiêu chuẩn mà giải pháp OLS không thiên vị : xem định lý Gauss-Markov . "Không thiên vị" có nghĩa là trung bình là chính xác , mặc dù nó có thể rất ồn. Vì giải pháp PCR khác với nó, nó sẽ bị sai lệch , có nghĩa là trung bình nó sẽ không chính xác. Tuy nhiên, điều thường xảy ra là nó ít ồn ào hơn, dẫn đến những dự đoán tổng thể chính xác hơn.β^PCRβ^ÔiLSβ^

Đây là một ví dụ về sự đánh đổi sai lệch . Xem tại sao co rút hoạt động? cho một số thảo luận chung hơn.

Trong các ý kiến, @whuber chỉ ra rằng giải pháp PCR không khác với các OLS một và do đó không được thiên vị. Thật vậy, nếu biến phụ thuộc không tương thích (về dân số, không phải trong mẫu) với tất cả các PC có phương sai thấp không có trong mô hình PCR, thì việc loại bỏ các PC này sẽ không ảnh hưởng đến tính không thiên vị. Tuy nhiên, điều này khó có thể xảy ra trong thực tế: PCA được tiến hành mà không tính đến vì vậy lý do là sẽ có xu hướng tương quan với tất cả các PC.yyy

Tại sao sử dụng PC có phương sai cao là một ý tưởng tốt?

Đây không phải là một phần của câu hỏi, nhưng bạn có thể quan tâm đến chủ đề sau để đọc thêm: Làm thế nào các thành phần chính hàng đầu có thể giữ được sức mạnh dự đoán trên một biến phụ thuộc (hoặc thậm chí dẫn đến dự đoán tốt hơn)?


Các ý kiến ​​trong đoạn cuối của bạn xuất hiện để phân phối phân phối có điều kiện của (trên các biến hồi quy) với các giá trị của trong tập dữ liệu. YY
whuber

@whuber, Thật vậy. Tôi đã viết lại đoạn đó, hy vọng nó có ý nghĩa hơn bây giờ. Cảm ơn.
amip nói rằng Phục hồi lại

Hừm, phải rồi. Xu hướng cơ bản có nghĩa là một số điểm bằng nhau hơn các điểm khác, đó chính xác là những gì chúng ta muốn nếu chúng ta muốn giảm ảnh hưởng của tiếng ồn và ngoại lệ (mà tôi chưa chắc PCA có phải là công cụ tốt nhất không).
gerrit

@gerrit Bạn viết như thể thiên vị tương đương với trọng số, nhưng chúng là những thứ riêng biệt. Xu hướng trong bối cảnh này đề cập đến bất kỳ sự khác biệt giữa các giá trị dự kiến ​​của các ước tính hệ số và giá trị thực của chúng.
whuber

1
Mô hình cho rằng các câu trả lời là các biến ngẫu nhiên. Điều này làm cho các hệ số ước tính - sử dụng bất kỳ thủ tục - biến ngẫu nhiên cũng có. Giá trị dự kiến ​​của chúng được định nghĩa như đối với bất kỳ biến ngẫu nhiên nào. Theo định nghĩa, sai lệch là sự khác biệt giữa giá trị mong đợi và giá trị thực. Ước tính hệ số OLS có độ lệch bằng không. Sự thiên vị của một số thủ tục khác vẫn có thể bằng không. Logic của trích dẫn là một thủ tục tuyến tính, như OLS, nhưng áp đặt quan hệ giữa các hệ số, sẽ nhất thiết phải bị sai lệch. Kết luận đó là đúng trong nhiều trường hợp, nhưng không phải tất cả.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.