Thật vậy, không có gì đảm bảo rằng các thành phần chính hàng đầu (PC) có sức mạnh dự đoán cao hơn các thành phần có phương sai thấp.
Các ví dụ trong thế giới thực có thể được tìm thấy trong trường hợp không phải như vậy và thật dễ dàng để xây dựng một ví dụ nhân tạo trong đó, ví dụ như chỉ có PC nhỏ nhất có bất kỳ mối quan hệ nào với .y
Chủ đề này đã được thảo luận rất nhiều trên diễn đàn của chúng tôi và trong trường hợp (không may) không có một chủ đề kinh điển rõ ràng, tôi chỉ có thể đưa ra một số liên kết cùng nhau cung cấp nhiều ví dụ thực tế cũng như nhân tạo:
Và cùng một chủ đề, nhưng trong bối cảnh phân loại:
Tuy nhiên, trong thực tế, máy tính hàng đầu thường làm thường có sức mạnh tiên đoán hơn những người-sai thấp, và hơn nữa, chỉ sử dụng máy tính hàng đầu có thể mang lại sức mạnh tiên đoán tốt hơn so với sử dụng tất cả các máy tính.
Trong các tình huống có nhiều yếu tố dự đoán và tương đối ít điểm dữ liệu (ví dụ: khi hoặc thậm chí ), hồi quy thông thường sẽ điều chỉnh quá mức và cần phải được chuẩn hóa. Hồi quy thành phần chính (PCR) có thể được coi là một cách để bình thường hóa hồi quy và sẽ có xu hướng cho kết quả vượt trội. Hơn nữa, nó có liên quan chặt chẽ với hồi quy sườn núi, đó là một cách tiêu chuẩn của co ngót chuẩn hóa. Trong khi sử dụng hồi quy sườn thường là một ý tưởng tốt hơn, PCR thường sẽ hành xử hợp lý tốt. Xem tại sao co rút hoạt động? cho các cuộc thảo luận chung về sự đánh đổi sai lệch và về cách thu hẹp có thể có lợi.n p ≈ n p > npnp ≈ np > n
Theo một cách nào đó, người ta có thể nói rằng cả hồi quy sườn và PCR đều cho rằng hầu hết thông tin về đều có trong các PC lớn của , và giả định này thường được bảo đảm.XyX
Xem câu trả lời sau của @cbeleites (+1) để biết một số thảo luận về lý do tại sao giả định này thường được bảo hành (và chủ đề mới hơn này: Việc giảm kích thước hầu như luôn hữu ích để phân loại? Đối với một số nhận xét khác).
Hastie et al. trong Các yếu tố của học thống kê (phần 3.4.1) nhận xét về điều này trong bối cảnh hồi quy sườn núi:
[T] anh ta các giá trị số ít [[] tương ứng với các hướng trong không gian cột của có phương sai nhỏ và hồi quy sườn thu nhỏ các hướng này nhiều nhất. [...] Hồi quy sườn bảo vệ chống lại sự chênh lệch có thể cao của độ dốc ước tính theo các hướng ngắn. Giả định ngầm định là phản hồi sẽ có xu hướng thay đổi nhiều nhất theo hướng có phương sai cao của đầu vào. Đây thường là một giả định hợp lý, vì các yếu tố dự đoán thường được chọn để nghiên cứu vì chúng thay đổi theo biến trả lời, nhưng không cần phải giữ chung.X
Xem câu trả lời của tôi trong các chủ đề sau để biết chi tiết:
Dòng dưới cùng
Đối với các vấn đề chiều cao, xử lý trước với PCA (có nghĩa là giảm kích thước và chỉ giữ các PC hàng đầu) có thể được coi là một cách chính quy và thường sẽ cải thiện kết quả của bất kỳ phân tích tiếp theo nào, có thể là hồi quy hoặc phương pháp phân loại. Nhưng không có gì đảm bảo rằng điều này sẽ hoạt động, và thường có những cách tiếp cận chính quy hóa tốt hơn.