Làm thế nào các thành phần chính hàng đầu có thể giữ sức mạnh dự đoán trên một biến phụ thuộc (hoặc thậm chí dẫn đến dự đoán tốt hơn)?


25

Giả sử tôi đang chạy một hồi quy . Tại sao bằng cách chọn các thành phần nguyên tắc hàng đầu của , mô hình có giữ được khả năng dự đoán của nó trên không?YXkXY

Tôi hiểu rằng từ chiều giảm / điểm tính năng lựa chọn các quan điểm, nếu là vector riêng của ma trận hiệp phương sai của với top giá trị riêng, sau đó là top thành phần chủ yếu với phương sai tối đa. Do đó chúng ta có thể giảm số lượng tính năng xuống và giữ lại hầu hết sức mạnh dự đoán, như tôi hiểu.v1,v2,...vkXkXv1,Xv2...Xvkkk

Nhưng tại sao các thành phần hàng đầu vẫn giữ được sức mạnh dự đoán trên ?kY

Nếu chúng ta nói về một vị tướng OLS , không có lý do gì để cho rằng nếu tính năng có sai tối đa, sau đó có sức mạnh tiên đoán nhất trên .YZZiZiY

Cập nhật sau khi xem các bình luận: Tôi đoán rằng tôi đã thấy hàng tấn ví dụ về việc sử dụng PCA để giảm kích thước. Tôi đã giả định rằng điều đó có nghĩa là kích thước chúng ta còn lại có sức mạnh dự đoán nhất. Nếu không thì điểm giảm chiều là gì?


3
Bạn đã đúng: không có lý do toán học nào để cho rằng các PC hàng đầu của có bất kỳ khả năng dự đoán nào - cũng như không có lý do toán học nào nói chung để giả sử rằng bất kỳ tập hợp nào cũng có bất kỳ mối quan hệ nào với cho . Có vẻ như bạn có thể đang đề cập đến một số tuyên bố bạn đã gặp: chính xác những gì nó nói và ai đã nói nó? X X YKXXY
whuber

@whuber Tôi đoán rằng tôi có rất nhiều ví dụ về việc sử dụng PCA để giảm kích thước. Tôi đã giả định rằng điều đó có nghĩa là kích thước chúng ta còn lại có sức mạnh dự đoán nhất. Nếu không thì đó là điểm giảm kích thước?
Vendetta

Câu trả lời:


43

Thật vậy, không có gì đảm bảo rằng các thành phần chính hàng đầu (PC) có sức mạnh dự đoán cao hơn các thành phần có phương sai thấp.

Các ví dụ trong thế giới thực có thể được tìm thấy trong trường hợp không phải như vậy và thật dễ dàng để xây dựng một ví dụ nhân tạo trong đó, ví dụ như chỉ có PC nhỏ nhất có bất kỳ mối quan hệ nào với .y

Chủ đề này đã được thảo luận rất nhiều trên diễn đàn của chúng tôi và trong trường hợp (không may) không có một chủ đề kinh điển rõ ràng, tôi chỉ có thể đưa ra một số liên kết cùng nhau cung cấp nhiều ví dụ thực tế cũng như nhân tạo:

Và cùng một chủ đề, nhưng trong bối cảnh phân loại:


Tuy nhiên, trong thực tế, máy tính hàng đầu thường làm thường có sức mạnh tiên đoán hơn những người-sai thấp, và hơn nữa, chỉ sử dụng máy tính hàng đầu có thể mang lại sức mạnh tiên đoán tốt hơn so với sử dụng tất cả các máy tính.

Trong các tình huống có nhiều yếu tố dự đoán và tương đối ít điểm dữ liệu (ví dụ: khi hoặc thậm chí ), hồi quy thông thường sẽ điều chỉnh quá mức và cần phải được chuẩn hóa. Hồi quy thành phần chính (PCR) có thể được coi là một cách để bình thường hóa hồi quy và sẽ có xu hướng cho kết quả vượt trội. Hơn nữa, nó có liên quan chặt chẽ với hồi quy sườn núi, đó là một cách tiêu chuẩn của co ngót chuẩn hóa. Trong khi sử dụng hồi quy sườn thường là một ý tưởng tốt hơn, PCR thường sẽ hành xử hợp lý tốt. Xem tại sao co rút hoạt động? cho các cuộc thảo luận chung về sự đánh đổi sai lệch và về cách thu hẹp có thể có lợi.n p n p > npnpnp>n

Theo một cách nào đó, người ta có thể nói rằng cả hồi quy sườn và PCR đều cho rằng hầu hết thông tin về đều có trong các PC lớn của , và giả định này thường được bảo đảm.XyX

Xem câu trả lời sau của @cbeleites (+1) để biết một số thảo luận về lý do tại sao giả định này thường được bảo hành (và chủ đề mới hơn này: Việc giảm kích thước hầu như luôn hữu ích để phân loại? Đối với một số nhận xét khác).

Hastie et al. trong Các yếu tố của học thống kê (phần 3.4.1) nhận xét về điều này trong bối cảnh hồi quy sườn núi:

[T] anh ta các giá trị số ít [[] tương ứng với các hướng trong không gian cột của có phương sai nhỏ và hồi quy sườn thu nhỏ các hướng này nhiều nhất. [...] Hồi quy sườn bảo vệ chống lại sự chênh lệch có thể cao của độ dốc ước tính theo các hướng ngắn. Giả định ngầm định là phản hồi sẽ có xu hướng thay đổi nhiều nhất theo hướng có phương sai cao của đầu vào. Đây thường là một giả định hợp lý, vì các yếu tố dự đoán thường được chọn để nghiên cứu vì chúng thay đổi theo biến trả lời, nhưng không cần phải giữ chung.X

Xem câu trả lời của tôi trong các chủ đề sau để biết chi tiết:


Dòng dưới cùng

Đối với các vấn đề chiều cao, xử lý trước với PCA (có nghĩa là giảm kích thước và chỉ giữ các PC hàng đầu) có thể được coi là một cách chính quy và thường sẽ cải thiện kết quả của bất kỳ phân tích tiếp theo nào, có thể là hồi quy hoặc phương pháp phân loại. Nhưng không có gì đảm bảo rằng điều này sẽ hoạt động, và thường có những cách tiếp cận chính quy hóa tốt hơn.


Cảm ơn bạn đã thu thập các tài liệu tham khảo trong câu trả lời của bạn. Đây là một cái khác gần đây. Có một câu trả lời với các liên kết hơn nữa.
ttnphns

Cảm ơn, @ttnphns! Tôi chưa thấy bài đăng đó, vì nó không có thẻ [pca] (Tôi chỉ theo dõi sát sao một số thẻ cụ thể). Trên thực tế, tôi khá không vui khi có một bộ sưu tập gồm 5-10 chủ đề liên quan chặt chẽ, không có câu hỏi và không có câu trả lời nào thực sự hoàn hảo và không có sự trùng lặp thực sự giữa chúng. Tôi muốn có một chủ đề kinh điển có thể được sử dụng cho các tài liệu tham khảo trong tương lai ...
amip nói rằng Rebstate Monica

Tôi đã thêm thẻ vào câu hỏi đó. Câu trả lời bách khoa toàn thư "hoàn hảo" về chủ đề thú vị đó đang chờ tác giả của nó. :-) Bạn có thể quyết định trở thành một.
ttnphns

Cũng có liên quan: câu trả lời của onestop cho stats.stackexchange.com/questions35361/NH
kjetil b halvorsen 20/03/2015

11

Ngoài các câu trả lời đã tập trung vào các tính chất toán học, tôi muốn bình luận từ quan điểm thực nghiệm.

Tóm tắt: các quy trình tạo dữ liệu thường được tối ưu hóa theo cách làm cho dữ liệu phù hợp với hồi quy thành phần chính (PCR) hoặc hồi quy bình phương nhỏ nhất một phần (PLS).


Tôi là nhà hóa học phân tích. Khi tôi thiết kế một thí nghiệm / phương pháp để đo lường (hồi quy hoặc phân loại) một cái gì đó, tôi sử dụng kiến ​​thức của mình về ứng dụng và các công cụ có sẵn để có được dữ liệu mang tín hiệu tốt đến tỷ lệ nhiễu đối với nhiệm vụ trong tay. Điều đó có nghĩa là, dữ liệu tôi tạo được thiết kế để có hiệp phương sai lớn với thuộc tính quan tâm.
Điều này dẫn đến một cấu trúc phương sai trong đó phương sai thú vị là lớn và các PC sau này sẽ chỉ mang tiếng ồn (nhỏ).

Tôi cũng thích các phương pháp mang lại thông tin dư thừa về nhiệm vụ trong tay, để có kết quả chính xác hơn hoặc mạnh mẽ hơn. PCA tập trung các kênh đo lường dự phòng vào một PC, sau đó mang nhiều phương sai và do đó là một trong những PC đầu tiên.

Nếu có các yếu tố gây nhiễu đã biết sẽ dẫn đến phương sai lớn không tương quan với đặc tính quan tâm, tôi thường cố gắng sửa cho những điều này càng nhiều càng tốt trong quá trình tiền xử lý dữ liệu: trong nhiều trường hợp, các yếu tố gây nhiễu này được biết đến bản chất vật lý hoặc hóa học, và kiến ​​thức này gợi ý những cách thích hợp để sửa chữa cho các yếu tố gây nhiễu. Ví dụ, tôi đo phổ Raman dưới kính hiển vi. Cường độ của chúng phụ thuộc vào cường độ của ánh sáng laser cũng như mức độ tôi có thể tập trung kính hiển vi. Cả hai đều dẫn đến những thay đổi có thể được sửa chữa bằng cách chuẩn hóa, ví dụ như tín hiệu được biết là không đổi.
Do đó, những người đóng góp lớn của phương sai không đóng góp cho giải pháp có thể đã bị loại bỏ trước khi dữ liệu vào PCA, để lại phương sai chủ yếu có ý nghĩa trong các PC đầu tiên.


Cuối cùng nhưng không kém phần quan trọng, có một chút tiên tri tự hoàn thành ở đây: Rõ ràng PCR được thực hiện với dữ liệu trong đó giả định rằng thông tin mang phương sai lớn là có ý nghĩa. Nếu ví dụ tôi nghĩ rằng có thể có những yếu tố gây nhiễu quan trọng mà tôi không biết cách khắc phục, tôi sẽ ngay lập tức tìm PLS, tốt hơn là bỏ qua những đóng góp lớn không giúp ích cho nhiệm vụ dự đoán.


+1. Đây là một bổ sung tuyệt vời, cảm ơn vì đã tham gia thảo luận.
amip nói phục hồi Monica

@amoeba: cảm ơn vì những lời tốt đẹp. Như mọi khi, câu trả lời của bạn rất kỹ lưỡng. Tôi thực sự dựa vào bạn chăm sóc [pca]!
cbeleites hỗ trợ Monica

6

PCA đôi khi được sử dụng để sửa các vấn đề gây ra bởi các biến cộng tuyến để hầu hết các biến thể trong không gian X được các thành phần chính K nắm bắt.

Nhưng vấn đề toán học này tất nhiên không giống với việc nắm bắt hầu hết các biến thể cả trong không gian X, Y theo cách mà biến thể không giải thích được càng nhỏ càng tốt.

Bình phương tối thiểu một phần cố gắng làm điều này theo nghĩa sau:

http://en.wikipedia.org/wiki/Partial_least_squares_regression


3

Như những người khác đã chỉ ra, không có mối liên hệ trực tiếp giữa các eigenvector hàng đầu và sức mạnh dự đoán. Bằng cách chọn đỉnh và sử dụng chúng làm cơ sở, bạn đang giữ lại một số năng lượng hàng đầu (hoặc phương sai dọc theo các trục đó).

Có thể là trục giải thích phương sai nhất thực sự hữu ích cho dự đoán nhưng nói chung đây không phải là trường hợp.


Khi bạn nói "nói chung", bạn có nghĩa là nói chung trong thực tế hay nói chung trong lý thuyết?
amip nói rằng Tái lập lại Monica

@amoeba Nói chung vì dễ dàng xây dựng bộ dữ liệu trong đó việc chiếu dữ liệu lên trục phương sai tối đa k hàng đầu không phải là dự đoán / phân biệt đối xử.
Vladislavs Dovgalecs

-1

Hãy để tôi đưa ra một lời giải thích đơn giản.

PCA số tiền để loại bỏ các tính năng nhất định bằng trực giác. Điều này làm giảm cơ hội phù hợp quá mức.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.