Mục 3.5.2 trong Các yếu tố của học thống kê rất hữu ích vì nó đặt hồi quy PLS vào đúng ngữ cảnh (của các phương pháp chính quy hóa khác), nhưng thực sự rất ngắn gọn và để lại một số tuyên bố quan trọng là bài tập. Ngoài ra, nó chỉ xem xét một trường hợp của biến phụ thuộc đơn biến y .
Tài liệu về PLS rất rộng lớn, nhưng có thể khá khó hiểu vì có nhiều "hương vị" khác nhau của PLS: phiên bản đơn biến với một phiên bản DV y (PLS1) và đa biến với một số phiên bản DVs Y (PLS2) coi X và Y bằng nhau và các phiên bản không đối xứng ("hồi quy PLS") coi X là độc lập và Y là các biến phụ thuộc, các phiên bản cho phép giải pháp toàn cầu thông qua SVD và các phiên bản yêu cầu độ lệch lặp để tạo ra mỗi lần lặp cặp hướng PLS, v.v.
Tất cả những điều này đã được phát triển trong lĩnh vực hóa học và phần nào bị ngắt kết nối với tài liệu thống kê hoặc học máy "chính thống".
Tài liệu tổng quan mà tôi thấy hữu ích nhất (và có chứa nhiều tài liệu tham khảo hơn) là:
Đối với một cuộc thảo luận lý thuyết hơn, tôi có thể đề nghị thêm:
Một đoạn trích ngắn về hồi quy PLS với đơn biến (còn gọi là PLS1, còn gọi là SIMPLS)y
Mục tiêu của hồi quy là ước tính trong mô hình tuyến tính . Giải pháp OLS thích nhiều thuộc tính tối ưu nhưng có thể bị ảnh hưởng bởi quá mức. Thật vậy, OLS tìm kiếm mang lại mối tương quan cao nhất có thể có của với . Nếu có nhiều dự đoán, thì luôn có thể tìm thấy một số kết hợp tuyến tính xảy ra có tương quan cao với . Đây sẽ là một mối tương quan giả và như vậy thường sẽ chỉ theo hướng giải thích rất ít phương sai trongy = X β + ϵ β = ( X ⊤ X ) - 1 X ⊤ y β X β y y β Xβy=Xβ+ϵβ=(X⊤X)−1X⊤yβXβyyβX. Các hướng giải thích rất ít phương sai thường là các hướng rất "ồn ào". Nếu vậy, mặc dù trên dữ liệu đào tạo, giải pháp OLS thực hiện rất tốt, nhưng khi kiểm tra dữ liệu, nó sẽ hoạt động kém hơn nhiều.
Để ngăn chặn quá mức, người ta sử dụng các phương pháp chính quy hóa mà về cơ bản buộc phải chỉ ra các hướng có phương sai cao trong (cái này còn được gọi là "co rút" của ; xem Tại sao co rút hoạt động? ). Một phương pháp như vậy là hồi quy thành phần chính (PCR) chỉ đơn giản là loại bỏ tất cả các hướng có phương sai thấp. Một phương pháp khác (tốt hơn) là hồi quy sườn mà xử phạt trơn tru các hướng phương sai thấp. Một phương pháp khác là PLS1.X ββXβ
PLS1 thay thế mục tiêu OLS là tìm tối đa hóa tương quan bằng một mục tiêu thay thế là tìm với độ dài tối đa hóa hiệp phương sai một lần nữa có hiệu quả xử phạt các phương sai thấp.corr ( X β , y ) β ‖ β ‖ = 1 cov ( X β , y ) ~ corr ( X β , y ) ⋅ √βcorr(Xβ,y)β∥β∥=1
cov(Xβ,y)∼corr(Xβ,y)⋅var(Xβ)−−−−−−−√,
Việc tìm kiếm như vậy (hãy gọi nó là ) mang lại thành phần PLS đầu tiên . Người ta có thể tìm kiếm thêm thành phần PLS thứ hai (và sau đó là thứ ba, v.v.) có hiệp phương sai cao nhất có thể với dưới sự ràng buộc của việc không tương thích với tất cả các thành phần trước đó. Điều này phải được giải quyết lặp đi lặp lại, vì không có giải pháp dạng đóng cho tất cả các thành phần (hướng của thành phần đầu tiên được đưa ra đơn giản bởiβ 1 z 1 = X β 1 y β 1 X ⊤ y β z β i β P L Sββ1z1=Xβ1yβ1X⊤ychuẩn hóa theo chiều dài đơn vị). Khi số lượng thành phần mong muốn được trích xuất, hồi quy PLS sẽ loại bỏ các yếu tố dự đoán ban đầu và sử dụng các thành phần PLS làm công cụ dự đoán mới; điều này mang lại một số kết hợp tuyến tính của chúng có thể được kết hợp với tất cả để tạo thành cuối cùng .βzβiβPLS
Lưu ý rằng:
- Nếu tất cả các thành phần PLS1 được sử dụng, thì PLS sẽ tương đương với OLS. Vì vậy, số lượng các thành phần phục vụ như là một tham số chính quy: số càng thấp, sự chính quy hóa càng mạnh.
- Nếu các yếu tố dự đoán không tương thích và tất cả đều có cùng phương sai (nghĩa là đã được làm trắng ), thì chỉ có một thành phần PLS1 và nó tương đương với OLS.XXX
- Các vectơ trọng lượng và cho sẽ không trực giao, nhưng sẽ mang lại các thành phần không tương thích và .βiβji≠jzi=Xβizj=Xβj
Tất cả những gì đã nói, tôi không nhận thấy bất kỳ lợi thế thực tế nào của hồi quy PLS1 so với hồi quy sườn (trong khi đó có rất nhiều ưu điểm: liên tục và không rời rạc, có giải pháp phân tích, chuẩn hơn nhiều, cho phép mở rộng nhân và phân tích công thức cho các lỗi xác thực chéo một lần, v.v.).
Trích dẫn từ Frank & Friedman:
RR, PCR và PLS được thấy trong Phần 3 để hoạt động theo cách tương tự. Mục tiêu chính của họ là thu nhỏ vectơ hệ số giải pháp ra khỏi giải pháp OLS về các hướng trong không gian biến dự đoán của sự lan truyền mẫu lớn hơn. PCR và PLS được xem là thu nhỏ nhiều hơn từ các hướng lan truyền thấp hơn RR, cung cấp độ co rút tối ưu (trong số các ước lượng tuyến tính) cho một sự cân bằng trước đó. Do đó, PCR và PLS đưa ra giả định rằng sự thật có khả năng có sự sắp xếp ưu tiên đặc biệt với các hướng lan truyền cao của phân phối biến dự báo (mẫu). Một kết quả hơi ngạc nhiên là PLS (ngoài ra) đặt khối lượng xác suất tăng lên trên vectơ hệ số thực thẳng hàng với hướng thành phần chính thứ , trong đóKK là số lượng thành phần PLS được sử dụng, trên thực tế mở rộng giải pháp OLS theo hướng đó.
Họ cũng tiến hành một nghiên cứu mô phỏng mở rộng và kết luận (nhấn mạnh của tôi):
Đối với các tình huống trong nghiên cứu mô phỏng này, người ta có thể kết luận rằng tất cả các phương pháp thiên vị (RR, PCR, PLS và VSS) cung cấp sự cải thiện đáng kể so với OLS. [...] Trong mọi tình huống, RR thống trị tất cả các phương pháp khác được nghiên cứu. PLS thường làm gần như RR và thường vượt trội so với PCR, nhưng không nhiều lắm.
Cập nhật: Trong các nhận xét @cbeleites (người làm việc trong ngành hóa học) gợi ý hai lợi thế có thể có của PLS so với RR:
Một nhà phân tích có thể có một tiên đoán như thế nào nhiều thành phần tiềm ẩn nên có mặt trong các dữ liệu; điều này sẽ cho phép thiết lập cường độ chính quy mà không cần xác thực chéo (và có thể không có đủ dữ liệu để thực hiện CV đáng tin cậy). Một lựa chọn ưu tiên của có thể có nhiều vấn đề hơn trong RR.λ
RR mang lại một kết hợp tuyến tính duy nhất là một giải pháp tối ưu. Ngược lại PLS với ví dụ năm thành phần mang lại năm kết hợp tuyến tính sau đó được kết hợp để dự đoán . Các biến ban đầu có mối tương quan chặt chẽ với nhau có khả năng được kết hợp thành một thành phần PLS duy nhất (vì kết hợp chúng với nhau sẽ làm tăng thuật ngữ phương sai được giải thích). Vì vậy, có thể giải thích các thành phần PLS riêng lẻ như một số yếu tố tiềm ẩn thực sự thúc đẩy . Khiếu nại là dễ hiểu hơn v.v., trái ngược với khớpβRRβiyyβ1,β2,βPLS. So sánh điều này với PCR trong đó người ta cũng có thể xem là một lợi thế mà các thành phần chính riêng lẻ có thể có khả năng được giải thích và gán một số ý nghĩa định tính.