Lý thuyết đằng sau hồi quy bình phương nhỏ nhất một phần


33

Bất cứ ai cũng có thể đề xuất một giải thích tốt về lý thuyết đằng sau hồi quy bình phương nhỏ nhất một phần (có sẵn trực tuyến) cho người hiểu về SVD và PCA? Tôi đã xem xét nhiều nguồn trực tuyến và không tìm thấy bất cứ điều gì có sự kết hợp đúng đắn của sự nghiêm ngặt và khả năng tiếp cận.

Tôi đã xem xét các yếu tố của học thống kê , được đề xuất trong một nhận xét về một câu hỏi được hỏi về Xác thực chéo , hồi quy một phần nhỏ nhất bình phương (PLS) là gì và nó khác với OLS như thế nào? , nhưng tôi không nghĩ rằng tài liệu tham khảo này thực hiện công bằng chủ đề (quá ngắn gọn để làm như vậy và không cung cấp nhiều lý thuyết về chủ đề này). Từ những gì tôi đã đọc, PLS khai thác các kết hợp tuyến tính của các biến dự đoán, tối đa hóa hiệp phương sai chịu các ràng buộc và z_i ^ Tz_j = 0 nếu i \ neq j , trong đó \ varphi_iy T z iφ i= 1 z T i z j = 0 i j φ izi=XφiyTziφi=1ziTzj=0ijφiđược chọn lặp đi lặp lại, theo thứ tự mà chúng tối đa hóa hiệp phương sai. Nhưng ngay cả sau khi tôi đã đọc, tôi vẫn không chắc liệu điều đó có đúng hay không, và nếu vậy, phương thức được thực thi như thế nào.

Câu trả lời:


38

Mục 3.5.2 trong Các yếu tố của học thống kê rất hữu ích vì nó đặt hồi quy PLS vào đúng ngữ cảnh (của các phương pháp chính quy hóa khác), nhưng thực sự rất ngắn gọn và để lại một số tuyên bố quan trọng là bài tập. Ngoài ra, nó chỉ xem xét một trường hợp của biến phụ thuộc đơn biến y .

Tài liệu về PLS rất rộng lớn, nhưng có thể khá khó hiểu vì có nhiều "hương vị" khác nhau của PLS: phiên bản đơn biến với một phiên bản DV y (PLS1) và đa biến với một số phiên bản DVs Y (PLS2) coi XY bằng nhau và các phiên bản không đối xứng ("hồi quy PLS") coi X là độc lập và Y là các biến phụ thuộc, các phiên bản cho phép giải pháp toàn cầu thông qua SVD và các phiên bản yêu cầu độ lệch lặp để tạo ra mỗi lần lặp cặp hướng PLS, v.v.

Tất cả những điều này đã được phát triển trong lĩnh vực hóa học và phần nào bị ngắt kết nối với tài liệu thống kê hoặc học máy "chính thống".

Tài liệu tổng quan mà tôi thấy hữu ích nhất (và có chứa nhiều tài liệu tham khảo hơn) là:

Đối với một cuộc thảo luận lý thuyết hơn, tôi có thể đề nghị thêm:


Một đoạn trích ngắn về hồi quy PLS với đơn biến (còn gọi là PLS1, còn gọi là SIMPLS)y

Mục tiêu của hồi quy là ước tính trong mô hình tuyến tính . Giải pháp OLS thích nhiều thuộc tính tối ưu nhưng có thể bị ảnh hưởng bởi quá mức. Thật vậy, OLS tìm kiếm mang lại mối tương quan cao nhất có thể có của với . Nếu có nhiều dự đoán, thì luôn có thể tìm thấy một số kết hợp tuyến tính xảy ra có tương quan cao với . Đây sẽ là một mối tương quan giả và như vậy thường sẽ chỉ theo hướng giải thích rất ít phương sai trongy = X β + ϵ β = ( XX ) - 1 Xy β X β y y β Xβy=Xβ+ϵβ=(XX)1XyβXβyyβX. Các hướng giải thích rất ít phương sai thường là các hướng rất "ồn ào". Nếu vậy, mặc dù trên dữ liệu đào tạo, giải pháp OLS thực hiện rất tốt, nhưng khi kiểm tra dữ liệu, nó sẽ hoạt động kém hơn nhiều.

Để ngăn chặn quá mức, người ta sử dụng các phương pháp chính quy hóa mà về cơ bản buộc phải chỉ ra các hướng có phương sai cao trong (cái này còn được gọi là "co rút" của ; xem Tại sao co rút hoạt động? ). Một phương pháp như vậy là hồi quy thành phần chính (PCR) chỉ đơn giản là loại bỏ tất cả các hướng có phương sai thấp. Một phương pháp khác (tốt hơn) là hồi quy sườn mà xử phạt trơn tru các hướng phương sai thấp. Một phương pháp khác là PLS1.X ββXβ

PLS1 thay thế mục tiêu OLS là tìm tối đa hóa tương quan bằng một mục tiêu thay thế là tìm với độ dài tối đa hóa hiệp phương sai một lần nữa có hiệu quả xử phạt các phương sai thấp.corr ( X β , y ) β β = 1 cov ( X β , y ) ~ corr ( X β , y ) βcorr(Xβ,y)ββ=1

cov(Xβ,y)corr(Xβ,y)var(Xβ),

Việc tìm kiếm như vậy (hãy gọi nó là ) mang lại thành phần PLS đầu tiên . Người ta có thể tìm kiếm thêm thành phần PLS thứ hai (và sau đó là thứ ba, v.v.) có hiệp phương sai cao nhất có thể với dưới sự ràng buộc của việc không tương thích với tất cả các thành phần trước đó. Điều này phải được giải quyết lặp đi lặp lại, vì không có giải pháp dạng đóng cho tất cả các thành phần (hướng của thành phần đầu tiên được đưa ra đơn giản bởiβ 1 z 1 = X β 1 y β 1 Xy β z β i β P L Sββ1z1=Xβ1yβ1Xychuẩn hóa theo chiều dài đơn vị). Khi số lượng thành phần mong muốn được trích xuất, hồi quy PLS sẽ loại bỏ các yếu tố dự đoán ban đầu và sử dụng các thành phần PLS làm công cụ dự đoán mới; điều này mang lại một số kết hợp tuyến tính của chúng có thể được kết hợp với tất cả để tạo thành cuối cùng .βzβiβPLS

Lưu ý rằng:

  1. Nếu tất cả các thành phần PLS1 được sử dụng, thì PLS sẽ tương đương với OLS. Vì vậy, số lượng các thành phần phục vụ như là một tham số chính quy: số càng thấp, sự chính quy hóa càng mạnh.
  2. Nếu các yếu tố dự đoán không tương thích và tất cả đều có cùng phương sai (nghĩa là đã được làm trắng ), thì chỉ có một thành phần PLS1 và nó tương đương với OLS.XXX
  3. Các vectơ trọng lượng và cho sẽ không trực giao, nhưng sẽ mang lại các thành phần không tương thích và .βiβjijzi=Xβizj=Xβj

Tất cả những gì đã nói, tôi không nhận thấy bất kỳ lợi thế thực tế nào của hồi quy PLS1 so với hồi quy sườn (trong khi đó có rất nhiều ưu điểm: liên tục và không rời rạc, có giải pháp phân tích, chuẩn hơn nhiều, cho phép mở rộng nhân và phân tích công thức cho các lỗi xác thực chéo một lần, v.v.).


Trích dẫn từ Frank & Friedman:

RR, PCR và PLS được thấy trong Phần 3 để hoạt động theo cách tương tự. Mục tiêu chính của họ là thu nhỏ vectơ hệ số giải pháp ra khỏi giải pháp OLS về các hướng trong không gian biến dự đoán của sự lan truyền mẫu lớn hơn. PCR và PLS được xem là thu nhỏ nhiều hơn từ các hướng lan truyền thấp hơn RR, cung cấp độ co rút tối ưu (trong số các ước lượng tuyến tính) cho một sự cân bằng trước đó. Do đó, PCR và PLS đưa ra giả định rằng sự thật có khả năng có sự sắp xếp ưu tiên đặc biệt với các hướng lan truyền cao của phân phối biến dự báo (mẫu). Một kết quả hơi ngạc nhiên là PLS (ngoài ra) đặt khối lượng xác suất tăng lên trên vectơ hệ số thực thẳng hàng với hướng thành phần chính thứ , trong đóKK là số lượng thành phần PLS được sử dụng, trên thực tế mở rộng giải pháp OLS theo hướng đó.

Họ cũng tiến hành một nghiên cứu mô phỏng mở rộng và kết luận (nhấn mạnh của tôi):

Đối với các tình huống trong nghiên cứu mô phỏng này, người ta có thể kết luận rằng tất cả các phương pháp thiên vị (RR, PCR, PLS và VSS) cung cấp sự cải thiện đáng kể so với OLS. [...] Trong mọi tình huống, RR thống trị tất cả các phương pháp khác được nghiên cứu. PLS thường làm gần như RR và thường vượt trội so với PCR, nhưng không nhiều lắm.


Cập nhật: Trong các nhận xét @cbeleites (người làm việc trong ngành hóa học) gợi ý hai lợi thế có thể có của PLS so với RR:

  1. Một nhà phân tích có thể có một tiên đoán như thế nào nhiều thành phần tiềm ẩn nên có mặt trong các dữ liệu; điều này sẽ cho phép thiết lập cường độ chính quy mà không cần xác thực chéo (và có thể không có đủ dữ liệu để thực hiện CV đáng tin cậy). Một lựa chọn ưu tiên của có thể có nhiều vấn đề hơn trong RR.λ

  2. RR mang lại một kết hợp tuyến tính duy nhất là một giải pháp tối ưu. Ngược lại PLS với ví dụ năm thành phần mang lại năm kết hợp tuyến tính sau đó được kết hợp để dự đoán . Các biến ban đầu có mối tương quan chặt chẽ với nhau có khả năng được kết hợp thành một thành phần PLS duy nhất (vì kết hợp chúng với nhau sẽ làm tăng thuật ngữ phương sai được giải thích). Vì vậy, có thể giải thích các thành phần PLS riêng lẻ như một số yếu tố tiềm ẩn thực sự thúc đẩy . Khiếu nại là dễ hiểu hơn v.v., trái ngược với khớpβRRβiyyβ1,β2,βPLS. So sánh điều này với PCR trong đó người ta cũng có thể xem là một lợi thế mà các thành phần chính riêng lẻ có thể có khả năng được giải thích và gán một số ý nghĩa định tính.


1
Giấy đó có vẻ hữu ích. Tôi không nghĩ rằng nó giải quyết được việc quá mức có thể gây ra bởi PLS.
Frank Harrell

3
XY

3
Kinh nghiệm của tôi là sườn núi (ước lượng khả năng tối đa bị phạt bậc hai) đưa ra dự đoán vượt trội. Tôi nghĩ rằng một số nhà phân tích cảm thấy rằng PLS là một kỹ thuật giảm kích thước theo nghĩa tránh quá mức nhưng tôi thu thập đó không phải là trường hợp.
Frank Harrell

2
b) nếu bạn đang tìm kiếm một giải thích quang phổ về những gì mô hình làm, tôi thấy dễ dàng hơn khi xem xét tải PLS loại chất nào được đo. Bạn có thể tìm thấy một hoặc hai nhóm chất / chất trong đó, các hệ số bao gồm tất cả các biến tiềm ẩn khó diễn giải hơn vì sự đóng góp phổ của nhiều chất được kết hợp. Điều này nổi bật hơn vì không phải tất cả các quy tắc giải đoán phổ thông thường đều áp dụng: mô hình PLS có thể chọn một số dải của một chất trong khi bỏ qua các dải khác. Giải đoán phổ "Bình thường" sử dụng rất nhiều băng tần này có thể ...
cbeleites hỗ trợ Monica

2
... đến từ chất này hay chất kia. Nếu nó là chất này, phải có ban nhạc khác. Vì khả năng xác minh chất sau này là không thể với các biến / tải / hệ số tiềm ẩn, việc diễn giải những thứ khác nhau và do đó kết thúc trong cùng một biến tiềm ẩn dễ dàng hơn nhiều so với việc diễn giải các hệ số đã tóm tắt tất cả các loại "gợi ý có thể "Được mô hình biết đến.
cbeleites hỗ trợ Monica

4

Vâng. Cuốn sách của Herman Wold Thuyết thực nghiệm: Một lý do chung cho việc xây dựng mô hình khoa học là sự giải thích tốt nhất về PLS mà tôi biết, đặc biệt là Wold là người khởi xướng phương pháp này. Chưa kể rằng nó chỉ đơn giản là một cuốn sách thú vị để đọc và biết về nó. Ngoài ra, dựa trên tìm kiếm trên Amazon, số lượng tài liệu tham khảo về sách về PLS viết bằng tiếng Đức thật đáng kinh ngạc nhưng có thể phụ đề của cuốn sách của Wold là một phần lý do cho điều đó.


1
Điều này amazon.com/Towards-Unified-Sellectific-Models-Methods/dp/ cường có liên quan nhưng bao gồm nhiều hơn PLS
kjetil b halvorsen

Đó là sự thật nhưng trọng tâm chính của cuốn sách là sự phát triển lý thuyết và ứng dụng của PLS.
Mike Hunter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.