Tại sao tất cả các thành phần PLS cùng nhau chỉ giải thích một phần của phương sai của dữ liệu gốc?


10

Tôi có một bộ dữ liệu bao gồm 10 biến. Tôi đã chạy bình phương tối thiểu một phần (PLS) để dự đoán một biến trả lời duy nhất theo 10 biến này, trích xuất 10 thành phần PLS và sau đó tính toán phương sai của từng thành phần. Trên dữ liệu gốc, tôi lấy tổng phương sai của tất cả các biến là 702.

Sau đó, tôi chia phương sai của từng thành phần PLS cho tổng này để lấy phần trăm phương sai được PLS giải thích, và đáng ngạc nhiên là tất cả các thành phần cùng nhau chỉ giải thích 44% phương sai ban đầu.

Giải thích về điều đó là gì? Không phải là 100% sao?


Như tôi biết ở phía phản hồi (y) xác định số lượng thành phần PLS là số lượng quan sát tối thiểu. tôi có 20 quan sát. Nhưng mặt khác, tôi chỉ có 10 biến độc lập khiến tôi bị giới hạn ở 10 PLS. Câu hỏi của tôi là công thức chung để tính toán phương sai được giải thích theo từng thành phần (PLS hoặc PCA).
Ress

mathworks.com/help/stats/plsregress.html ví dụ này chỉ có một biến ở phía Y và tính toán 10 thành phần.
Ress

Câu trả lời:


12

Tổng phương sai của tất cả các thành phần PLS thường nhỏ hơn 100%.

Có nhiều biến thể của bình phương nhỏ nhất một phần (PLS). Những gì bạn đã sử dụng ở đây, là hồi quy PLS của một biến trả lời đơn biến vào một số biến ; thuật toán này theo truyền thống được gọi là PLS1 (trái ngược với các biến thể khác, xem Rosipal & Kramer, 2006, Tổng quan và những tiến bộ gần đây trong bình phương tối thiểu để biết tổng quan ngắn gọn). PLS1 sau đó đã được hiển thị tương đương với một công thức thanh lịch hơn được gọi là SIMPLS (xem tài liệu tham khảo về Jong 1988 được trả tiền trong Rosipal & Kramer). Chế độ xem được cung cấp bởi SIMPLS giúp hiểu những gì đang diễn ra trong PLS1.yX

Nó chỉ ra rằng những gì PLS1 làm, là tìm một chuỗi các phép chiếu tuyến tính , sao cho:ti=Xwi

  1. Hiệp phương sai giữa và là tối đa;yti
  2. Tất cả các vectơ trọng lượng có chiều dài đơn vị, ;wi=1
  3. Bất kỳ hai thành phần PLS nào (còn gọi là vectơ điểm) và đều không tương thích.titj

Lưu ý rằng vectơ trọng lượng không phải (và không) trực giao.

Điều này có nghĩa là nếu bao gồm biến và bạn đã tìm thấy thành phần PLS, thì bạn đã tìm thấy một cơ sở không trực giao với các phép chiếu không tương quan trên các vectơ cơ sở. Một mặt toán học có thể chứng minh rằng trong một tình huống như vậy tổng của chênh lệch của tất cả các dự báo sẽ ít thì tổng phương sai của . Chúng sẽ bằng nhau nếu các vectơ trọng lượng là trực giao (ví dụ như trong PCA), nhưng trong PLS thì không phải như vậy.Xk=1010X

Tôi không biết về bất kỳ sách giáo khoa hay bài báo nào thảo luận rõ ràng về vấn đề này, nhưng trước đó tôi đã giải thích nó trong bối cảnh phân tích phân biệt tuyến tính (LDA) cũng đưa ra một số dự đoán không tương quan về các vectơ trọng lượng đơn vị không trực giao, xem tại đây : Tỷ lệ phương sai được giải thích trong PCA và LDA .


Cảm ơn bạn và vâng có ý nghĩa. Tôi không biết rằng các vectơ tải (trọng lượng) không trực giao. Do đó, nó không nắm bắt được phương sai tối đa của X. Theo ví dụ về MATLAB, bạn có thể giúp tôi làm thế nào để tôi có thể nhận được các giá trị "PCTVAR" một cách toán học không?.
Ress

Tôi không chắc chắn, nhưng tôi có thể nghĩ về nó. Có phải cột đầu tiên trong PCTVAR(phần trăm phương sai được giải thích trong X) không đồng ý với tính toán của bạn? Hay bạn đang hỏi về cột thứ hai (phần trăm phương sai được giải thích trong y)? Nói chung, nếu bạn muốn học toán PLS, thì tôi khuyên bạn nên bắt đầu đọc bài báo của Rosipal & Kramer và theo các liên kết.
amip nói phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.