Làm thế nào để sử dụng các thành phần chính làm công cụ dự đoán trong GLM?


9

Làm cách nào để sử dụng đầu ra của phân tích thành phần chính (PCA) trong mô hình tuyến tính tổng quát (GLM), giả sử PCA được sử dụng để lựa chọn biến cho GLM?

Làm rõ: Tôi muốn sử dụng PCA để tránh sử dụng các biến tương quan trong GLM. Tuy nhiên, PCA cung cấp cho tôi đầu ra như .2*variable1+.5*variable3v.v. Tôi đã quen với việc đưa biến 1 và 3 vào GLM. Vì PCA cung cấp cho tôi một tổ hợp tuyến tính, ví dụ tôi có nên đưa nó vào GLM như một biến mới (để tính đến sự thay đổi hệ thống trong phản ứng của các biến 1 và 3) không?

Câu trả lời:


12

Có thể và đôi khi thích hợp để sử dụng tập hợp con của các thành phần chính làm biến giải thích trong mô hình tuyến tính thay vì các biến ban đầu. Các hệ số kết quả sau đó cần phải được chuyển đổi ngược lại để áp dụng cho các biến ban đầu. Kết quả là sai lệch nhưng có thể vượt trội so với các kỹ thuật đơn giản hơn.

PCA cung cấp một tập hợp các thành phần chính là sự kết hợp tuyến tính của các biến ban đầu. Nếu bạn có biến ban đầu , cuối cùng bạn vẫn có thành phần chính, nhưng chúng đã được xoay qua không gian -dimensional để chúng trực giao với (ví dụ như không tương thích với nhau) (điều này dễ nghĩ nhất chỉ với hai biến). kkk

Mẹo để sử dụng kết quả PCA trong mô hình tuyến tính là bạn đưa ra quyết định loại bỏ một số thành phần chính nhất định. Quyết định này dựa trên các tiêu chí tương tự với các quy trình lựa chọn biến nghệ thuật đen "thông thường" cho các mô hình tòa nhà.

Phương pháp được sử dụng để đối phó với đa cộng tuyến. Nó khá phổ biến trong hồi quy tuyến tính với hàm phản hồi và hàm liên kết nhận dạng bình thường từ bộ dự báo tuyến tính đến đáp ứng; nhưng ít phổ biến hơn với một mô hình tuyến tính tổng quát. Có ít nhất một bài viết về các vấn đề trên web.

Tôi không biết về bất kỳ triển khai phần mềm thân thiện với người dùng nào. Sẽ khá đơn giản để thực hiện PCA và sử dụng các thành phần chính kết quả làm biến giải thích của bạn trong mô hình tuyến tính tổng quát; và sau đó để dịch trở lại quy mô ban đầu. Ước tính phân phối (phương sai, sai lệch và hình dạng) của các công cụ ước tính của bạn đã làm điều này sẽ rất khó khăn; đầu ra tiêu chuẩn từ mô hình tuyến tính tổng quát của bạn sẽ sai vì nó giả định rằng bạn đang xử lý các quan sát ban đầu. Bạn có thể xây dựng một bootstrap xung quanh toàn bộ quy trình (PCA và glm kết hợp), điều này sẽ khả thi trong cả R hoặc SAS.


5

Câu trả lời của tôi không dành cho câu hỏi ban đầu, mà là nhận xét về cách tiếp cận của bạn.

Đầu tiên áp dụng PCA, sau đó chạy mô hình tuyến tính tổng quát không được khuyến khích. Lý do là PCA sẽ chọn tầm quan trọng của biến theo "phương sai biến" chứ không phải "cách biến tương quan với mục tiêu dự đoán". Nói cách khác, "biến chọn" có thể hoàn toàn sai lệch, chọn không phải là biến quan trọng.

Dưới đây là một ví dụ: các chương trình tương lai còn lại x1là điều quan trọng để phân loại hai loại điểm. Nhưng PCA cho thấy điều ngược lại.

nhập mô tả hình ảnh ở đây

Chi tiết có thể được tìm thấy trong câu trả lời của tôi ở đây. Làm thế nào để quyết định giữa PCA và hồi quy logistic?


3

Tôi sẽ đề nghị bạn hãy xem bài báo này. Nó thực hiện một công việc tốt cho thấy mối quan hệ giữa các bản phân phối gia đình gaussian và các hệ thống người học giống như PCA.

http: // Vogue.nips.cc/apers/2078-a-generalization-of-principal-components-analysis-to-the-exponential-family.pdf

BIÊN TẬP

Tóm tắt nội dung: trong khi nhiều người nghĩ về PCA từ cách giải thích hình học của việc tìm các vectơ trực giao trong bộ dữ liệu chịu trách nhiệm lớn nhất về phương sai và sau đó cung cấp các tham số để định hướng chính xác không gian của một vectơ đó, bài báo này xây dựng PCA bằng các hàm xác suất theo hàm mũ trong bối cảnh của các mô hình tuyến tính tổng quát và cung cấp PCA mở rộng mạnh mẽ hơn cho các hàm xác suất khác trong họ hàm mũ. Ngoài ra, họ xây dựng một thuật toán người học giống như PCA bằng cách sử dụng các phân kỳ bregman. Nó khá dễ để theo dõi và đối với bạn, có vẻ như nó có thể giúp bạn hiểu được mối liên kết giữa PCA và các mô hình tuyến tính tổng quát.

trích dẫn:

Collins, Michael và cộng sự. "Một khái quát về phân tích thành phần chính cho gia đình hàm mũ". Hệ thống xử lý thông tin thần kinh


Hi gung, xin lỗi về điều đó, tôi hoàn toàn hiểu!
themantalope
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.