Chọn số lượng thành phần chính thưa thớt để đưa vào hồi quy


9

Có ai có kinh nghiệm với các cách tiếp cận để chọn số lượng các thành phần chính thưa thớt để đưa vào mô hình hồi quy không?


Tôi không có kinh nghiệm với điều đó một cách cụ thể, nhưng tôi cho rằng việc xác thực chéo sẽ là một cách tiếp cận tốt (như mọi khi).
amip

Câu trả lời:


4

Trong khi tôi không có cái nhìn sâu sắc trực tiếp về câu hỏi của bạn, tôi đã xem qua một số tài liệu nghiên cứu , có thể là mối quan tâm của bạn. Tất nhiên, đó là, nếu tôi hiểu chính xác rằng bạn đang nói về PCA thưa thớt , hồi quy thành phần chính và các chủ đề liên quan. Trong trường hợp đó, đây là các giấy tờ:


1
Tôi không biết về tất cả các tài liệu tham khảo này. Họ rất tốt - cảm ơn.
Frank Harrell

@FrankHarrell: Bạn rất hoan nghênh! Rất vui vì tôi có thể giúp.
Alexanderr Blekh 30/12/14

1

Các kết quả xác thực chéo cũng được sử dụng để xác định số lượng kích thước tối ưu cho không gian LSI. Quá ít kích thước không tận dụng được sức mạnh dự đoán của dữ liệu; trong khi quá nhiều kích thước dẫn đến phù hợp quá mức. Hình. 4 cho thấy sự phân phối các lỗi trung bình cho các mô hình có số lượng kích thước LSI khác nhau. Các mô hình có không gian LSI bốn chiều tạo ra cả số lỗi trung bình ít nhất và số lỗi trung bình ít nhất, do đó mô hình cuối cùng được xây dựng bằng không gian LSI bốn chiều.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber

Tôi có thể đăng một bản sao nếu bạn không phải là thành viên ieee.

Đây là từ một bài báo tôi đã viết trong sinh viên. Tôi gặp vấn đề khi cần quyết định có bao nhiêu thứ nguyên (Lập chỉ mục ngữ nghĩa tiềm ẩn tương tự PCA) để sử dụng trong mô hình hồi quy logistic của tôi. Những gì tôi đã làm là chọn một số liệu (tức là tỷ lệ lỗi khi sử dụng xác suất gắn cờ là 0,5) và xem xét phân phối cho tỷ lệ lỗi này cho các mô hình khác nhau được đào tạo trên số lượng kích thước khác nhau. Sau đó tôi chọn mô hình với tỷ lệ lỗi thấp nhất. Bạn có thể sử dụng các số liệu khác như diện tích dưới đường cong ROC.

Bạn cũng có thể sử dụng một cái gì đó như hồi quy từng bước để chọn số lượng kích thước cho bạn. Loại hồi quy nào bạn đang tạo mẫu cụ thể?

Bạn có ý nghĩa gì bởi btw thưa thớt?


PC thưa thớt là ví dụ PCA mở rộng L1 (lasso). Trong PCA thông thường, chúng ta thường có thể nhập các thuật ngữ theo thứ tự biến thể được giải thích. Với PCA thưa thớt, mọi thứ sẽ thất thường hơn một chút nên việc lựa chọn có lẽ khó khăn hơn.
Frank Mitchell

Câu hỏi đặt ra là đặc biệt về thưa thớt thành phần chủ yếu, và câu trả lời này (tốt vì nó là) không đề cập đến nó ở tất cả , vì vậy -1.
amip

Y

@FrankHarrell có khả năng xảy ra nhưng ít xảy ra nếu bạn sử dụng AIC thay vì bình phương R
Andrew Cassidy

@amoeba Tôi bối rối ... không tôi không giải quyết phần "thưa thớt" trong các nhận xét chính, nhưng bạn đã đưa ra đề xuất chính xác tương tự để sử dụng xác thực chéo trong một nhận xét?
Andrew Cassidy
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.