Tôi có một bộ dữ liệu lớn bao gồm các giá trị của hàng trăm biến tài chính có thể được sử dụng trong hồi quy bội để dự đoán hành vi của một quỹ chỉ số theo thời gian. Tôi muốn giảm số lượng biến xuống còn mười hoặc hơn trong khi vẫn giữ được sức mạnh dự đoán càng nhiều càng tốt. Đã thêm: Tập hợp các biến giảm cần phải là tập hợp con của bộ biến ban đầu để duy trì ý nghĩa kinh tế của các biến ban đầu. Vì vậy, ví dụ, tôi không nên kết thúc với các kết hợp tuyến tính hoặc tổng hợp của các biến ban đầu.
Một số suy nghĩ (có thể ngây thơ) về cách làm điều này:
- Thực hiện hồi quy tuyến tính đơn giản với mỗi biến và chọn mười với giá trị lớn nhất . Tất nhiên, không có gì đảm bảo rằng mười biến cá nhân tốt nhất được kết hợp sẽ là nhóm mười biến tốt nhất.
- Thực hiện phân tích thành phần chính và cố gắng tìm mười biến ban đầu với các liên kết lớn nhất với một vài trục chính đầu tiên.
Tôi không nghĩ rằng tôi có thể thực hiện hồi quy phân cấp vì các biến không thực sự được lồng vào nhau. Thử tất cả các kết hợp có thể có của mười biến là không thể tính toán được vì có quá nhiều kết hợp.
Có một cách tiếp cận tiêu chuẩn để giải quyết vấn đề này về việc giảm số lượng biến trong hồi quy bội?
Có vẻ như đây sẽ là một vấn đề đủ phổ biến rằng sẽ có một cách tiếp cận tiêu chuẩn.
Một câu trả lời rất hữu ích sẽ là một câu hỏi không chỉ đề cập đến một phương pháp tiêu chuẩn mà còn đưa ra một cái nhìn tổng quan về cách thức và lý do tại sao nó hoạt động. Ngoài ra, nếu không có một cách tiếp cận tiêu chuẩn nào mà thay vào đó là nhiều cách tiếp cận với các điểm mạnh và điểm yếu khác nhau, một câu trả lời rất hữu ích sẽ là một câu hỏi thảo luận về ưu và nhược điểm của chúng.
bình luận của người dưới đây cho thấy rằng yêu cầu trong đoạn cuối quá rộng. Thay vào đó, tôi sẽ chấp nhận như một câu trả lời tốt một danh sách các cách tiếp cận chính, có lẽ với một mô tả rất ngắn gọn về mỗi phương pháp. Khi tôi có các điều khoản, tôi có thể tự tìm hiểu chi tiết về từng chi tiết.