Tôi nghĩ rằng không có câu trả lời duy nhất cho câu hỏi của bạn - nó phụ thuộc vào nhiều tình huống, dữ liệu và những gì bạn đang cố gắng làm. Một số sửa đổi có thể hoặc nên được sửa đổi để đạt được mục tiêu. Tuy nhiên các cuộc thảo luận chung sau đây có thể giúp đỡ.
Trước khi chuyển sang các phương pháp nâng cao hơn, trước tiên hãy thảo luận về mô hình cơ bản: Hồi quy Least Squares (LS) . Có hai lý do tại sao ước tính bình phương tối thiểu của các tham số trong mô hình đầy đủ là không thỏa mãn:
Chất lượng dự đoán: Ước tính bình phương nhỏ nhất thường có độ lệch nhỏ nhưng phương sai cao. Chất lượng dự đoán đôi khi có thể được cải thiện bằng cách thu nhỏ các hệ số hồi quy hoặc bằng cách đặt một số hệ số bằng 0. Bằng cách này, độ lệch tăng lên, nhưng phương sai của dự đoán giảm đáng kể dẫn đến dự đoán được cải thiện tổng thể. Có thể dễ dàng nhìn thấy sự cân bằng này giữa sai lệch và phương sai bằng cách phân tách lỗi bình phương trung bình (MSE). Một MSE nhỏ hơn dẫn đến dự đoán tốt hơn về các giá trị mới.
Khả năng diễn giải : Nếu có sẵn nhiều biến dự đoán, sẽ rất hợp lý khi xác định những biến có giá trị lớn nhất và đặt các biến thành 0 không liên quan đến dự đoán. Do đó, chúng tôi loại bỏ các biến sẽ chỉ giải thích một số chi tiết, nhưng chúng tôi giữ các biến cho phép giải thích chính về biến trả lời.
Do đó phương pháp lựa chọn biến đi vào cảnh. Với lựa chọn biến, chỉ một tập hợp con của tất cả các biến đầu vào được sử dụng, phần còn lại được loại bỏ khỏi mô hình. Hồi quy tập hợp con tốt nhất fi nds tập con có kích thước cho mỗi k ∈ { 0 , 1 , . . . , p } cung cấp RSS nhỏ nhất. Một thuật toán hiệu quả là thuật toán Leaps and Bound có thể xử lý tới 30 hoặc 40 biến hồi quy. Với bộ dữ liệu lớn hơn 40kk∈{0,1,...,p}304040các biến đầu vào tìm kiếm thông qua tất cả các tập hợp con có thể trở nên không khả thi. Do đó, chuyển tiếp lựa chọn từng bước và lựa chọn lùi từng bước là hữu ích. Lựa chọn lùi chỉ có thể được sử dụng khi để có một mô hình được định nghĩa tốt. Hiệu quả tính toán của các phương pháp này là nghi vấn khi p rất cao.n>pp
Trong nhiều tình huống, chúng tôi có một số lượng lớn đầu vào (như của bạn), thường có mối tương quan cao (như trong trường hợp của bạn). Trong trường hợp các hồi quy tương quan cao, OLS dẫn đến một tham số không ổn định về số , nghĩa là không đáng tin cậy ước tính. Để tránh vấn đề này, chúng tôi sử dụng các phương pháp sử dụng các hướng đầu vào dẫn xuất. Các phương thức này tạo ra một số lượng nhỏ kết hợp tuyến tính z k , k = 1 , 2 , . . . , q của các đầu vào ban đầu x j sau đó được sử dụng làm đầu vào trong hồi quy.βzk,k=1,2,...,qxj
Các phương pháp trong cách kết hợp tuyến tính được xây dựng. Hồi quy thành phần chính (PCR) tìm kiếm sự biến đổi của dữ liệu gốc thành một tập hợp các biến không tương quan mới gọi là thành phần chính .
yXyXβγγq≤pXyy
λ≥0λ
ββ
Xp−q
YiSự khác biệt giữa L1 và L2 chỉ là L2 là tổng bình phương của các trọng số, trong khi L1 chỉ là tổng các trọng số. L1-Norm có xu hướng tạo ra các hệ số thưa thớt và có tính năng Lựa chọn tích hợp . L1-Norm không có giải pháp phân tích, nhưng định mức L2 thì có. Điều này cho phép các giải pháp định mức L2 được tính toán hiệu quả. L2-Norm có các giải pháp duy nhất trong khi L1-Norm thì không.
s0s
p≫N
Thành phần chủ yếu phân tích là một phương pháp hiệu quả cho việc tìm kiếm sự kết hợp tuyến tính của các tính năng mà hiện sự thay đổi lớn trong một tập dữ liệu. Nhưng những gì chúng tôi tìm kiếm ở đây là sự kết hợp tuyến tính với cả phương sai cao và tương quan đáng kể với kết quả. Do đó, chúng tôi muốn khuyến khích phân tích thành phần chính để tìm ra các kết hợp tuyến tính của các tính năng có mối tương quan cao với kết quả - các thành phần chính được giám sát (xem trang 678, Thuật toán 18.1, trong cuốn sách Các yếu tố học tập thống kê ).
Một phần nhỏ nhất bình phương xuống trọng lượng các tính năng ồn ào, nhưng không ném chúng đi; kết quả là một số lượng lớn các tính năng ồn ào có thể làm ô nhiễm dự đoán. PLS ngưỡng có thể được xem là một phiên bản ồn ào của các thành phần chính được giám sát, và do đó chúng tôi có thể không mong đợi nó hoạt động tốt trong thực tế. Các thành phần chính được giám sát có thể mang lại các lỗi kiểm tra thấp hơn Ngưỡng PLS . Tuy nhiên, không phải lúc nào nó cũng tạo ra một mô hình thưa thớt chỉ liên quan đến một số lượng nhỏ các tính năng.
p