k-Fold Xác nhận chéo của việc học tập

Tôi bối rối về cách phân vùng dữ liệu để xác thực chéo k-gấp của việc học tập đồng bộ.

Giả sử tôi có một khung học tập chung để phân loại. Lớp đầu tiên của tôi chứa các mô hình phân loại, ví dụ: Svm, cây quyết định.

Lớp thứ hai của tôi chứa một mô hình bỏ phiếu, kết hợp các dự đoán từ lớp đầu tiên và đưa ra dự đoán cuối cùng.

Nếu chúng ta sử dụng xác nhận 5 lần chéo, tôi nghĩ đến việc sử dụng 5 lần như sau:

3 lần để đào tạo lớp đầu tiên
1 lần để đào tạo lớp thứ hai
1 lần để thử nghiệm

Đây có phải là cách chính xác? Dữ liệu đào tạo cho lớp thứ nhất và thứ hai có nên độc lập không? Tôi nghĩ họ nên độc lập để khung học tập sẽ mạnh mẽ.

Bạn tôi đề xuất dữ liệu huấn luyện cho lớp thứ nhất và thứ hai phải giống nhau, nghĩa là

4 lần để đào tạo lớp thứ nhất và thứ hai
1 lần để thử nghiệm

Theo cách này, chúng ta sẽ có một lỗi chính xác hơn về khung học tập đồng bộ và việc điều chỉnh lặp lại khung sẽ chính xác hơn, vì nó dựa trên một dữ liệu đào tạo duy nhất. Hơn nữa, lớp thứ hai có thể là thiên vị đối với dữ liệu đào tạo độc lập

Bất kỳ lời khuyên nào cũng được đánh giá cao

classification cross-validation ensemble

— Michael
nguồn

Học tập đồng bộ đề cập đến khá nhiều phương pháp khác nhau. Tăng cường và đóng bao có lẽ là hai phổ biến nhất. Có vẻ như bạn đang cố gắng thực hiện một phương pháp học tập đồng bộ gọi là xếp chồng . Xếp chồng nhằm mục đích cải thiện độ chính xác bằng cách kết hợp các dự đoán từ một số thuật toán học tập. Có khá nhiều cách để thực hiện xếp chồng và không có nhiều lý thuyết nghiêm ngặt. Đó là trực quan và phổ biến mặc dù.

Hãy xem xét cách tiếp cận của bạn bè. Bạn đang điều chỉnh các mô hình lớp đầu tiên trên bốn trong năm lần và sau đó điều chỉnh mô hình lớp thứ hai (biểu quyết) bằng cách sử dụng cùng bốn lần. Vấn đề là lớp thứ hai sẽ ưu tiên cho mô hình có lỗi đào tạo thấp nhất. Bạn đang sử dụng cùng một dữ liệu để phù hợp với các mô hình và đưa ra một quy trình để tổng hợp các mô hình đó. Lớp thứ hai nên kết hợp các mô hình bằng cách sử dụng các dự đoán ngoài mẫu . Phương pháp của bạn tốt hơn, nhưng vẫn có cách để làm tốt hơn nữa.

Chúng tôi sẽ tiếp tục để lại một lần cho mục đích thử nghiệm. Thực hiện bốn lần và sử dụng CV 4 lần để có được các dự đoán ngoài mẫu cho từng mô hình lớp đầu tiên của bạn trên tất cả bốn lần. Đó là, bỏ qua một trong bốn lần và khớp với các mô hình trên ba lần còn lại và sau đó dự đoán về dữ liệu bị giữ lại. Lặp lại cho tất cả bốn lần để bạn có được dự đoán ngoài mẫu trên cả bốn lần. Sau đó, phù hợp với mô hình lớp thứ hai trên các dự đoán ngoài mẫu này. Sau đó lắp lại các mô hình lớp đầu tiên trên cả bốn nếp gấp. Bây giờ bạn có thể đi đến lần thứ năm mà bạn chưa chạm vào. Sử dụng các mô hình lớp đầu tiên phù hợp với tất cả bốn nếp gấp cùng với mô hình lớp thứ hai để ước tính lỗi trên dữ liệu bị giữ. Bạn có thể lặp lại quá trình này một lần nữa với các nếp gấp khác được giữ ngoài mô hình lớp thứ nhất và lớp thứ hai.

Nếu bạn hài lòng với hiệu suất thì hãy tạo các dự đoán ngoài mẫu cho các mô hình lớp đầu tiên trên tất cả năm nếp gấp và sau đó khớp với mô hình lớp thứ hai trên các mô hình này. Sau đó, khớp các mô hình lớp đầu tiên lần cuối trên tất cả dữ liệu của bạn và sử dụng các mô hình này với mô hình lớp thứ hai trên bất kỳ dữ liệu mới nào!

Cuối cùng, một số lời khuyên chung. Bạn sẽ nhận được nhiều lợi ích hơn nếu các mô hình lớp đầu tiên của bạn khá khác biệt với nhau. Bạn đang đi đúng hướng ở đây bằng cách sử dụng SVM và các cây quyết định, khá khác nhau. Vì có một hiệu ứng trung bình từ mô hình lớp thứ hai, bạn có thể muốn thử tăng quá mức các mô hình lớp đầu tiên của mình, đặc biệt nếu bạn có rất nhiều trong số chúng. Lớp thứ hai nói chung là một cái gì đó đơn giản và các ràng buộc như không tiêu cực về trọng lượng và tính đơn điệu là phổ biến. Cuối cùng, hãy nhớ rằng việc xếp chồng phụ thuộc vào xác nhận chéo, đây chỉ là ước tính về rủi ro thực sự. Nếu bạn nhận được tỷ lệ lỗi rất khác nhau và trọng lượng mô hình rất khác nhau trên các nếp gấp, điều đó cho thấy rằng ước tính rủi ro dựa trên cv của bạn có phương sai cao. Trong trường hợp đó, bạn có thể muốn xem xét một sự pha trộn đơn giảncủa các mô hình lớp đầu tiên của bạn. Hoặc, bạn có thể thỏa hiệp bằng cách xếp chồng với các ràng buộc về trọng lượng tối đa / phút được đặt trên mỗi mô hình lớp đầu tiên.

— MichaelJ
nguồn

Cảm ơn bạn đã gợi ý rất hữu ích của bạn. Tôi không hiểu đoạn thứ tư của bạn. Dường như với tôi rằng nó đang đào tạo lại? Tôi nghĩ đoạn thứ ba của bạn đã tóm tắt phương pháp đề xuất của bạn?

— Michael

Như thường lệ với xác thực chéo, một khi chúng tôi hài lòng với mô hình chúng tôi sẽ đào tạo lại bằng cách sử dụng tất cả dữ liệu. Các mô hình được mô tả trong đoạn ba không phù hợp với dữ liệu được tổ chức. Giữ dữ liệu là một công cụ để hướng dẫn đánh giá và lựa chọn mô hình. Bạn phải luôn luôn phù hợp với mô hình cuối cùng trên tất cả các dữ liệu.

— MichaelJ

Dường như với tôi rằng cách tiếp cận này tương tự như một mạng lưới thần kinh tiếp theo

— Michael

Giải thích tuyệt vời. Điều duy nhất thiếu là một sơ đồ;)

— josh