Làm thế nào để xử lý sự khác biệt giữa phân phối của tập kiểm tra và tập huấn luyện?


23

Tôi nghĩ một giả định cơ bản của học máy hoặc ước lượng tham số là dữ liệu không nhìn thấy đến từ cùng một phân phối với tập huấn luyện. Tuy nhiên, trong một số trường hợp thực tế, việc phân phối bộ kiểm tra sẽ gần như khác với tập huấn luyện.

Nói cho một vấn đề đa phân loại quy mô lớn cố gắng phân loại mô tả sản phẩm thành khoảng 17.000 lớp. Tập huấn luyện sẽ có các thầy tu lớp rất sai lệch, như vậy một số lớp có thể có nhiều ví dụ đào tạo, nhưng một số có thể chỉ có một vài. Giả sử chúng ta được cung cấp một bộ kiểm tra với các nhãn lớp không xác định từ máy khách. Chúng tôi cố gắng phân loại từng sản phẩm trong bộ thử nghiệm thành một trong 17.000 lớp, sử dụng bộ phân loại được đào tạo trên bộ huấn luyện. Bộ kiểm tra có thể có các phân phối lớp bị lệch nhưng có lẽ rất khác so với tập huấn luyện, vì chúng có thể liên quan đến các lĩnh vực kinh doanh khác nhau. Nếu hai bản phân phối lớp rất khác nhau, bộ phân loại được đào tạo có thể không hoạt động tốt trong tập kiểm tra. Điều này có vẻ đặc biệt rõ ràng với phân loại Naive Bayes.

Có cách nào nguyên tắc để xử lý sự khác biệt giữa tập huấn luyện và tập kiểm tra cụ thể cho các phân loại xác suất không? Tôi đã nghe nói rằng "SVM chuyển tải" thực hiện điều tương tự trong SVM. Có các kỹ thuật tương tự để tìm hiểu một bộ phân loại hoạt động tốt nhất trên một bộ kiểm tra cụ thể không? Sau đó, chúng ta có thể đào tạo lại trình phân loại cho các bộ kiểm tra đã cho khác nhau, như được cho phép trong kịch bản thực tế này.

Câu trả lời:


17

Nếu sự khác biệt chỉ nằm ở tần số lớp tương đối trong các tập huấn luyện và kiểm tra, thì tôi sẽ khuyến nghị quy trình EM được giới thiệu trong bài viết này:

Marco Saerens, Patrice Latinne, Christine Decaestecker: Điều chỉnh đầu ra của Trình phân loại thành Xác suất Priori mới: Một thủ tục đơn giản. Tính toán thần kinh 14 (1): 21-41 (2002) ( www )

Tôi đã sử dụng nó một mình và thấy nó hoạt động rất tốt (bạn cần một trình phân loại đưa ra xác suất thành viên của lớp).

Nếu sự phân bố các mẫu trong mỗi lớp thay đổi, thì vấn đề được gọi là "sự thay đổi đồng biến" và có một cuốn sách tuyệt vời của Sugiyama và Kawanabe . Nhiều bài viết của nhóm này có sẵn trên mạng, nhưng tôi thực sự khuyên bạn nên đọc cuốn sách này nếu bạn có thể giữ một bản sao. Ý tưởng cơ bản là cân trọng lượng dữ liệu đào tạo theo sự khác biệt về mật độ giữa tập huấn luyện và tập kiểm tra (đối với nhãn không bắt buộc). Một cách đơn giản để lấy trọng số là sử dụng hồi quy logistic để dự đoán xem một mẫu được rút ra từ tập huấn luyện hay tập kiểm tra. Phần khó khăn là trong việc lựa chọn bao nhiêu trọng lượng để áp dụng.

Xem thêm bài viết blog tốt đẹp của Alex Smola ở đây .


Cảm ơn bạn rất nhiều vì đã cung cấp rất nhiều gợi ý hữu ích!
Fashandge

không có vấn đề gì, những tình huống "không chuẩn" này thực sự rất thú vị và sự thay đổi đồng biến là một lĩnh vực nghiên cứu đặc biệt hữu ích.
Dikran Marsupial

1
Thật tốt khi biết điều đó. Mặc dù "không chuẩn", nhưng nó thực tế trong thực tế.
Fashandge

1

Tôi đã tìm thấy một hướng dẫn tuyệt vời về thích ứng tên miền có thể giúp giải thích chi tiết hơn về điều này: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html Một giải pháp chưa được đề cập ở đây là dựa trên trên QUẢNG CÁO. Đây là liên kết đến bài viết gốc: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf Ý tưởng cơ bản là sử dụng một số dữ liệu thử nghiệm mới để cập nhật việc học từ dữ liệu xe lửa . Bài viết này là phần nổi của iceburg về học chuyển - nơi bạn lấy những gì bạn biết từ một nhiệm vụ và áp dụng nó cho một nhiệm vụ khác.


1
Bạn có thể bao gồm một số điểm tóm tắt chính từ hướng dẫn đầu tiên cụ thể trong trường hợp liên kết bị chết hoặc thay đổi vị trí của nó không? Chúng tôi gặp vấn đề với "liên kết thối" ở đây khi giá trị của một số câu trả lời cũ của chúng tôi đã bị suy giảm do các liên kết ngừng hoạt động, vì vậy thật tuyệt nếu câu trả lời có thể khép kín nhất có thể
Silverfish

Đây là một liên kết được lưu trữ: web.archive.org/web/20170930145238/http://sifaka.cs.uiuc.edu/ Kẻ
Justas
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.