Tôi đang làm việc trong một dự án Machine Learning với dữ liệu đã bị sai lệch (nặng nề) bởi lựa chọn dữ liệu.
Giả sử bạn có một bộ quy tắc mã hóa cứng. Làm thế nào để bạn xây dựng một mô hình học máy để thay thế nó, khi tất cả dữ liệu nó có thể sử dụng là dữ liệu đã được lọc theo các quy tắc đó?
Để làm cho mọi thứ rõ ràng, tôi đoán ví dụ tốt nhất sẽ là Đánh giá rủi ro tín dụng : Nhiệm vụ là lọc tất cả các khách hàng có khả năng không thanh toán.
- Bây giờ, dữ liệu duy nhất (được gắn nhãn) bạn có từ các khách hàng đã được bộ quy tắc chấp nhận, bởi vì chỉ sau khi chấp nhận, bạn mới thấy ai đó trả tiền hay không (rõ ràng). Bạn không biết bộ quy tắc này tốt đến mức nào và chúng sẽ ảnh hưởng đến phân phối được trả tiền đến không phải trả như thế nào. Ngoài ra, bạn có dữ liệu chưa được gắn nhãn từ các máy khách đã bị từ chối, một lần nữa do bộ quy tắc. Vì vậy, bạn không biết điều gì sẽ xảy ra với những khách hàng đó nếu họ đã được chấp nhận.
Ví dụ: một trong những quy tắc có thể là: "Nếu tuổi của khách hàng <18 tuổi thì không chấp nhận"
Trình phân loại không có cách nào để tìm hiểu cách xử lý các máy khách đã được lọc theo các quy tắc này. Làm thế nào là phân loại được cho là để tìm hiểu mô hình ở đây?
Bỏ qua vấn đề này, sẽ dẫn đến mô hình được tiếp xúc với dữ liệu mà nó chưa từng gặp phải trước đây. Về cơ bản, tôi muốn ước tính giá trị của f (x) khi x nằm ngoài [a, b] ở đây.