Đây là một vấn đề phân loại nhị phân. Số liệu đang được tối thiểu hóa là mất log (hoặc entropy chéo). Tôi cũng có một số chính xác, chỉ cho thông tin của tôi. Nó là một tập hợp dữ liệu lớn, rất cân bằng. Các kỹ thuật dự đoán rất ngây thơ nhận được độ chính xác khoảng 50% và mất 0,693 log. Điều tốt nhất tôi có thể loại bỏ là độ chính xác 52,5% và mất 0,6915 log. Vì chúng tôi đang cố gắng giảm thiểu việc mất nhật ký, chúng tôi luôn nhận được một tập hợp các xác suất (các predict_proba
hàm trong sklearn và máy ảnh). Đó là tất cả các nền tảng, bây giờ các câu hỏi.
Hãy nói rằng tôi có thể sử dụng 2 kỹ thuật khác nhau để tạo 2 bộ dự đoán khác nhau có độ chính xác và số liệu mất nhật ký tương đương. Ví dụ: tôi có thể sử dụng 2 nhóm tính năng đầu vào khác nhau để tạo ra 2 bộ dự đoán có độ chính xác khoảng 52% với <0,692 mất nhật ký. Vấn đề là cả hai bộ dự đoán cho thấy có một số sức mạnh dự đoán. Một ví dụ khác là tôi có thể sử dụng hồi quy logistic để tạo ra một bộ dự đoán và mạng lưới thần kinh để tạo ra bộ kia.
Dưới đây là 10 đầu tiên cho mỗi bộ, ví dụ:
p1 = [0.49121362 0.52067905 0.50230295 0.49511673 0.52009695 0.49394751 0.48676686 0.50084939 0.48693237 0.49564188 ...]
p2 = [0.4833959 0.49700296 0.50484381 0.49122147 0.52754993 0.51766402 0.48326918 0.50432501 0.48721228 0.48949306 ...]
Tôi nghĩ rằng nên có một cách để kết hợp 2 bộ dự đoán thành một, để tăng sức mạnh dự đoán tổng thể. Lanhung?
Tôi đã bắt đầu thử một số thứ. Ví dụ, tôi coi giá trị tuyệt đối của dự đoán trừ 0,5 ( abs( p - 0.5 )
) là tín hiệu và bất kỳ giữa p1
và p2
có tín hiệu lớn hơn, tôi sẽ sử dụng giá trị đó. Điều này hơi hoàn thành mà tôi muốn, nhưng chỉ bằng một lề mỏng. Và trong một trường hợp khác, nó dường như không giúp được gì cả. Điều thú vị là nó dường như không phá hủy sức mạnh dự đoán.