Có thể kết hợp các dự đoán để cải thiện chất lượng dự đoán tổng thể?


7

Đây là một vấn đề phân loại nhị phân. Số liệu đang được tối thiểu hóa là mất log (hoặc entropy chéo). Tôi cũng có một số chính xác, chỉ cho thông tin của tôi. Nó là một tập hợp dữ liệu lớn, rất cân bằng. Các kỹ thuật dự đoán rất ngây thơ nhận được độ chính xác khoảng 50% và mất 0,693 log. Điều tốt nhất tôi có thể loại bỏ là độ chính xác 52,5% và mất 0,6915 log. Vì chúng tôi đang cố gắng giảm thiểu việc mất nhật ký, chúng tôi luôn nhận được một tập hợp các xác suất (các predict_probahàm trong sklearn và máy ảnh). Đó là tất cả các nền tảng, bây giờ các câu hỏi.

Hãy nói rằng tôi có thể sử dụng 2 kỹ thuật khác nhau để tạo 2 bộ dự đoán khác nhau có độ chính xác và số liệu mất nhật ký tương đương. Ví dụ: tôi có thể sử dụng 2 nhóm tính năng đầu vào khác nhau để tạo ra 2 bộ dự đoán có độ chính xác khoảng 52% với <0,692 mất nhật ký. Vấn đề là cả hai bộ dự đoán cho thấy có một số sức mạnh dự đoán. Một ví dụ khác là tôi có thể sử dụng hồi quy logistic để tạo ra một bộ dự đoán và mạng lưới thần kinh để tạo ra bộ kia.

Dưới đây là 10 đầu tiên cho mỗi bộ, ví dụ:

p1 = [0.49121362 0.52067905 0.50230295 0.49511673 0.52009695 0.49394751 0.48676686 0.50084939 0.48693237 0.49564188 ...]
p2 = [0.4833959  0.49700296 0.50484381 0.49122147 0.52754993 0.51766402 0.48326918 0.50432501 0.48721228 0.48949306 ...]

Tôi nghĩ rằng nên có một cách để kết hợp 2 bộ dự đoán thành một, để tăng sức mạnh dự đoán tổng thể. Lanhung?

Tôi đã bắt đầu thử một số thứ. Ví dụ, tôi coi giá trị tuyệt đối của dự đoán trừ 0,5 ( abs( p - 0.5 )) là tín hiệu và bất kỳ giữa p1p2có tín hiệu lớn hơn, tôi sẽ sử dụng giá trị đó. Điều này hơi hoàn thành mà tôi muốn, nhưng chỉ bằng một lề mỏng. Và trong một trường hợp khác, nó dường như không giúp được gì cả. Điều thú vị là nó dường như không phá hủy sức mạnh dự đoán.



3
Các số bạn đưa ra cho p1 và p2 đều khá gần với 0,5, bạn mất log rất gần với ln (2) và độ chính xác 50% giống như lật một đồng xu. Đây là những kết quả tồi tệ, và không chắc là bạn sẽ có được sự cải thiện đáng kể với việc xếp chồng. Bạn nên xem xét các kỹ thuật khác như kỹ thuật tính năng.
Tích lũy

Vì tò mò, bạn đang thực hiện dự đoán trận đấu thể thao hoặc dự đoán thị trường nào đó?
jjmontes

Câu trả lời:


13

Câu trả lời ngắn gọn: Có.

Câu trả lời dài: Đây là một trong nhiều ví dụ về kỹ thuật được gọi là "xếp chồng". Tất nhiên, trong khi bạn có thể quyết định một số cách thủ công để kết hợp cả hai dự đoán, sẽ tốt hơn nếu bạn huấn luyện một mô hình thứ ba về đầu ra của hai mô hình đầu tiên (hoặc thậm chí nhiều hơn). Điều này sẽ tiếp tục cải thiện độ chính xác. Để tránh sử dụng lại dữ liệu, thường một phần khác của tập dữ liệu được sử dụng để đào tạo các cấp độ đầu tiên và đào tạo mô hình kết hợp dữ liệu.

Xem ví dụ ở đây để biết ví dụ.


1
Đây chính xác là những gì tôi đã nói về.
jeffery_the_wind

5

Đúng.
Phương pháp bạn đang nói đến được gọi là Xếp chồng. Nó là một loại phương pháp tập hợp. Trong phương pháp này, trong giai đoạn đầu tiên, nhiều mô hình được đào tạo và các dự đoán được lưu trữ dưới dạng các tính năng sẽ được sử dụng để huấn luyện mô hình giai đoạn thứ hai. Rất nhiều Kagglers sử dụng phương pháp này. Nói chung, bạn nên sử dụng nhiều hơn 2 mô hình cho giai đoạn đầu tiên trong khi xếp chồng (tôi thường sử dụng ít nhất 4-5 mô hình). Ngoài ra còn có nhiều phương pháp trong đó việc xếp chồng có thể được thực hiện như lấy trung bình đơn giản, bỏ phiếu đa số, v.v ... Dưới đây là liên kết đến một nhân kaggle thực hiện xếp chồng trên Bộ dữ liệu Titanic nổi tiếng cũng là một vấn đề phân loại nhị phân.
Giới thiệu hạt nhân Kaggle để xếp chồng bằng bộ dữ liệu Titanic


3
Lưu ý rằng thường bạn có thể sử dụng cùng loại mô hình, nhưng sử dụng các tham số khác nhau. Rừng ngẫu nhiên, ví dụ, về cơ bản là một phương pháp xếp chồng với các cây quyết định làm mô hình cơ sở.
Tích lũy

1
Lưu ý bên. Cách suy nghĩ của tôi về các phương pháp tập hợp bằng cách sử dụng biểu quyết trung bình và đa số, iirc, là chúng làm giảm phương sai của các dự đoán. Tức là, họ làm mịn bề mặt dự đoán.
jjmontes
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.