Tôi đang sử dụng một phiên bản tiêu chuẩn của hồi quy logistic để khớp các biến đầu vào của tôi với các biến đầu ra nhị phân.
Tuy nhiên, trong vấn đề của tôi, các đầu ra âm (0s) vượt xa các đầu ra dương (1s). Tỷ lệ là 20: 1. Vì vậy, khi tôi huấn luyện một bộ phân loại, dường như ngay cả các tính năng gợi ý mạnh mẽ khả năng đầu ra dương vẫn có giá trị rất thấp (âm tính cao) cho các tham số tương ứng của chúng. Dường như với tôi rằng điều này xảy ra bởi vì có quá nhiều ví dụ tiêu cực kéo các tham số theo hướng của chúng.
Vì vậy, tôi tự hỏi nếu tôi có thể thêm trọng số (giả sử sử dụng 20 thay vì 1) cho các ví dụ tích cực. Điều này có khả năng mang lại lợi ích nào không? Và nếu vậy, tôi nên thêm trọng số như thế nào (trong các phương trình dưới đây).
Hàm chi phí trông giống như sau:
Gradient của hàm chi phí này (wrt ) là:
Ở đây = số trường hợp thử nghiệm, x = ma trận tính năng, y = vector đầu ra, hàm h = sigmoid, θ = tham số chúng ta đang cố gắng tìm hiểu.
Cuối cùng tôi chạy gradient giảm dần để tìm thấp nhất có thể. Việc thực hiện dường như chạy chính xác.