Thêm trọng số cho các tập dữ liệu bị sai lệch cao trong hồi quy logistic


9

Tôi đang sử dụng một phiên bản tiêu chuẩn của hồi quy logistic để khớp các biến đầu vào của tôi với các biến đầu ra nhị phân.

Tuy nhiên, trong vấn đề của tôi, các đầu ra âm (0s) vượt xa các đầu ra dương (1s). Tỷ lệ là 20: 1. Vì vậy, khi tôi huấn luyện một bộ phân loại, dường như ngay cả các tính năng gợi ý mạnh mẽ khả năng đầu ra dương vẫn có giá trị rất thấp (âm tính cao) cho các tham số tương ứng của chúng. Dường như với tôi rằng điều này xảy ra bởi vì có quá nhiều ví dụ tiêu cực kéo các tham số theo hướng của chúng.

Vì vậy, tôi tự hỏi nếu tôi có thể thêm trọng số (giả sử sử dụng 20 thay vì 1) cho các ví dụ tích cực. Điều này có khả năng mang lại lợi ích nào không? Và nếu vậy, tôi nên thêm trọng số như thế nào (trong các phương trình dưới đây).

Hàm chi phí trông giống như sau:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Gradient của hàm chi phí này (wrt ) là:θ

grad=((h(xθ)y)X)

Ở đây = số trường hợp thử nghiệm, x = ma trận tính năng, y = vector đầu ra, hàm h = sigmoid, θ = tham số chúng ta đang cố gắng tìm hiểu.mxyhθ

Cuối cùng tôi chạy gradient giảm dần để tìm thấp nhất có thể. Việc thực hiện dường như chạy chính xác.J


Xin chào, tôi có chính xác cùng một vấn đề mà bạn mô tả. Trong dữ liệu của tôi, rất nhiều ví dụ là tiêu cực và rất ít tích cực, và đối với tôi, điều quan trọng hơn là phân loại chính xác tích cực, ngay cả khi điều đó có nghĩa là phân loại sai một số tiêu cực. Có vẻ như tôi cũng đang áp dụng các phương pháp giống như bạn, vì tôi đang sử dụng cùng hàm Chi phí và phương trình độ dốc. Cho đến nay, tôi đã chạy một vài thử nghiệm và tôi đã thu được các kết quả sau: - Với 7 tham số , Cỡ mẫu đào tạo: 225000 , Cỡ mẫu thử nghiệm: 75000 Kết quả: Độ chính xác 92% , mặc dù trong trường hợp dương tính chỉ có 11% w
Cartz

1
Những gì bạn đang làm là nhầm lẫn một chức năng mất với khả năng tối đa. Các mle không trọng số đang làm "điều đúng" từ góc độ suy luận, và phản ánh mức độ hiếm của kết quả cho mỗi đặc điểm kỹ thuật đồng biến. Bạn cũng có thể có sự phân tách - điều này sẽ xảy ra khi một tập hợp số cụ thể có thể dự đoán hoàn hảo phản hồi trong dữ liệu huấn luyện - điều này sẽ dẫn đến các giá trị âm lớn.
xác suất

2
Phân loại không phải là một mục tiêu tốt và không phải là cách hồi quy logistic được phát triển. Chính khái niệm phân loại gây ra tất cả các vấn đề được liệt kê ở đây. Bám sát xác suất dự đoán và quy tắc chấm điểm chính xác phù hợp
Frank Harrell

1
@arahant Điều đó chỉ đúng một phần. Hồi quy logistic nhị phân với liên kết logit vẫn hợp lệ ở chỗ các hệ số trên các đồng biến của bạn là MLE và phản ánh hiệu ứng của các biến đó đối với tỷ lệ cược của lớp 1 so với lớp 0. Tuy nhiên, trong thiết kế kiểm soát trường hợp, chặn là luôn luôn cố định để phản ánh tỷ lệ của lớp 1 với lớp 0 và việc điều chỉnh thuật ngữ chặn để gán các lớp phù hợp với, ví dụ, một số hàm chi phí của phân loại sai hoặc một số quy trình khác là hoàn toàn hợp lệ, bởi vì điều này không thay đổi hệ số trên các biến.
Sycorax nói Phục hồi lại

1
Trường hợp có ai có ý tưởng rằng cần phải cắt / muốn / mong muốn?
Frank Harrell

Câu trả lời:


8

Y


Frank, có tài liệu tham khảo hoặc một cái gì đó để hỗ trợ chi tiết "15 lần ..." của bạn không? Tôi có sự mất cân bằng tương tự trong một số dữ liệu mà tôi đang sử dụng hồi quy logistic thay cho phương pháp ROC mà một số nhà nghiên cứu khác đã phát triển. Gần đây tôi đã bắt gặp xu hướng mẫu nhỏ và thêm một tùy chọn cho giảm độ lệch của Firth như một tùy chọn phù hợp trong mã / gói của tôi. Khi tôi viết bài này cho một tạp chí, sẽ rất hữu ích khi có một cái gì đó để trích dẫn theo các quy tắc phụ như thế này. Xin lỗi nếu tài liệu tham khảo là cuốn sách RMS của bạn vì nó được đặt trên kệ của tôi, nhưng vẫn chưa nhìn thấy ở đó.
Gavin Simpson

Có những bài viết về sai lệch mẫu nhỏ và giá trị của hình phạt Firth. Tôi không có những thứ tiện dụng. Về 15: 1 xem biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/ Kẻ
Frank Harrell

Cảm ơn Frank - vấn đề 15: 1 là điều tôi quan tâm nhất sau đó. Tôi có một số ấn phẩm về xu hướng mẫu nhỏ và phương pháp của Firth - nhưng nếu cuối cùng bạn có thứ gì đó để xử lý thì tôi sẽ rất biết ơn nếu bạn cho tôi biết đó là gì.
Gavin Simpson

3
Chỉ trong trường hợp bất cứ ai khác nên đọc sai những điều trên như tôi đã làm lúc đầu. 20: 1 trong câu hỏi là tỷ lệ của các quan sát tiêu cực và tích cực. 15: 1 trong câu trả lời của Frank Harrell là một điều khác: tỷ lệ quan sát tích cực với các biến độc lập ứng cử viên.
Adam Bailey

Một phân phối cực đoan cũng đưa ra một vấn đề bằng cách tăng cơ hội phân tách hoàn toàn, đặc biệt nếu bạn có các dự đoán phân loại. Penalisation giúp ở đây là tốt.
xác suất

3

Trong những trường hợp như thế này, tốt hơn là sử dụng một liên kết linh hoạt, thay vì liên kết logistic, có thể nắm bắt sự bất cân xứng này. Ví dụ, một xiên bình thường, GEV , sinh-arcsinh và các tài liệu tham khảo trong đó. Có nhiều người khác nhưng tôi không thể đăng nhiều hơn 2 liên kết.


Bạn có thể cung cấp bất kỳ lời giải thích cho các chức năng liên kết khác là tốt hơn?
DW
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.