Liệu một mẫu không cân bằng có vấn đề khi thực hiện hồi quy logistic?


81

Được rồi, vì vậy tôi nghĩ rằng tôi có một mẫu đủ tốt, có tính đến quy tắc 20: 1: một mẫu khá lớn (N = 374) cho tổng số 7 biến dự đoán ứng viên.

Vấn đề của tôi là như sau: bất kỳ tập hợp các biến dự đoán nào tôi sử dụng, các phân loại không bao giờ tốt hơn độ đặc hiệu 100% và độ nhạy 0%. Tuy nhiên, không đạt yêu cầu, đây thực sự có thể là kết quả tốt nhất có thể, do tập hợp các biến dự đoán ứng viên (từ đó tôi không thể đi chệch).

Nhưng, tôi không thể không nghĩ rằng mình có thể làm tốt hơn, vì vậy tôi nhận thấy rằng các loại biến phụ thuộc khá cân bằng, gần như 4: 1. Một mẫu phụ cân bằng hơn có thể cải thiện phân loại?


5
Thật khó để tưởng tượng làm thế nào điều này có thể được. Có lẽ bạn đang cắt xác suất dự đoán là 0,5? Nếu vậy, hãy thử thay đổi điểm cắt.
Aniko

4
Vùng bên dưới đường cong ROC là 0,55, một kết quả khá kém. Điều này ngụ ý rằng thực sự không có giá trị ngưỡng trong đó sự đánh đổi tính đặc hiệu / độ nhạy là đáng giá. Việc giải quyết vấn đề cắt sẽ không cải thiện nhiều phân loại, vì nó sẽ làm giảm độ đặc hiệu gần như bằng cách tăng độ nhạy.
Michiel

3
Có bất kỳ hệ số Biến nào khác đáng kể so với (nói nhiều hơn năm lỗi tiêu chuẩn) không? Nếu không phải vấn đề của bạn thì có thể là bạn không có nhiều khả năng giải thích với tập hợp các biến của mình. 0
xác suất

2
Cũng lưu ý rằng kích thước mẫu của bạn về mặt đưa ra dự đoán tốt thực sự là số mẫu duy nhất trong biến dự đoán và không phải là số lượng cá thể được lấy mẫu. Ví dụ, một mô hình với một biến dự báo phân loại duy nhất có hai cấp độ chỉ có thể phù hợp với mô hình hồi quy logistic với hai tham số (một cho mỗi loại), ngay cả khi có hàng triệu người trong mẫu.
xác suất

Câu trả lời:


75

Cân bằng trong tập huấn luyện

Đối với mô hình hồi quy logistic, dữ liệu huấn luyện không cân bằng chỉ ảnh hưởng đến ước tính của mô hình chặn (mặc dù điều này tất nhiên làm lệch tất cả các xác suất dự đoán, do đó làm ảnh hưởng đến dự đoán của bạn). May mắn là việc hiệu chỉnh đánh chặn rất đơn giản: Với điều kiện bạn biết hoặc có thể đoán, tỷ lệ thực của 0 và 1 và biết tỷ lệ trong tập huấn luyện, bạn có thể áp dụng hiệu chỉnh sự kiện hiếm gặp cho việc chặn. Thông tin chi tiết có trong King và Zeng (2001) [ PDF ].

Những 'hiệu chỉnh sự kiện hiếm gặp' này được thiết kế cho các thiết kế nghiên cứu kiểm soát trường hợp, chủ yếu được sử dụng trong dịch tễ học, chọn các trường hợp bằng cách chọn một số 0 trường hợp và 1 trường hợp cố định, sau đó cần sửa cho sai lệch lựa chọn mẫu. Thật vậy, bạn có thể đào tạo trình phân loại của bạn theo cùng một cách. Chọn một mẫu cân bằng đẹp và sau đó sửa lỗi chặn để tính đến thực tế là bạn đã chọn biến phụ thuộc để tìm hiểu thêm về các lớp hiếm hơn một mẫu ngẫu nhiên có thể cho bạn biết.

Dự đoán

Về một chủ đề liên quan nhưng khác biệt: Đừng quên rằng bạn nên thông minh để đưa ra dự đoán. Không phải lúc nào cũng tốt nhất để dự đoán 1 khi xác suất mô hình lớn hơn 0,5. Một ngưỡng khác có thể tốt hơn. Để kết thúc này, bạn nên xem xét các đường cong Đặc tính hoạt động của người nhận (ROC) của trình phân loại của bạn, không chỉ là thành công dự đoán của nó với ngưỡng xác suất mặc định.


8
Nếu bạn không biết tần số của lớp vận hành, chúng có thể được ước tính bằng EM mà không cần biết nhãn của các mẫu thử nghiệm / vận hành. Các chi tiết có trong Saerens et al. "Điều chỉnh đầu ra của Trình phân loại thành Xác suất Priori mới: Thủ tục đơn giản", Tính toán thần kinh, tập. 14, không 1, trang 21-41, 2002 ( dx.doi.org/10.1162/089976602753284446 ). Tôi đã sử dụng điều này một vài lần và rất ấn tượng về hiệu quả của nó. Tuy nhiên, xin lưu ý rằng việc hiệu chỉnh lý thuyết thường không tối ưu và thiết lập nó thông qua xác nhận chéo thường tốt hơn.
Dikran Marsupial

Vâng, tôi nên đã đề cập rằng kết quả từ đường cong ROC cũng không thuyết phục. Trong trường hợp này tôi nghĩ không có ngưỡng nào cho kết quả khả quan.
Michiel

Về việc đưa ra dự đoán: làm thế nào tôi có thể tính đến kích thước tập huấn luyện của mình cho kết quả 0 và 1? Tôi thực sự không muốn sử dụng ngưỡng 0,5, nhưng không chắc chắn cách thực hiện việc này trong R.
Perlnika

1
@Perlnika Các chi tiết nằm trong liên kết giấy (trong trường hợp đơn giản nhất bạn thay đổi đánh chặn ước tính). Để ngưỡng không ở mức 0,5, chỉ cần lấy xác suất dự đoán bằng cách sử dụng predictvà tính toán cho từng mức cho dù nó có lớn hơn ngưỡng mới hay không.
liên hợp chiến

1
@SassaNF Đúng là sự thay đổi đánh chặn có thể được bù đắp bằng thay đổi ngưỡng. Tuy nhiên, kết hợp ước lượng xác suất của bạn (suy luận) với chi phí tương đối của lỗi (hàm mất), trong khi đó có thể khác nhau trong các ứng dụng. Ví dụ: khi chi phí nhầm 1 cho 0 bằng C lần chi phí nhầm 0 cho 1, thì bạn muốn đạt xác suất ước tính của mình là 1 / (1 + C).
liên hợp chiến binh

41

Vấn đề không phải là các lớp bị mất cân bằng theo từng se, mà là có thể không có đủ các mẫu thuộc về nhóm thiểu số để thể hiện đầy đủ phân phối của nó. Điều này có nghĩa là vấn đề có thể phát sinh đối với bất kỳ phân loại nào (ngay cả khi bạn có vấn đề tổng hợp và bạn biết bạn có mô hình thực sự), không chỉ là hồi quy logistic. Điều tốt là khi càng có nhiều dữ liệu, vấn đề "mất cân bằng lớp học" thường biến mất. Có nói rằng, 4: 1 không phải là tất cả những gì mất cân bằng.

Nếu bạn sử dụng một tập dữ liệu cân bằng, điều quan trọng là phải nhớ rằng đầu ra của mô hình bây giờ là ước tính của xác suất a-posteriori, giả sử các lớp là phổ biến như nhau, và do đó bạn có thể sẽ thiên vị mô hình quá xa. Tôi sẽ cân nhắc các mẫu thuộc về mỗi lớp khác nhau và chọn các trọng số bằng cách giảm thiểu entropy chéo trên một bộ kiểm tra với tần số của lớp hoạt động chính xác.


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Zhubarb

2

Hãy suy nghĩ về các phân phối cơ bản của hai mẫu. Bạn có đủ mẫu để đo cả hai quần thể mà không có sai lệch lớn trong mẫu nhỏ hơn không?

Xem ở đây để giải thích dài hơn.

https://statistichorizons.com/logistic-regression-for-rare-events


5
Điều này dường như không trả lời câu hỏi.
Michael Chernick

Đó là bởi vì không có câu trả lời chắc chắn! Đó là về cách bạn áp dụng nó và mức độ thiên vị mà người ta sẵn sàng cho phép vào quá trình ước tính.
Paul Tulloch

1
Tôi nghĩ rằng đây là câu trả lời tuyệt vời. Theo như tôi hiểu thì mọi nỗ lực sửa chữa sự mất cân bằng đều dựa vào một số kiến ​​thức bên ngoài không được nắm bắt trong thí nghiệm. Đặc biệt biết phân phối cơ bản sẽ giúp sửa chữa.
dùng1700890
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.