Phiên bản linh hoạt của hồi quy logistic

8

Tôi đang cố gắng thực hiện một hồi quy logistic khi có sự khác biệt lớn về số lượng điểm dữ liệu trong một trong hai nhóm (70 Vs 10.000). Một người bạn thống kê của tôi đã nói với tôi rằng đây là một vấn đề đã biết với hồi quy logistic và đối với những loại số đó, nó che lấp dữ liệu và về cơ bản là không hoạt động. Khi tôi bin dữ liệu và so sánh với mô hình, điều khá rõ ràng là đây chắc chắn là trường hợp.

Tôi tự hỏi liệu có ai biết một phương pháp tốt hơn / linh hoạt hơn để phù hợp với loại dữ liệu phản hồi nhị phân này không?

(Nhân tiện, tôi không phải là một nhà thống kê nên dễ dãi với tôi!)

modeling logistic binary-data

— Stacey_bio
nguồn

Theo hai nhóm, bạn có nghĩa là các nhóm được xác định bởi phản ứng nhị phân của họ? Nếu vậy bạn nên nghĩ về vấn đề hồi quy logistic giống như một vấn đề phân loại. Đối với một nhóm, bạn có nhiều thông tin để tìm các biến dự đoán danh mục. Nhưng vì nhóm thứ hai chỉ có 70 quan sát nên bạn có ít thông tin hơn để xem điều gì làm cho nhóm thứ hai khác với nhóm thứ nhất. Đối với loại vấn đề này, kích thước mẫu nhỏ trong nhóm 2 là vấn đề và không phải là sự mất cân bằng. Nếu bạn có 700 so với 100.000 thì sự mất cân bằng sẽ giống nhau nhưng vấn đề sẽ không khó khăn như vậy.

— Michael R. Chernick

2

Vì vậy, tôi nghĩ rằng vấn đề quá mức là vấn đề cổ điển của việc sử dụng quá nhiều tính năng với quá ít dữ liệu. Cách chữa trị duy nhất cho quá mức là giảm số lượng tính năng hoặc tăng kích thước mẫu. Tìm một phương pháp khác sẽ không giúp được gì.

— Michael R. Chernick

"Theo hai nhóm, bạn có nghĩa là các nhóm được xác định bởi phản ứng nhị phân của họ?" - Đúng!

— Stacey_bio

Bất kỳ đề xuất nào về nơi tôi có thể bắt đầu nếu tiếp cận vấn đề này như là một vấn đề phân loại? Có một phương pháp được thiết lập mà tôi có thể sử dụng mà bất cứ ai cũng có thể nhận ra? Cảm ơn!

— Stacey_bio

Về cơ bản những gì tôi nghĩ rằng tôi đang tìm kiếm là một phương pháp "phân loại nhị phân xác suất" phù hợp với loại dữ liệu này. Sẽ thật tuyệt nếu có một loại phương pháp được thiết lập (thống kê hoặc theo cách khác)

— Stacey_bio

4

Rằng nó không hoạt động không đến từ kích thước không cân bằng của các nhóm, mà đến từ sự nhỏ bé của một trong các nhóm. Downsampling nhóm lớn hơn là ok nhưng không giúp quá nhiều. (BTW, có một cách dễ dàng và thanh lịch để sửa các dự đoán từ mô hình đường xuống, bằng cách thêm log log (r) vào các thuật ngữ tuyến tính trong đó r là tỷ lệ đường xuống.)

Nếu quá mức thực sự là vấn đề, bạn cần giảm số lượng biến hoặc thường xuyên hóa mô hình.

— vảy
nguồn

4

Vấn đề này xuất hiện trong hầu hết tất cả các phương pháp phân loại, cho dù hồi quy logistic, phân loại vectơ hỗ trợ hay phân loại Naive Bayes. Có hai vấn đề đan xen:

Một mô hình được đào tạo trên một bộ dữ liệu không cân bằng có thể phù hợp với ý nghĩa có được sự thiên vị có lợi cho tầng lớp đa số.
Khi đánh giá mô hình này trên một tập dữ liệu thử nghiệm có cùng mức độ mất cân bằng, độ chính xác phân loại có thể là một thước đo hiệu suất cực kỳ sai lệch.

Tài liệu về các vấn đề này đã đưa ra ba chiến lược giải pháp:

Bạn có thể khôi phục dư trên tập huấn luyện bởi undersampling lớp lớn hay bởi oversampling lớp nhỏ, để ngăn chặn thiên vị từ phát sinh ở nơi đầu tiên (xem phản ứng của @grotos).
Ngoài ra, bạn có thể sửa đổi chi phí phân loại sai để ngăn mô hình thu được thành kiến ở vị trí đầu tiên.
$\phi := \frac{1}{2}\left(\pi^+ + \pi^-\right),$ $\pi^+$ $\pi^-$

Độ chính xác so với độ chính xác cân bằng

Như chi tiết trong phản hồi trước đây của tôi, tôi khuyên bạn nên xem xét ít nhất hai trong số các cách tiếp cận trên cùng nhau. Ví dụ, bạn có thể chồng chéo lớp thiểu số của mình để ngăn phân loại của bạn có được sự thiên vị có lợi cho lớp đa số. Theo đó, khi đánh giá hiệu suất của trình phân loại của bạn, bạn có thể thay thế độ chính xác bằng độ chính xác cân bằng.

— Kay Broderen
nguồn

0

Bạn có nghĩa là phân phối phản hồi, tức là bạn có 70 trường hợp "CÓ" và 10000 "KHÔNG"?

Nếu vậy, đó là một vấn đề phổ biến trong các ứng dụng khai thác dữ liệu. Hãy tưởng tượng một cơ sở dữ liệu với 1.000.000 trường hợp, trong đó chỉ có khoảng 1.000 trường hợp là "CÓ". Tỷ lệ đáp ứng là 1% và thậm chí ít hơn là một điều phổ biến trong mô hình dự đoán kinh doanh. Và nếu bạn chọn một mẫu để huấn luyện một mô hình là một vấn đề lớn, đặc biệt là với việc đánh giá tính ổn định của mô hình đã cho.

Những gì chúng tôi làm là chọn một mẫu với tỷ lệ khác nhau. Trong ví dụ đã nói ở trên, đó sẽ là 1000 trường hợp "CÓ" và, ví dụ, 9000 trường hợp "KHÔNG". Cách tiếp cận này cho các mô hình ổn định hơn. Tuy nhiên, nó phải được thử nghiệm trên một mẫu thực (với 1.000.000 hàng).

Tôi đã thử nghiệm nó với các mô hình khai thác dữ liệu, chẳng hạn như hồi quy logistic, cây quyết định, v.v. Tuy nhiên, tôi đã không sử dụng nó với các mô hình thống kê "thích hợp" [1].

Bạn có thể tìm kiếm nó dưới dạng "vượt quá số liệu thống kê", kết quả đầu tiên khá tốt: http://www.statssa.gov.za/isi2009/SellectificProgramme/IPMS/1621.pdf

[1] "thích hợp" có nghĩa là "không khai thác dữ liệu".

— hình ảnh
nguồn

0

Nếu bạn muốn một kỹ thuật phân loại không nhạy cảm với tỷ lệ tương đối của các ví dụ từ các lớp khác nhau, Support Vector Machines có thuộc tính đó như các cây quyết định.

— fgregg
nguồn