Chiến lược đối phó với các sự kiện hồi quy hiếm gặp

27

Tôi muốn nghiên cứu các sự kiện hiếm trong một dân số hữu hạn. Vì tôi không chắc về chiến lược nào phù hợp nhất, tôi sẽ đánh giá cao các mẹo và tài liệu tham khảo liên quan đến vấn đề này, mặc dù tôi nhận thức rõ rằng nó đã được đề cập phần lớn. Tôi thực sự không biết bắt đầu từ đâu.

Vấn đề của tôi là một ngành khoa học chính trị và tôi có một dân số hữu hạn bao gồm 515.843 hồ sơ. Chúng được liên kết với một biến phụ thuộc nhị phân với 513.334 "0" s và 2.509 "1" s. Tôi có thể đồng xu số "1" của mình là những sự kiện hiếm vì chúng chỉ chiếm 0,49% dân số.

Tôi có một bộ gồm khoảng 10 biến độc lập mà tôi muốn xây dựng một mô hình để giải thích sự hiện diện của "1" s. Giống như nhiều người trong chúng ta, tôi đã đọc bài viết năm 2001 của King & Zeng về việc sửa chữa các sự kiện hiếm gặp. Cách tiếp cận của họ là sử dụng thiết kế kiểm soát trường hợp để giảm số lượng "0", sau đó áp dụng hiệu chỉnh cho phần chặn.

Tuy nhiên, bài đăng này nói rằng lập luận của King & Zeng là không cần thiết nếu tôi đã thu thập dữ liệu của mình trên toàn bộ dân số, đó là trường hợp của tôi. Do đó, tôi phải sử dụng mô hình logit cổ điển. Thật không may cho tôi, mặc dù tôi có được các hệ số có ý nghĩa tốt, mô hình của tôi hoàn toàn vô dụng về mặt dự đoán (không dự đoán được 99,48% số "1" của tôi).

Sau khi đọc bài viết của King & Zeng, tôi muốn thử thiết kế kiểm soát trường hợp và chỉ chọn 10% số "0" với tất cả số "1". Với các hệ số gần như giống nhau, mô hình có thể dự đoán gần một phần ba số "1" khi áp dụng cho toàn bộ dân số. Tất nhiên, có rất nhiều dương tính giả.

Vì vậy, tôi có ba câu hỏi tôi muốn hỏi bạn:

1) Nếu cách tiếp cận của King & Zeng là thành kiến khi bạn có kiến thức đầy đủ về dân số, tại sao họ sử dụng một tình huống mà họ biết dân số trong bài viết của họ để chứng minh quan điểm của họ?

2) Nếu tôi có hệ số tốt và có giá trị trong hồi quy logit, nhưng khả năng dự đoán rất kém, điều đó có nghĩa là biến thể được giải thích bởi các biến này là vô nghĩa?

3) Cách tiếp cận tốt nhất để đối phó với các sự kiện hiếm gặp là gì? Tôi đã đọc về mô hình quan hệ của nhà vua, cách tiếp cận của Firth, logit chính xác, v.v. Tôi phải thú nhận rằng tôi là một người lạc lối trong tất cả các giải pháp này.

logistic rare-events

— Damien
nguồn

Con số nghe có vẻ quen thuộc ... bởi bất kỳ cơ hội nào một bộ dữ liệu về xung đột sắc tộc? Nếu yo, đó là một chuỗi thời gian - Tôi đã sử dụng một mô hình sinh tồn để thành công lớn trong một nghiên cứu xung đột sắc tộc ...

— Christian Sauer

Đủ gần. Đó là một bộ dữ liệu về vị trí của các sự kiện xung đột ở Châu Phi. Tuy nhiên, tôi nghiên cứu vị trí của những sự kiện này mà không tính toán thời gian.

— Damien

1

Ah, rất nhiều trường hợp của tôi đến từ Châu Phi, vì xung đột sắc tộc đang lan tràn ở đó. Bạn có học địa lý không? Nó sẽ là một vấn đề lớn để tính thời gian? Tôi thấy nó thực sự hữu ích, đặc biệt là do thực tế là một số biến số đang thay đổi theo thời gian (hệ thống chính trị, chiến tranh lạnh, v.v.)

— Christian Sauer

Tôi đang sử dụng bộ dữ liệu GED của UCDP trong khoảng thời gian 1989-2010. Tôi quan tâm đến các yếu tố địa lý có thể đóng một vai trò trong vị trí của các sự kiện xung đột. Sự thay đổi thời gian chắc chắn có rất nhiều điều để nói, nhưng các câu hỏi được trả lời là khác nhau. Ngoài ra, nhiều biến số độc lập của tôi không có sẵn cho các giai đoạn khác nhau (độ che phủ đất) hoặc hoàn toàn không thay đổi (địa hình)

— Damien

1

"(không dự đoán 99,48% số" 1 "của tôi)." điều này nghe có vẻ như bạn đang sử dụng một số quy tắc cắt tùy ý [ví dụ 0,5!] để phân loại, trong khi toàn bộ ý tưởng của hồi quy logistic là đầu ra là một xác suất - tùy thuộc vào bạn để quyết định ngưỡng để cân bằng dương / phủ định sai

— seanv507

17

(1) Nếu bạn đã "hiểu biết đầy đủ về dân số" tại sao bạn cần một mô hình để đưa ra dự đoán? Tôi nghi ngờ bạn đang ngầm xem chúng như một mẫu từ một siêu dân số giả định, xem ở đây & đây . Vì vậy, bạn nên vứt bỏ các quan sát từ mẫu của bạn? Không. King & Zeng không ủng hộ điều này:

[...] trong các lĩnh vực như quan hệ quốc tế, số lượng 1 có thể quan sát được (như chiến tranh) bị hạn chế nghiêm ngặt, vì vậy, trong hầu hết các ứng dụng, tốt nhất là thu thập tất cả các mẫu có sẵn 1 hoặc một mẫu lớn. Quyết định thực sự duy nhất sau đó là có bao nhiêu 0 để thu thập. Nếu việc thu thập 0 là không tốn kém, chúng ta nên thu thập càng nhiều càng tốt, vì nhiều dữ liệu luôn tốt hơn.

$Y$

(2) Vấn đề chính ở đây là việc sử dụng quy tắc chấm điểm không phù hợp để đánh giá hiệu suất dự đoán của mô hình của bạn. Giả sử mô hình của bạn là đúng , do đó, đối với bất kỳ cá nhân nào bạn biết xác suất xảy ra sự kiện hiếm hoi, nói rằng bị rắn cắn vào tháng tới. Bạn còn học được gì nữa bằng cách quy định mức cắt giảm xác suất tùy ý & dự đoán rằng những người ở trên sẽ bị cắn và những người bên dưới sẽ không bị cắn? Nếu bạn thực hiện cắt giảm 50%, bạn có thể dự đoán sẽ không có ai bị cắn. Nếu bạn làm cho nó đủ thấp, bạn có thể dự đoán mọi người sẽ bị cắn. Vậy thì sao? Ứng dụng hợp lý của một mô hình đòi hỏi phải có sự phân biệt đối xử, người nên được cung cấp lọ thuốc chống nọc độc duy nhất? - hoặc hiệu chuẩn cho ai là người đáng mua ủng, với chi phí của họ so với vết cắn của rắn?

— Scortchi - Tái lập Monica
nguồn

Cảm ơn bạn đã trả lời. Về (1), liệu có thích hợp hơn để nói về một mẫu các quan sát mà chúng ta biết cho đến nay để tính đến khả năng của các sự kiện trong tương lai? Về (2), tôi đã dành một chút thời gian để cố gắng tìm ra quy tắc tính điểm là gì. Nếu tôi hiểu chính xác bài viết Wikipedia, tôi nên thay đổi chức năng cho điểm theo các giá trị xác suất khác nhau mà sự kiện dự kiến sẽ xảy ra, sau đó chọn làm giá trị ngưỡng cho xác suất có điểm cao nhất. Nếu tôi chọn quy tắc chấm điểm logarit, tôi phải làm thế nào để thực hiện giá trị mong đợi?

— Damien

1

R^{2}

$R^2$

@Scortchi, vì vậy bạn có ủng hộ việc sử dụng hồi quy logistic hay không, đối với số lượng quan sát / trường hợp như trong op (giả sử với ~ 10 dự đoán liên tục), nếu xác suất của một trường hợp là bắt buộc, có vẻ như nó bị đánh giá thấp? cảm ơn

— user2957945

3

Ở một cấp độ nào đó, tôi tự hỏi mức độ thiếu chính xác của mô hình của bạn chỉ đơn giản là quá trình của bạn khó dự đoán và các biến của bạn không đủ để làm như vậy. Có các biến khác có thể giải thích thêm?

Mặt khác, nếu bạn có thể sử dụng biến phụ thuộc của mình dưới dạng vấn đề đếm / thứ tự (như thương vong do xung đột hoặc thời gian xảy ra xung đột), bạn có thể thử mô hình hồi quy đếm ngược hoặc mô hình vượt rào. Chúng có thể có cùng một vấn đề về định nghĩa kém giữa 0 và 1, nhưng một số xung đột mà các biến của bạn có tương quan với có thể kéo ra từ 0.

— gregmacfarlane
nguồn

4

(+1) Gợi ý tốt. Mặc dù vậy, tôi muốn nói dối rằng "tính không chính xác" của mô hình chỉ đơn thuần là thất bại trong việc dự đoán nhiều xác suất trên 50%. Nếu "1" thường có dự đoán xác suất từ 10% đến 40%, so với dưới 0,5% một chút cho "0" - đó sẽ được coi là hiệu suất dự đoán mạnh mẽ trong nhiều ứng dụng.

— Scortchi - Phục hồi Monica

2

Ngoài việc hạ thấp dân số đa số, bạn cũng có thể chồng chéo các sự kiện hiếm gặp, nhưng lưu ý rằng việc quá khổ của nhóm thiểu số có thể dẫn đến tình trạng thừa, vì vậy hãy kiểm tra cẩn thận.

Bài viết này có thể cung cấp thêm thông tin về nó: Yap, Bee Wah, et al. "Một ứng dụng của oversampling, Undersampling, Bagging và Boosting trong việc xử lý các bộ dữ liệu không cân bằng." pdf

Ngoài ra, tôi cũng muốn liên kết câu hỏi này vì nó cũng thảo luận về cùng một vấn đề

— Alexey Grigorev
nguồn

0

Câu hỏi của bạn tập trung vào làm thế nào tôi có thể dỗ hồi quy logit để tìm ra giải pháp tốt hơn. Nhưng bạn có chắc chắn rằng một giải pháp tốt hơn tồn tại? Chỉ với mười thông số, bạn có thể tìm ra giải pháp tốt hơn không?

Tôi sẽ thử một mô hình phức tạp hơn bằng cách thêm các thuật ngữ sản phẩm vào đầu vào hoặc thêm một lớp tối đa ở phía đích (để về cơ bản bạn có nhiều bộ hồi quy logistic cho các tập hợp con được phát hiện thích nghi khác nhau của các mục tiêu 1).

— Neil G
nguồn

Cảm ơn câu trả lời của bạn. Tôi chắc chắn sẽ thử kết hợp các biến của tôi theo những cách khác nhau. Nhưng trước đây, tôi muốn biết liệu những màn trình diễn nghèo nàn của người mẫu của tôi đến từ các vấn đề kỹ thuật hay từ một nơi nào khác

— Damien

-1

Câu hỏi tuyệt vời.

Theo tôi, vấn đề là liệu bạn có đang cố gắng suy luận không (bạn có quan tâm đến những gì hệ số của bạn đang nói với bạn không?) Hoặc dự đoán. Nếu sau này, bạn có thể mượn các mô hình từ Machine Learning (BART, RandomForest, các cây được tăng cường, v.v.) gần như chắc chắn sẽ làm tốt công việc dự đoán hơn là logit. Nếu bạn đang suy luận và bạn có quá nhiều điểm dữ liệu, thì hãy thử bao gồm các thuật ngữ tương tác hợp lý, các thuật ngữ đa thức, v.v. Ngoài ra, bạn có thể thực hiện suy luận từ BART, như trong bài viết này:

http://artsandscatics.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

Gần đây tôi đã thực hiện một số công việc về các sự kiện hiếm, và không biết trước bao nhiêu trường hợp hiếm có thể ảnh hưởng đến việc phân tích. Lấy mẫu xuống các trường hợp 0 là phải. Một chiến lược để tìm tỷ lệ mẫu xuống lý tưởng sẽ là

Lấy tất cả số 1 của bạn, giả sử bạn có n1 trong số đó.
Đặt một số giá trị z = bội số của n1 bạn sẽ vẽ; có lẽ bắt đầu từ 5 và giảm xuống 1.
vẽ z * n1 0 quan sát
Ước tính mô hình của bạn trên một mẫu dữ liệu tập hợp con của bạn, đảm bảo rằng bạn xác thực chéo trên toàn bộ tập dữ liệu
Lưu các biện pháp phù hợp có liên quan mà bạn quan tâm: hệ số quan tâm, AUC của đường cong ROC, các giá trị liên quan trong ma trận nhầm lẫn, v.v.
Lặp lại các bước 2: 5 cho các zs nhỏ liên tiếp. Bạn có thể sẽ thấy rằng khi bạn xuống mẫu, tỷ lệ âm tính giả và âm tính giả (trong bộ thử nghiệm của bạn) sẽ giảm. Đó là, bạn sẽ bắt đầu dự đoán nhiều số 1, hy vọng đó thực sự là số 1, nhưng cũng có nhiều số thực sự là số 0. Nếu có một điểm yên trong phân loại sai này, thì đó sẽ là một tỷ lệ mẫu xuống tốt.

Hi vọng điêu nay co ich. JS

— Jim
nguồn

1

(-1) Không cần thiết phải lấy mẫu để hồi quy logistic. Xem tại đây ; việc chọn phản hồi chỉ thay đổi mức chặn dự kiến, do đó việc lấy mẫu xuống chỉ làm giảm độ chính xác của tỷ lệ chênh lệch ước tính. Hồi quy logistic cung cấp cho bạn các xác suất dự đoán, mà bạn có thể sử dụng để phân loại bằng cách sử dụng các giới hạn được tính toán để tính đến chi phí của các loại phân loại sai khác nhau hoặc sử dụng để xếp hạng các cá nhân hoặc quan tâm đến quyền của riêng họ.

— Scortchi - Tái lập Monica

Bạn sẽ nhận thấy rằng tôi đã không đề cập đến việc sử dụng hồi quy logistic, và thay vào đó gợi ý rằng có các phương pháp (như BART được lấy mẫu xuống) có lẽ phù hợp hơn cho các trường hợp hiếm.

— Jim

Câu hỏi là về hồi quy logistic, và có nên giảm mẫu khi thực hiện hay không, và dường như bạn đang thảo luận về hồi quy logistic khi bạn viết về "bao gồm các thuật ngữ tương tác hợp lý, các thuật ngữ đa thức"; do đó, không rõ ràng rằng lời khuyên của bạn về lấy mẫu xuống chỉ dành cho sử dụng với các phương pháp thay thế: có lẽ bạn sẽ cân nhắc chỉnh sửa câu trả lời của mình để làm cho rõ ràng.

— Scortchi - Phục hồi Monica