Áp dụng hồi quy logistic với tỷ lệ sự kiện thấp

15

Tôi có một bộ dữ liệu trong đó tỷ lệ sự kiện rất thấp (40.000 trên ). Tôi đang áp dụng hồi quy logistic về điều này. Tôi đã có một cuộc thảo luận với ai đó khi đưa ra rằng hồi quy logistic sẽ không đưa ra ma trận nhầm lẫn tốt trên dữ liệu tỷ lệ sự kiện thấp như vậy. Nhưng do vấn đề kinh doanh và cách nó được xác định, tôi không thể tăng số lượng sự kiện từ 40.000 lên bất kỳ số lượng lớn hơn mặc dù tôi đồng ý rằng tôi có thể xóa một số người không có liên quan. $12\cdot10^5$

Xin vui lòng cho tôi biết quan điểm của bạn về điều này, cụ thể:

Độ chính xác của hồi quy logistic có phụ thuộc vào tỷ lệ sự kiện hay có bất kỳ tỷ lệ sự kiện tối thiểu nào được khuyến nghị không?
Có bất kỳ kỹ thuật đặc biệt cho dữ liệu tỷ lệ sự kiện thấp?
Xóa dân số không thường xuyên của tôi sẽ tốt cho tính chính xác của mô hình của tôi?

Tôi chưa quen với mô hình thống kê vì vậy hãy tha thứ cho sự thiếu hiểu biết của tôi và vui lòng giải quyết mọi vấn đề liên quan mà tôi có thể nghĩ đến.

Cảm ơn,

logistic

— ayush biyani
nguồn

3

40000 / 12e5 = 3,3%, đây không phải là một tỷ lệ rất thấp đối với tôi.

— GaBorgulya

1

Cảm ơn ga..trong trường hợp mọi người cần nhiều bối cảnh hơn để quyết định tỷ lệ sự kiện thấp và cao, dữ liệu này thuộc về ngành bảo hiểm.

— ayush biyani

3

Bạn có thể quan tâm đến hồi quy logistic trong dữ liệu sự kiện hiếm .

— Bernd Weiss

11

Tôi sẽ trả lời các câu hỏi của bạn theo thứ tự:

3 Việc xóa dân số không thường xuyên của tôi sẽ tốt cho tính chính xác của mô hình của tôi?

Mỗi quan sát sẽ cung cấp một số thông tin bổ sung về tham số (thông qua chức năng khả năng). Do đó, không có điểm nào trong việc xóa dữ liệu, vì bạn sẽ bị mất thông tin.

1 Độ chính xác của hồi quy logistic phụ thuộc vào tỷ lệ sự kiện hay có tỷ lệ sự kiện tối thiểu nào được khuyến nghị không?

Về mặt kỹ thuật, có: một quan sát hiếm có nhiều thông tin hơn (nghĩa là chức năng khả năng sẽ dốc hơn). Nếu tỷ lệ sự kiện của bạn là 50:50, thì bạn sẽ có được các dải tin cậy chặt chẽ hơn (hoặc khoảng tin cậy nếu bạn là Bayes) cho cùng một lượng dữ liệu . Tuy nhiên, bạn không được chọn tỷ lệ sự kiện của mình (trừ khi bạn đang thực hiện nghiên cứu kiểm soát trường hợp), vì vậy bạn sẽ phải thực hiện với những gì bạn có.

2 Có kỹ thuật đặc biệt nào cho dữ liệu tỷ lệ sự kiện thấp không?

Vấn đề lớn nhất có thể xảy ra là sự phân tách hoàn hảo : điều này xảy ra khi một số tổ hợp biến cho tất cả các sự kiện (hoặc tất cả các sự kiện): trong trường hợp này, ước tính tham số khả năng tối đa (và các lỗi tiêu chuẩn của chúng), sẽ tiến đến vô cùng (mặc dù thường thuật toán sẽ dừng trước). Đây là hai phương pháp khả thi:

a) loại bỏ các yếu tố dự đoán khỏi mô hình: mặc dù điều này sẽ làm cho thuật toán của bạn hội tụ, bạn sẽ loại bỏ biến có sức mạnh giải thích nhất, do đó, điều này chỉ có ý nghĩa nếu mô hình của bạn bị quá mức để bắt đầu (chẳng hạn như điều chỉnh quá nhiều tương tác phức tạp) .

b) sử dụng một số loại hình phạt, chẳng hạn như phân phối trước, sẽ thu nhỏ các ước tính trở lại các giá trị hợp lý hơn.

— Simon Byrne
nguồn

+1 Tôi cũng chỉ nói thêm rằng tôi đã thấy các bối cảnh nơi mọi người đã xem lại dữ liệu của họ thành 50:50. Sự đánh đổi dường như là một sự cải thiện trong khả năng phân loại của mô hình (giả sử đã chọn ngưỡng tốt) so với việc mất một số thông tin về tỷ lệ lưu hành chung và một số khó khăn khác trong việc diễn giải các hệ số.

— David J. Harris

1

@David: Tôi cũng đã nghe nói về việc mọi người xem lại và sử dụng các sơ đồ giả-bootstrap phức tạp trong đó họ chỉ lấy mẫu lại lớp tần số cao. Đối với tất cả các kỹ thuật này, cuối cùng bạn sẽ vứt bỏ (hoặc tạo nên) dữ liệu. Tôi cho rằng nếu điều này cải thiện mô hình của bạn, thì có lẽ bạn đã lắp sai mô hình. Xem thêm ý kiến của tôi ở đây: stats.stackexchange.com/questions/10356/iêu

— Simon Byrne

1) Xin lỗi nếu tôi không rõ ràng: Tôi đã nói về việc thay đổi ảnh hưởng tương đối của các sự kiện và không liên quan, như với đối số "trọng số" trong glmchức năng của R. Tệ nhất, điều này giống như ném một phần của từng điểm dữ liệu bị giảm cân, tôi cho rằng, nhưng nó không thực sự giống nhau. 2) Như tôi đã nói, có những sự đánh đổi liên quan đến quyết định này. Có lẽ nó có ý nghĩa nhất trong bối cảnh nơi dân số được lấy mẫu từ đó không được xác định rõ và tỷ lệ sự kiện thực sự không có ý nghĩa để bắt đầu. Tôi chắc chắn sẽ không đề nghị nó trên bảng.

— David J. Harris

2

Có một cách khác tốt hơn để xóa các dữ liệu không liên quan đến dữ liệu không gian hoặc thời gian: bạn có thể tổng hợp dữ liệu của mình theo thời gian / không gian và mô hình hóa số lượng dưới dạng Poisson. Ví dụ: nếu sự kiện của bạn là "vụ phun trào núi lửa xảy ra vào ngày X", thì không nhiều ngày sẽ có một vụ phun trào núi lửa. Tuy nhiên, nếu bạn nhóm các ngày thành tuần hoặc tháng, ví dụ: "số lần phun trào núi lửa vào tháng X", thì bạn sẽ giảm số lượng sự kiện và nhiều sự kiện sẽ có giá trị khác không.

— charles.y.zheng
nguồn

6

Tôi phải nói rằng lời khuyên này không trả lời câu hỏi nào cả. 1) Không có gì trong câu hỏi cho thấy OP đang xử lý dữ liệu không gian hoặc thời gian. 2) Làm thế nào sẽ tập hợp sự giúp đỡ dữ liệu để xác định bất kỳ mối quan hệ có ý nghĩa (nó sử dụng ít thông tin hơn so với các đơn vị gốc)!

— Andy W

2

Cũng như một lưu ý, đối với bất kỳ mối quan hệ được quan sát nào xảy ra ở cấp độ tổng hợp, nó phải có mặt ở cấp độ của các đơn vị ban đầu, mặc dù mối quan hệ ở cấp độ tổng hợp không nhất thiết phản ánh mối quan hệ giữa hai biến ở mức phân tách cấp độ. Xem qmrg.org.uk/files/2008/11/38-maup-openshaw.pdf

— Andy W

đồng ý với andy.

— ayush biyani