Làm thế nào để mô tả và trình bày vấn đề tách hoàn hảo?


8

Những người làm việc với hồi quy logistic quen thuộc với vấn đề tách hoàn hảo: nếu bạn có một giá trị cụ thể thay đổi chỉ liên quan đến một trong hai kết quả (giả sử một nhị phân sao cho tất cả các quan sát với đều có kết quả = 1 ), khả năng sẽ tăng lên và ước tính khả năng tối đa sẽ giảm xuống vô cùng. trong R có thể hoặc không thể xử lý tốt đến mức đó, vì thông báo lỗi dự đoán hoàn hảo có thể xuất hiện vì những lý do khác ngoài dự đoán / phân tách hoàn hảo. trong Stata xác định các biến và giá trị có vấn đề như vậy và loại bỏ chúng khỏi phân tích.x = 1xx=1glmlogit

Câu hỏi của tôi khác với những gì cần làm nếu bạn có một cuộc chia ly hoàn hảo. Rằng tôi có thể xử lý bằng cách mã hóa các biến của mình (tất cả chúng đều là phân loại, vì vậy tôi chỉ có thể kết hợp các danh mục) hoặc với phiên bản hồi quy logistic của Firth nếu tôi muốn được ưa thích.

Thay vào đó, tôi tự hỏi những cách phổ biến để mô tả điều này. Tôi có một bộ dữ liệu với khoảng 100 bệnh nhân với tỷ lệ "dương tính" khoảng 50% và một số loại biến nhân khẩu học đưa ra dự đoán hoàn hảo này. Chúng ta hãy nói rằng tất cả 7 người mắt xanh đều có kết quả "tích cực". Đây có thể là một đặc thù mẫu nhỏ sẽ biến mất nếu tôi có cỡ mẫu 1000 và 70 người mắt xanh, nhưng nó có thể có ý nghĩa lâm sàng, vì trong mẫu lớn hơn đó tôi có thể có 60/70 người mắt xanh sẽ có một kết quả "tích cực" với tỷ lệ cược cao.

Vì vậy, thật tuyệt khi nói rằng tôi đã sử dụng phương pháp thu nhỏ Bayesian hoặc một số phương pháp thu nhỏ khác, nhưng khi mô tả cách tôi đến đó, tôi cần phải thừa nhận rằng tôi đã dự đoán / phân tách hoàn hảo và phải tìm một kỹ thuật phức tạp hơn để đạt được bất kỳ kết quả nào tất cả. Điều gì sẽ là một ngôn ngữ tốt để sử dụng ở đây?



Xem ở đây để biết một quan điểm: stats.stackexchange.com/questions/254124/ trên
kjetil b halvorsen

Câu trả lời:


3

Trong khi thực hiện các hoạt động khai quật của mình đối với các câu hỏi không có câu trả lời, tôi đã tìm thấy câu hỏi rất hợp lý này, theo đó, tôi đoán, đến bây giờ OP đã tìm thấy câu trả lời.
Nhưng tôi nhận ra rằng tôi có nhiều câu hỏi khác nhau liên quan đến vấn đề phân tách hoàn hảo trong hồi quy logistic và tìm kiếm (nhanh chóng) trong tài liệu, dường như không trả lời chúng. Vì vậy, tôi quyết định bắt đầu một dự án nghiên cứu nhỏ của riêng mình (có thể là phát minh lại bánh xe), và với câu trả lời này, tôi muốn chia sẻ một số kết quả sơ bộ của nó. Tôi tin rằng những kết quả này góp phần hướng tới sự hiểu biết về vấn đề tách biệt hoàn toàn là vấn đề "kỹ thuật" hay liệu nó có thể được đưa ra một mô tả / giải thích trực quan hơn.

Mối quan tâm đầu tiên của tôi là tìm hiểu hiện tượng theo thuật toán, thay vì lý thuyết chung đằng sau nó: trong điều kiện đó, phương pháp ước lượng khả năng tối đa sẽ "phá vỡ" nếu được cung cấp một mẫu dữ liệu có chứa một biến hồi quy có hiện tượng hoàn hảo sự tách biệt tồn tại?

Kết quả sơ bộ (lý thuyết và mô phỏng) chỉ ra rằng:
1) Điều quan trọng là liệu một thuật ngữ không đổi có được bao gồm trong đặc tả logit hay không.
2) Điều quan trọng là liệu hồi quy trong câu hỏi có phân đôi (trong mẫu) hay không.
3) Nếu phân đôi, có thể có giá trị hay không. 4) Điều quan trọng là các biến hồi quy khác có trong đặc tả hay không. 5) Vấn đề làm thế nào 4 vấn đề trên được kết hợp. 0

Bây giờ tôi sẽ trình bày một tập hợp các điều kiện đủ để phân tách hoàn hảo để làm cho MLE bị phá vỡ. Điều này không liên quan đến việc các phần mềm thống kê khác nhau có đưa ra cảnh báo về hiện tượng hay không - họ có thể làm như vậy bằng cách quét mẫu dữ liệu trước khi thử thực hiện ước tính khả năng tối đa. Tôi quan tâm đến các trường hợp ước tính khả năng tối đa sẽ bắt đầu - và khi nào nó sẽ bị hỏng trong quá trình này.

Giả sử mô hình hồi quy logistic lựa chọn nhị phân "thông thường"

P(Yiβ0,Xi,zi)=Λ(g(β0,xi,zi)),g(β0,xi,zi)=β0+β1xi+ziγ

ZX là biến hồi quy có sự phân tách hoàn hảo, trong khi là tập hợp các biến hồi quy khác không có đặc điểm phân tách hoàn hảo. Cũng thếZ

Λ(g(β0,xi,zi))=11+eg(β0,xi,zi)Λi

Khả năng đăng nhập cho một mẫu có kích thước làn

lnL=i=1n[yiln(Λi)+(1yi)ln(1Λi)]

MLE sẽ được tìm thấy bằng cách đặt các đạo hàm bằng 0. Đặc biệt chúng tôi muốn

(1)i=1n(yiΛi)=0

(2)i=1n(yiΛi)xi=0

Phương trình đầu tiên xuất phát từ tính đạo hàm liên quan đến giá trị bất biến, thứ 2 từ dùng đạo hàm liên quan đến với .X

Giả sử bây giờ trong mọi trường hợp chúng ta có và không bao giờ lấy giá trị khi . Đây là hiện tượng tách hoàn toàn, hoặc "dự đoán hoàn hảo": nếu chúng ta quan sát chúng ta biết rằng . Nếu chúng ta quan sát chúng ta biết rằng . Điều này không liên quan đến việc, trên lý thuyết hay trong mẫu , là rời rạc hay liên tục, phân đôi hay không. Nhưng ngoài ra, đây là một hiện tượng cụ thể mẫu - chúng tôi không tranh luận rằng nó sẽ chiếm lĩnh dân số. Nhưng mẫu cụ thể là những gì chúng ta có trong tay để nuôi MLE.x i = a k x i a k y i = 0 x i = a k y i = 1 x ia k y i = 0 Xy1=1xi=akxiakyi=0xi=akyi=1xiakyi=0X

Bây giờ biểu thị tần số bãi bỏ của bởin yyi=1ny

(3)nyi=1nyi=yi=1yi

Sau đó chúng ta có thể viết lại eq thành(1)

(4)ny=i=1nΛi=yi=1Λi+yi=0Λinyyi=1Λi=yi=0Λi

Chuyển sang eq. chúng ta có(2)

i=1nyixii=1nΛixi=0yi=1yiak+yi=0yixiyi=1Λiakyi=0Λixi=0

sử dụng chúng ta có n y một k + 0 - một k Σ y i = 1 Λ i - Σ y i = 0 Λ i x i = 0(3)

nyak+0akyi=1Λiyi=0Λixi=0

ak(nyyi=1Λi)yi=0Λixi=0

và sử dụng chúng ta có được(4)

(5)akyi=0Λixiyi=0Λixi=0yi=0(akxi)Λi=0

Vì vậy: nếu đặc tả có một thuật ngữ không đổi và có sự tách biệt hoàn hảo đối với biến hồi quy , MLE sẽ cố gắng thỏa mãn, trong số những người khác, eq cũng vậy. ( 5 )X(5)

Nhưng lưu ý rằng tổng kết vượt qua mẫu phụ trong đó trong đó theo giả định. Điều này hàm ý như sau: 1) nếu là phân đôi trong mẫu, thì cho tất cả trong phép tính tổng trong . 2) Nếu không phân đôi trong mẫu, nhưng là giá trị tối thiểu hoặc giá trị tối đa của nó trong mẫu, thì một lần nữa cho tất cả trong phép tính tổng trong . yi=0xiak
X(akxi)0i(5)
Xak(akxi)0i(5)

Trong hai trường hợp này và hơn nữa không âm tính khi xây dựng, cách duy nhất mà eq. có thể được thỏa mãn là khi cho tất cả trong tổng kết. NhưngΛi(5)Λi=0i

Λi=11+eg(β0,xi,zi)

và do đó, cách duy nhất mà có thể trở thành bằng , là nếu ước tính tham số là . Và vì là tuyến tính trong các tham số, điều này ngụ ý rằng ít nhất một trong các ước tính tham số phải là "vô hạn": đây là ý nghĩa của MLE để "phá vỡ": không tạo ra các ước tính có giá trị hữu hạn. Vì vậy, các trường hợp 1) và 2) là các điều kiện đủ để phân tích thủ tục MLE. 0 g ( β 0 , x i , z i ) - g ( )Λi0g(β0,xi,zi)g()

Nhưng bây giờ hãy xem xét trường hợp không phân đôi và không phải là giá trị tối thiểu hoặc giá trị tối đa của nó trong mẫu. Chúng tôi vẫn có sự tách biệt hoàn toàn, "dự đoán hoàn hảo", nhưng bây giờ, trong eq. một số thuật ngữ sẽ là số dương và một số sẽ là số âm. Điều này có nghĩa là có khả năng MLE sẽ có thể đáp ứng eq. tạo ra các ước tính hữu hạn cho tất cả các tham số. Và kết quả mô phỏng xác nhận rằng đây là như vậy. a k ( 5 ) ( a k - x i ) ( 5 )Xak(5)(akxi)(5)

Tôi không nói rằng một mẫu như vậy không tạo ra hậu quả không mong muốn cho các thuộc tính của công cụ ước tính, v.v .: Tôi chỉ lưu ý rằng trong trường hợp như vậy, thuật toán ước tính sẽ chạy như bình thường.

Hơn nữa, kết quả mô phỏng cho thấy rằng nếu không có thuật ngữ không đổi trong đặc tả , không phải là nhị phân nhưng là một giá trị cực trị có các biến hồi quy khác hiện diện, một lần nữa MLE sẽ chạy - cho thấy sự hiện diện của thuật ngữ không đổi (có hậu quả lý thuyết mà chúng tôi đã sử dụng trong các kết quả trước đó, cụ thể là yêu cầu đối với MLE để đáp ứng phương trình ), rất quan trọng.a k ( 1 )Xak(1)


Không, tôi không có, vì vậy câu hỏi mở. Tuy nhiên, tôi sẽ cần phải ngăn bạn ngay tại các phương trình bình thường (1) và (2). Vấn đề thực tế của sự phân tách hoàn hảo là trình tối ưu hóa khả năng muốn gửi tới và do đó xác suất dự đoán là 0 / một. Bạn không ở trong không gian tham số nữa, vì vậy các phương trình bình thường có thể không hoạt động. Ngoài ra, đối với các biến liên tục, tôi sẽ mô tả sự phân tách hoàn hảo là ngụ ý và ngụ ý , chứ không phải là một đẳng thức chính xác với một giá trị nhất định. ± x i > một Y i = 1 x imột Y i = 0g()±xi>aYi=1xiaYi=0
StasK

Các phương trình bình thường là những gì MLE sẽ cố gắng đáp ứng - và để làm như vậy, chắc chắn nó có thể gửi logit đến vô cùng, chắc chắn. Bạn có ý nghĩa gì bởi "các phương trình bình thường có thể không hoạt động?" Tôi không chắc tôi hiểu. Về các biến liên tục, có đặc tính phân tách hoàn hảo của bạn về cơ bản phù hợp với những gì tôi tìm thấy, cụ thể là giá trị " " là cực trị trong mẫu, cho MLE bị phá vỡ. Bất bình đẳng của bạn về cơ bản mô tả điều tương tự. ak
Alecos Papadopoulos

ML không hoạt động khi điều kiện thường xuyên bị vi phạm. Xem ví dụ này .
StasK

1
Tôi đồng ý với bạn. Bài viết của tôi không tranh luận khác. Những gì tôi đã cố gắng làm là "dự đoán" khi triển khai thực tế thuật toán MLE thông qua nỗ lực thỏa mãn các điều kiện thông thường, sẽ bị phá vỡ bằng số dưới sự phân tách hoàn hảo và khi nào thì không. Nhưng bài viết của tôi không thảo luận về tính hữu ích / ý nghĩa của các ước tính thực tế mà chúng tôi sẽ thu được, trong trường hợp thuật toán MLE cung cấp kết quả và tôi đã viết rõ ràng điều này trong bài đăng của mình. Tôi thấy các ví dụ của mình như một lời cảnh báo: "hãy cẩn thận - nếu có sự tách biệt hoàn hảo, đừng tin vào thuật toán MLE để nói với bạn như vậy".
Alecos Papadopoulos

ĐỒNG Ý. Với ý nghĩ đó, đó là một phân tích tuyệt vời, kỹ lưỡng và đóng góp có giá trị cho sự hiểu biết của chúng ta về sự tách biệt hoàn hảo. Nhưng nói đúng ra thì đó không phải là câu trả lời cho câu hỏi của tôi khi báo cáo về hiện tượng này (và bạn cũng nhận ra điều đó trong câu trả lời của mình). Tôi cũng có thể đề nghị bạn mở rộng câu trả lời của mình một chút và mô tả những gì xảy ra với các số liệu chính xác hữu hạn - (5) sẽ được coi là "đủ nhỏ" (ví dụ: < hoặc đại loại như thế) theo giá trị tuyệt đối và phần mềm có thể vui vẻ nhổ ra các giá trị không nhạy cảm (như trong R, theo hiểu biết của tôi)? 108glm
StasK
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.