Trong khi thực hiện các hoạt động khai quật của mình đối với các câu hỏi không có câu trả lời, tôi đã tìm thấy câu hỏi rất hợp lý này, theo đó, tôi đoán, đến bây giờ OP đã tìm thấy câu trả lời.
Nhưng tôi nhận ra rằng tôi có nhiều câu hỏi khác nhau liên quan đến vấn đề phân tách hoàn hảo trong hồi quy logistic và tìm kiếm (nhanh chóng) trong tài liệu, dường như không trả lời chúng. Vì vậy, tôi quyết định bắt đầu một dự án nghiên cứu nhỏ của riêng mình (có thể là phát minh lại bánh xe), và với câu trả lời này, tôi muốn chia sẻ một số kết quả sơ bộ của nó. Tôi tin rằng những kết quả này góp phần hướng tới sự hiểu biết về vấn đề tách biệt hoàn toàn là vấn đề "kỹ thuật" hay liệu nó có thể được đưa ra một mô tả / giải thích trực quan hơn.
Mối quan tâm đầu tiên của tôi là tìm hiểu hiện tượng theo thuật toán, thay vì lý thuyết chung đằng sau nó: trong điều kiện đó, phương pháp ước lượng khả năng tối đa sẽ "phá vỡ" nếu được cung cấp một mẫu dữ liệu có chứa một biến hồi quy có hiện tượng hoàn hảo sự tách biệt tồn tại?
Kết quả sơ bộ (lý thuyết và mô phỏng) chỉ ra rằng:
1) Điều quan trọng là liệu một thuật ngữ không đổi có được bao gồm trong đặc tả logit hay không.
2) Điều quan trọng là liệu hồi quy trong câu hỏi có phân đôi (trong mẫu) hay không.
3) Nếu phân đôi, có thể có giá trị hay không.
4) Điều quan trọng là các biến hồi quy khác có trong đặc tả hay không.
5) Vấn đề làm thế nào 4 vấn đề trên được kết hợp. 0
Bây giờ tôi sẽ trình bày một tập hợp các điều kiện đủ để phân tách hoàn hảo để làm cho MLE bị phá vỡ. Điều này không liên quan đến việc các phần mềm thống kê khác nhau có đưa ra cảnh báo về hiện tượng hay không - họ có thể làm như vậy bằng cách quét mẫu dữ liệu trước khi thử thực hiện ước tính khả năng tối đa. Tôi quan tâm đến các trường hợp ước tính khả năng tối đa sẽ bắt đầu - và khi nào nó sẽ bị hỏng trong quá trình này.
Giả sử mô hình hồi quy logistic lựa chọn nhị phân "thông thường"
P( YTôi∣ β0, XTôi, zTôi) = Λ ( g( β0, xTôi, zTôi) ) ,g( β0, xTôi, zTôi) = β0+ β1xTôi+ z'Tôiγ
ZX là biến hồi quy có sự phân tách hoàn hảo, trong khi là tập hợp các biến hồi quy khác không có đặc điểm phân tách hoàn hảo. Cũng thếZ
Λ ( g( β0, xTôi, zTôi) ) = 11 + e- g( β0, xTôi, zTôi)≡ ΛTôi
Khả năng đăng nhập cho một mẫu có kích thước làn
lnL = Σi = 1n[ yTôiln( ΛTôi) + ( 1 - yTôi) ln( 1 - ΛTôi) ]
MLE sẽ được tìm thấy bằng cách đặt các đạo hàm bằng 0. Đặc biệt chúng tôi muốn
Σi = 1n( yTôi- ΛTôi) = 0(1)
Σi = 1n( yTôi- ΛTôi) xTôi= 0(2)
Phương trình đầu tiên xuất phát từ tính đạo hàm liên quan đến giá trị bất biến, thứ 2 từ dùng đạo hàm liên quan đến với .X
Giả sử bây giờ trong mọi trường hợp chúng ta có và không bao giờ lấy giá trị khi . Đây là hiện tượng tách hoàn toàn, hoặc "dự đoán hoàn hảo": nếu chúng ta quan sát chúng ta biết rằng . Nếu chúng ta quan sát chúng ta biết rằng . Điều này không liên quan đến việc, trên lý thuyết hay trong mẫu , là rời rạc hay liên tục, phân đôi hay không. Nhưng ngoài ra, đây là một hiện tượng cụ thể mẫu - chúng tôi không tranh luận rằng nó sẽ chiếm lĩnh dân số. Nhưng mẫu cụ thể là những gì chúng ta có trong tay để nuôi MLE.x i = a k x i a k y i = 0 x i = a k y i = 1 x i ≠ a k y i = 0 Xy1= 1xTôi= akxTôimộtkyTôi= 0xTôi= akyTôi= 1xTôi≠ mộtkyTôi= 0X
Bây giờ biểu thị tần số bãi bỏ của bởin yyTôi= 1ny
ny≡ ∑i = 1nyTôi= ∑yTôi= 1yTôi(3)
Sau đó chúng ta có thể viết lại eq thành( 1 )
ny= ∑i = 1nΛTôi= ∑yTôi= 1ΛTôi+ ΣyTôi= 0ΛTôi⇒ ny- ΣyTôi= 1ΛTôi= ∑yTôi= 0ΛTôi(4)
Chuyển sang eq. chúng ta có( 2 )
Σi = 1nyTôixTôi- Σi = 1nΛTôixTôi= 0 ⇒ ΣyTôi= 1yTôimộtk+ ΣyTôi= 0yTôixTôi- ΣyTôi= 1ΛTôimộtk- ΣyTôi= 0ΛTôixTôi= 0
sử dụng chúng ta có
n y một k + 0 - một k Σ y i = 1 Λ i - Σ y i = 0 Λ i x i = 0( 3 )
nymộtk+ 0 - mộtkΣyTôi= 1ΛTôi- ΣyTôi= 0ΛTôixTôi= 0
⇒ mộtk( ny- ΣyTôi= 1ΛTôi) - ΣyTôi= 0ΛTôixTôi= 0
và sử dụng chúng ta có được( 4 )
mộtkΣyTôi= 0ΛTôixTôi- ΣyTôi= 0ΛTôixTôi= 0 ⇒ ΣyTôi= 0( mộtk- xTôi) ΛTôi= 0(5)
Vì vậy: nếu đặc tả có một thuật ngữ không đổi và có sự tách biệt hoàn hảo đối với biến hồi quy , MLE sẽ cố gắng thỏa mãn, trong số những người khác, eq cũng vậy. ( 5 )X( 5 )
Nhưng lưu ý rằng tổng kết vượt qua mẫu phụ trong đó trong đó theo giả định. Điều này hàm ý như sau:
1) nếu là phân đôi trong mẫu, thì cho tất cả trong phép tính tổng trong .
2) Nếu không phân đôi trong mẫu, nhưng là giá trị tối thiểu hoặc giá trị tối đa của nó trong mẫu, thì một lần nữa cho tất cả trong phép tính tổng trong . yTôi= 0xTôi≠ mộtk
X( mộtk- xTôi) ≠ 0Tôi( 5 )
Xmộtk( mộtk- xTôi) ≠ 0Tôi( 5 )
Trong hai trường hợp này và hơn nữa không âm tính khi xây dựng, cách duy nhất mà eq. có thể được thỏa mãn là khi cho tất cả trong tổng kết. NhưngΛTôi(5)Λi=0i
Λi=11+e−g(β0,xi,zi)
và do đó, cách duy nhất mà có thể trở thành bằng , là nếu ước tính tham số là . Và vì là tuyến tính trong các tham số, điều này ngụ ý rằng ít nhất một trong các ước tính tham số phải là "vô hạn": đây là ý nghĩa của MLE để "phá vỡ": không tạo ra các ước tính có giá trị hữu hạn. Vì vậy, các trường hợp 1) và 2) là các điều kiện đủ để phân tích thủ tục MLE. 0 g ( β 0 , x i , z i ) → - ∞ g ( )Λi0g(β0,xi,zi)→−∞g()
Nhưng bây giờ hãy xem xét trường hợp không phân đôi và không phải là giá trị tối thiểu hoặc giá trị tối đa của nó trong mẫu. Chúng tôi vẫn có sự tách biệt hoàn toàn, "dự đoán hoàn hảo", nhưng bây giờ, trong eq. một số thuật ngữ sẽ là số dương và một số sẽ là số âm. Điều này có nghĩa là có khả năng MLE sẽ có thể đáp ứng eq. tạo ra các ước tính hữu hạn cho tất cả các tham số. Và kết quả mô phỏng xác nhận rằng đây là như vậy. a k ( 5 ) ( a k - x i ) ( 5 )Xak(5)(ak−xi)(5)
Tôi không nói rằng một mẫu như vậy không tạo ra hậu quả không mong muốn cho các thuộc tính của công cụ ước tính, v.v .: Tôi chỉ lưu ý rằng trong trường hợp như vậy, thuật toán ước tính sẽ chạy như bình thường.
Hơn nữa, kết quả mô phỏng cho thấy rằng nếu không có thuật ngữ không đổi trong đặc tả , không phải là nhị phân nhưng là một giá trị cực trị và có các biến hồi quy khác hiện diện, một lần nữa MLE sẽ chạy - cho thấy sự hiện diện của thuật ngữ không đổi (có hậu quả lý thuyết mà chúng tôi đã sử dụng trong các kết quả trước đó, cụ thể là yêu cầu đối với MLE để đáp ứng phương trình ), rất quan trọng.a k ( 1 )Xak(1)