Là hàm logit luôn luôn là tốt nhất cho mô hình hồi quy của dữ liệu nhị phân?


15

Tôi đã suy nghĩ về vấn đề này. Hàm logistic thông thường để mô hình hóa dữ liệu nhị phân là: Tuy nhiên là hàm logit, mà là một đường cong hình chữ S, luôn luôn là tốt nhất để mô hình hóa dữ liệu? Có thể bạn có lý do để tin rằng dữ liệu của bạn không theo đường cong hình chữ S thông thường mà là một loại đường cong khác với miền.

log(p1p)=β0+β1X1+β2X2+
(0,1)

Có nghiên cứu nào về điều này? Có lẽ bạn có thể mô hình hóa nó như là một hàm probit hoặc một cái gì đó tương tự, nhưng nếu nó là một cái gì đó hoàn toàn khác thì sao? Điều này có thể dẫn đến ước tính tốt hơn của các hiệu ứng? Chỉ là một suy nghĩ tôi đã có, và tôi tự hỏi nếu có bất kỳ nghiên cứu về điều này.



2
@macro Tôi không nghĩ đó là một bản sao chính xác. Câu hỏi đó là về chỉ logit và probit; cái này yêu cầu thay thế khác là tốt.
Peter Flom - Tái lập Monica

Tôi đang bỏ phiếu để mở này. Sự khác biệt chính tôi thấy là Q này đang yêu cầu nghiên cứu về thống kê về chủ đề của các chức năng liên kết khác nhau có thể. Đó là một sự khác biệt tinh tế, nhưng nó có thể là đủ. @Glen, bạn có thể muốn xem lại Q khác, nếu bạn chưa thấy nó. Trong câu trả lời của tôi, tôi nói về các liên kết khác nhau có thể. Nếu bạn nghĩ Q này không thực sự khác biệt, hãy gắn cờ nó và các mod có thể đóng nó; nếu bạn có thể nghĩ ra một cách để phân biệt b / t những gì bạn đang hỏi & Q rõ ràng hơn, bạn có thể muốn chỉnh sửa để làm như vậy.
gung - Phục hồi Monica

Tôi biết đó không phải là một bản sao chính xác của câu hỏi logit so với câu hỏi probit nhưng tôi nghĩ câu trả lời của gung, vượt lên trên những gì được hỏi bởi câu hỏi được liên kết, giải quyết hầu hết những gì được hỏi ở đây, đó là lý do tại sao tôi đóng như một bản sao. Có thể có các chủ đề liên quan chặt chẽ khác nhưng đó là lần đầu tiên xuất hiện trong tâm trí.
Macro

Cảm ơn các ý kiến. Tôi tin rằng câu hỏi của tôi khác với câu hỏi trước. Tôi rất quen thuộc với các phép biến đổi probit và log-log, và cuộc thảo luận từ câu hỏi trước rất hữu ích cho tôi. Tuy nhiên, tôi quan tâm đến các hàm liên kết khác (có thể không phải là tham số?) Có thể xảy ra, trong tình huống mà bạn có thể hoặc không thể biết rằng đường cong xác suất tuân theo phân phối khác. Tôi nghĩ rằng khi các tương tác có liên quan giữa các hiệp phương sai thì điều này có thể đóng một vai trò quan trọng. @David J. Harris trả lời cũng hữu ích ...
Glen

Câu trả lời:


15

Mọi người sử dụng tất cả các loại hàm để giữ dữ liệu của họ trong khoảng từ 0 đến 1. Tỷ lệ cược log rơi tự nhiên khỏi toán học khi bạn lấy được mô hình (nó được gọi là "hàm liên kết chính tắc"), nhưng bạn hoàn toàn tự do thử nghiệm lựa chọn thay thế khác.

Như Macro đã ám chỉ trong nhận xét của anh ấy về câu hỏi của bạn, một lựa chọn phổ biến là mô hình probit , sử dụng hàm lượng tử của Gaussian thay vì hàm logistic. Tôi cũng đã nghe những điều tốt về việc sử dụng các chức năng quantile của một sinh viên phân phối, mặc dù tôi chưa bao giờ thử nó.t

ttt7

Hi vọng điêu nay co ich.

Chỉnh sửa để thêm : Cuộc thảo luận @Macro được liên kết đến thực sự xuất sắc. Tôi rất khuyên bạn nên đọc qua nó nếu bạn quan tâm đến chi tiết hơn.


Câu hỏi cụ thể là về "dữ liệu nhị phân" - không phải về dữ liệu nằm trong khoảng từ 0 đến 1. Mô hình probit không có lý do biện minh lý thuyết nào trong trường hợp dữ liệu nhị phân.
Neil G

3
@NeilG, một lý do để sử dụng mô hình probit là nó cung cấp một cách thuận tiện để mô hình hóa dữ liệu nhị phân đa biến (ví dụ với một mô hình hỗn hợp) như là các quy tắc ngưỡng. Trong trường hợp đó, ma trận tương quan của các biến cơ bản là không thể thống kê được, trong khi nó không nằm trong trường hợp logistic. Có một chút thảo luận ở đây .
Macro

@Macro: Ồ, tôi hiểu rồi. Điều đó rất thú vị, cảm ơn.
Neil G

@David J.Harris: Ý của bạn là ngũ phân vị (hoặc có thể là lượng tử có cùng ý nghĩa), nghĩa là chia nhỏ phân phối thành các phần năm: 20%, 40%, .., 100%?
MSIS

1
@MSIS một nhóm ngũ phân chia thành năm phần trăm, một phần trăm chia thành 100 phần trăm và một phần tư phân chia thành các đơn vị tùy ý Xem en.wikipedia.org/wiki/Quantile#ecialized_quantiles
David J. Harris

11

Tôi thấy không có lý do, a-prori, tại sao chức năng liên kết thích hợp cho một tập dữ liệu nhất định phải là logit (mặc dù nói chung vũ trụ có vẻ khá tử tế với chúng ta). Tôi không biết đây có phải là những gì bạn đang tìm kiếm không, nhưng đây là một số bài viết thảo luận về các chức năng liên kết kỳ lạ hơn:

Tiết lộ: Tôi không biết rõ tài liệu này. Tôi đã thử tìm hiểu về Cauchit và Scobit vài năm trước, nhưng mã của tôi liên tục bị lỗi (có lẽ vì tôi không phải là một lập trình viên tuyệt vời), và nó có vẻ không phù hợp với dự án tôi đang làm, vì vậy tôi đã bỏ nó .

X


4

Chiến lược tốt nhất là mô hình hóa dữ liệu theo ánh sáng của những gì đang diễn ra (Không có gì bất ngờ!)

  • Các mô hình probit bắt nguồn từ các nghiên cứu LD50 - bạn muốn liều thuốc diệt côn trùng giết chết một nửa các con bọ. Phản ứng nhị phân là liệu con bọ sống hay chết (với một liều nhất định). Các lỗi dễ bị ảnh hưởng ở một liều cũng sẽ dễ bị ảnh hưởng ở liều thấp hơn, đó là nơi mà ý tưởng mô hình hóa cho Bình thường tích lũy xuất hiện.
  • Nếu các quan sát nhị phân xuất hiện theo cụm, bạn có thể sử dụng mô hình nhị phân beta. Ben Bolker có một giới thiệu tốt trong tài liệu về gói bbmle của mình (bằng R), thực hiện điều này trong các trường hợp đơn giản. Những mô hình này cho phép kiểm soát nhiều hơn sự biến đổi của dữ liệu so với những gì bạn nhận được trong phân phối nhị thức.
  • Dữ liệu nhị phân đa biến - loại sắp xếp thành các bảng dự phòng đa chiều - có thể được phân tích bằng mô hình log-linear. Hàm liên kết là nhật ký chứ không phải là tỷ lệ cược nhật ký. Một số người gọi đây là hồi quy Poisson.

Có lẽ không có nghiên cứu về các mô hình này như vậy, mặc dù đã có rất nhiều nghiên cứu về bất kỳ một trong số các mô hình này, và về sự so sánh giữa chúng và về các cách ước tính khác nhau. Những gì bạn tìm thấy trong tài liệu là có rất nhiều hoạt động trong một thời gian, khi các nhà nghiên cứu xem xét một số tùy chọn cho một loại vấn đề cụ thể, và sau đó một phương pháp nổi lên là ưu việt.


+1 cho nhị thức beta. Đó là một công cụ tuyệt vời để có trong hộp công cụ của một người.
David J. Harris

3

Logit là một mô hình sao cho các đầu vào là sản phẩm của các chuyên gia, mỗi trong số đó là phân phối Bernoulli. Nói cách khác, nếu bạn coi tất cả các yếu tố đầu vào là phân phối Bernoulli độc lập với xác suấtpTôi có bằng chứng được kết hợp, bạn sẽ thấy rằng bạn đang thêm chức năng logistic được áp dụng cho từng pTôiS. (Một cách khác để nói điều tương tự là việc chuyển đổi từ tham số kỳ vọng sang tham số tự nhiên của phân phối Bernoulli là hàm logistic.)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.