Sự khác biệt giữa mô hình Logit và Probit là gì?
Ở đây tôi quan tâm hơn đến việc biết khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng Probit.
Nếu có bất kỳ tài liệu nào định nghĩa nó bằng R , điều đó cũng hữu ích.
Sự khác biệt giữa mô hình Logit và Probit là gì?
Ở đây tôi quan tâm hơn đến việc biết khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng Probit.
Nếu có bất kỳ tài liệu nào định nghĩa nó bằng R , điều đó cũng hữu ích.
Câu trả lời:
Chúng chủ yếu khác nhau trong chức năng liên kết.
Trong Logit:
Trong Probit: (pdf bình thường tích lũy)
Theo cách khác, logistic có đuôi hơi phẳng. tức là đường cong probit tiếp cận các trục nhanh hơn đường cong logit.
Logit có giải thích dễ dàng hơn probit. Hồi quy logistic có thể được hiểu là mô hình hóa tỷ lệ cược log (tức là những người hút> 25 điếu thuốc mỗi ngày có nguy cơ tử vong cao gấp 6 lần trước 65 tuổi). Thông thường mọi người bắt đầu mô hình với logit. Bạn có thể sử dụng giá trị khả năng của từng mô hình để quyết định logit vs probit.
Một mô hình tuyến tính tiêu chuẩn (ví dụ, một mô hình hồi quy đơn giản) có thể được coi là có hai "phần". Chúng được gọi là thành phần cấu trúc và thành phần ngẫu nhiên . Ví dụ:
Hai thuật ngữ đầu tiên (nghĩa là ) tạo thành thành phần cấu trúc và (biểu thị thuật ngữ lỗi phân phối thông thường) là thành phần ngẫu nhiên. Khi biến trả lời thường không được phân phối (ví dụ: nếu biến trả lời của bạn là nhị phân) thì phương pháp này có thể không còn hợp lệ. Các mô hình tuyến tính tổng quát
β 0 + β 1 X ε g ( μ ) = beta 0 + β 1 X
Hàm liên kết là chìa khóa cho GLiM: vì phân phối biến trả lời là không bình thường, nên nó cho phép chúng ta kết nối thành phần cấu trúc với phản hồi - đó là 'liên kết' chúng (do đó là tên). Đó cũng là chìa khóa cho câu hỏi của bạn, vì logit và probit là các liên kết (như @vinux đã giải thích) và việc hiểu các chức năng liên kết sẽ cho phép chúng ta lựa chọn thông minh khi nào nên sử dụng cái nào. Mặc dù có thể có nhiều chức năng liên kết có thể được chấp nhận, nhưng thường có một chức năng đặc biệt. Không muốn đi quá xa vào đám cỏ dại (điều này có thể rất kỹ thuật), ý nghĩa dự đoán, , sẽ không nhất thiết phải giống như toán học như tham số vị trí chính tắc của phân phối đáp ứng ;beta ( 0 , 1 ) ln ( - ln ( 1 - μ ) ). Ưu điểm của điều này "là có một thống kê đủ tối thiểu cho tồn tại" ( Rodriguez Đức ). Liên kết chính tắc cho dữ liệu phản hồi nhị phân (cụ thể hơn là phân phối nhị thức) là logit. Tuy nhiên, có rất nhiều hàm có thể ánh xạ thành phần cấu trúc lên khoảng , và do đó có thể chấp nhận được; probit cũng phổ biến, nhưng vẫn có những tùy chọn khác đôi khi được sử dụng (như nhật ký nhật ký bổ sung, , thường được gọi là 'cloglog'). Vì vậy, có rất nhiều chức năng liên kết có thể và việc lựa chọn chức năng liên kết có thể rất quan trọng. Sự lựa chọn nên được thực hiện dựa trên một số kết hợp của:
Có một chút nền tảng khái niệm cần thiết để hiểu rõ hơn những ý tưởng này (tha thứ cho tôi), tôi sẽ giải thích làm thế nào những cân nhắc này có thể được sử dụng để hướng dẫn lựa chọn liên kết của bạn. (Hãy để tôi lưu ý rằng tôi nghĩ nhận xét của @ David nắm bắt chính xác lý do tại sao các liên kết khác nhau được chọn trong thực tế .) Để bắt đầu, nếu biến phản hồi của bạn là kết quả của thử nghiệm Bernoulli (nghĩa là hoặc ), phân phối phản hồi của bạn sẽ là nhị thức, và những gì bạn thực sự mô hình hóa là xác suất quan sát là (nghĩa là ). Kết quả là, bất kỳ hàm nào ánh xạ dòng số thực, , vào khoảng1 1 π ( Y = 1 ) ( - ∞ , + ∞ ) ( 0 , 1 )sẽ làm việc.
Từ quan điểm của lý thuyết thực chất của bạn, nếu bạn đang nghĩ về các đồng biến của mình là kết nối trực tiếp với xác suất thành công, thì bạn thường chọn hồi quy logistic vì đó là liên kết chính tắc. Tuy nhiên, hãy xem xét ví dụ sau: Bạn được yêu cầu mô hình hóa high_Blood_Pressure
như là một hàm của một số hiệp phương sai. Bản thân huyết áp thường được phân phối trong dân số (tôi thực sự không biết điều đó, nhưng có vẻ như prima facie hợp lý), tuy nhiên, các bác sĩ lâm sàng đã phân đôi nó trong nghiên cứu (nghĩa là họ chỉ ghi 'HA cao' hoặc 'bình thường' ). Trong trường hợp này, probit sẽ được ưu tiên a-prori vì lý do lý thuyết. Đây là ý nghĩa của @Elvis bởi "kết quả nhị phân của bạn phụ thuộc vào một biến Gaussian ẩn".đối xứng , nếu bạn tin rằng xác suất thành công tăng chậm từ 0, nhưng sau đó giảm dần nhanh hơn khi nó tiếp cận một, thì tắc nghẽn được yêu cầu, v.v.
Cuối cùng, lưu ý rằng sự phù hợp theo kinh nghiệm của mô hình với dữ liệu dường như không hỗ trợ trong việc chọn liên kết, trừ khi hình dạng của các chức năng liên kết trong câu hỏi khác nhau đáng kể (trong đó, logit và probit không). Ví dụ, hãy xem xét mô phỏng sau:
set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Ngay cả khi chúng ta biết dữ liệu được tạo bởi mô hình probit và chúng ta có 1000 điểm dữ liệu, mô hình probit chỉ mang lại 70% phù hợp tốt hơn và thậm chí sau đó, thường chỉ bằng một lượng không đáng kể. Hãy xem xét lần lặp cuối cùng:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
Lý do cho điều này chỉ đơn giản là các hàm liên kết logit và probit mang lại đầu ra rất giống nhau khi được cung cấp cùng một đầu vào.
Các hàm logit và probit thực tế giống hệt nhau, ngoại trừ logit nằm cách xa giới hạn hơn một chút khi chúng 'xoay góc', như @vinux đã nêu. (Lưu ý rằng để có được logit và probit để căn chỉnh tối ưu, của logit phải gấp lần giá trị độ dốc tương ứng cho probit. của nhau nhiều hơn, nhưng tôi để nó sang một bên để giữ cho con số dễ đọc hơn.) Lưu ý rằng guốc không đối xứng trong khi những cái khác thì không; nó bắt đầu kéo về 0 từ sớm hơn, nhưng chậm hơn và tiến gần đến 1 rồi quay mạnh. ≈ 1,7
Một vài điều nữa có thể nói về chức năng liên kết. Đầu tiên, coi hàm nhận dạng ( ) là hàm liên kết cho phép chúng ta hiểu mô hình tuyến tính tiêu chuẩn như một trường hợp đặc biệt của mô hình tuyến tính tổng quát (nghĩa là phân phối đáp ứng là bình thường và liên kết là chức năng nhận dạng). Điều quan trọng nữa là phải nhận ra rằng bất kỳ chuyển đổi nào, liên kết tức thời đều được áp dụng đúng cho tham số điều chỉnh phân phối phản hồi (nghĩa là, ), chứ không phải dữ liệu phản hồi thực tếμ μ = g - 1 ( β 0 + β 1 X ) π ( Y ) = exp ( β 0 + β 1 X ). Cuối cùng, vì trong thực tế, chúng ta không bao giờ có tham số cơ bản để chuyển đổi, trong các cuộc thảo luận về các mô hình này, thường thì cái được coi là liên kết thực tế bị bỏ mặc và mô hình được biểu diễn bằng nghịch đảo của hàm liên kết được áp dụng cho thành phần cấu trúc thay thế . Đó là:
Chẳng hạn, hồi quy logistic thường được biểu diễn:
thay vì:
Để biết tổng quan nhanh và rõ ràng, nhưng chắc chắn về mô hình tuyến tính tổng quát, xem chương 10 của Fitzmaurice, Laird, & Ware (2004) , (trên đó tôi đã dựa vào các phần của câu trả lời này, mặc dù đây là bản chuyển thể của riêng tôi về điều đó - và khác - vật chất, bất kỳ sai lầm sẽ là của riêng tôi). Để biết làm thế nào để phù hợp với các mô hình này trong R, hãy xem tài liệu về chức năng ? Glm trong gói cơ sở.
(Một lưu ý cuối cùng được thêm vào sau :) Tôi thỉnh thoảng nghe mọi người nói rằng bạn không nên sử dụng probit, vì nó không thể diễn giải được. Điều này là không đúng, mặc dù việc giải thích các betas ít trực quan hơn. Với hồi quy logistic, một thay đổi một đơn vị trong có liên quan đến thay đổi về tỷ lệ cược nhật ký của 'thành công' (thay vào đó, một thay đổi trong các tỷ lệ cược), tất cả các số khác đều bằng nhau. Với một probit, đây sẽ là một sự thay đổi của '. ( Ví dụ, nghĩ về hai quan sát trong bộ dữ liệu với -scores là 1 và 2.) Để chuyển đổi chúng thành xác suất dự đoán , bạn có thể chuyển chúng qua CDF bình thườngβ 1 exp ( β 1 ) β 1 z z zhoặc tìm kiếm chúng trên -table.
(+1 cho cả @vinux và @Elvis. Ở đây tôi đã cố gắng cung cấp một khung rộng hơn để suy nghĩ về những điều này và sau đó sử dụng điều đó để giải quyết sự lựa chọn giữa logit và probit.)
Ngoài câu trả lời của vinux, câu trả lời quan trọng nhất:
các hệ số trong hồi quy logit có các diễn giải tự nhiên về tỷ lệ chênh lệch;
hồi quy xác suất là mô hình tự nhiên khi bạn nghĩ rằng kết quả nhị phân của bạn phụ thuộc vào biến gaussian ẩn [eq. 1] với theo cách xác định: chính xác khi .
Nói chung, và tự nhiên hơn, hồi quy thử nghiệm là mô hình tự nhiên hơn nếu bạn nghĩ rằng kết quả là chính xác khi một số vượt quá ngưỡng , với . Dễ dàng thấy rằng điều này có thể được giảm xuống trong trường hợp đã nói ở trên: chỉ cần thành ; thật dễ dàng để kiểm tra phương trình đó [eq. 1] vẫn giữ (hủy bỏ các hệ số và dịch phần chặn). Các mô hình này đã được bảo vệ, ví dụ, trong bối cảnh y tế, trong đó sẽ là biến liên tục không quan sát được và ví dụ như một bệnh xuất hiện khiZ 0 = X ' β 0 + ε 0ε ~ N ( 0 , σ 2 ) Z 0 Z = 1Z0YZ0 vượt quá một số "ngưỡng bệnh lý".
Cả hai mô hình logit và probit chỉ là mô hình . "Tất cả các mô hình đều sai, một số hữu ích", như Box đã từng nói! Cả hai mô hình sẽ cho phép bạn phát hiện sự tồn tại của hiệu ứng trên kết quả ; ngoại trừ trong một số trường hợp rất đặc biệt, không ai trong số họ sẽ "thực sự đúng", và việc giải thích của họ nên được thực hiện với sự thận trọng.Y
Về tuyên bố của bạn
Ở đây tôi quan tâm hơn đến việc biết khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng probit
Đã có nhiều câu trả lời ở đây đưa ra những điều cần xem xét khi lựa chọn giữa hai điều này nhưng có một điều cần cân nhắc chưa được nêu rõ: Khi bạn quan tâm đến việc xem xét các liên kết trong cụm dữ liệu nhị phân bằng cách sử dụng hiệu ứng hỗn hợp hoặc mô hình probit, có một nền tảng lý thuyết cho việc thích mô hình probit. Tất nhiên, điều này là giả sử rằng không có lý do tiên quyết nào cho việc thích mô hình logistic (ví dụ: nếu bạn đang thực hiện một mô phỏng và biết nó là mô hình thực sự).
Đầu tiên , để xem tại sao đây là lưu ý đầu tiên thực sự rằng cả hai mô hình này có thể được xem là mô hình hồi quy liên tục ngưỡng. Như một ví dụ, hãy xem xét mô hình hiệu ứng hỗn hợp tuyến tính đơn giản để quan sát trong cụm :j
trong đó là hiệu ứng ngẫu nhiên của cụm vàj
Pearson (1900) đã chỉ ra rằng nếu dữ liệu thông thường đa biến được tạo và ngưỡng là phân loại, thì mối tương quan giữa các biến cơ bản vẫn được xác định theo thống kê - những tương quan này được gọi là tương quan đa âm và, cụ thể là trường hợp nhị phân, chúng được gọi là tương quan tetrachoric . Điều này có nghĩa là, trong một mô hình probit, hệ số tương quan nội hàm của các biến phân phối thông thường cơ bản:
được xác định có nghĩa là trong trường hợp probit, bạn hoàn toàn có thể mô tả phân phối chung của các biến tiềm ẩn bên dưới .
Trong mô hình logistic, phương sai hiệu ứng ngẫu nhiên trong mô hình logistic vẫn được xác định nhưng nó không mô tả đầy đủ cấu trúc phụ thuộc (và do đó là phân phối chung), vì nó là hỗn hợp giữa biến ngẫu nhiên thông thường và biến ngẫu nhiên không có thuộc tính mà nó được chỉ định đầy đủ bởi ma trận trung bình và hiệp phương sai của nó. Lưu ý giả định tham số kỳ lạ này cho các biến tiềm ẩn tiềm ẩn làm cho việc giải thích các hiệu ứng ngẫu nhiên trong mô hình logistic không rõ ràng để diễn giải nói chung.
Một điểm quan trọng chưa được giải quyết trong các câu trả lời (xuất sắc) trước đó là bước ước tính thực tế. Các mô hình logit đa cực có một tệp PDF dễ tích hợp, dẫn đến biểu thức dạng đóng của xác suất lựa chọn. Hàm mật độ của phân phối bình thường không được tích hợp dễ dàng, vì vậy các mô hình probit thường yêu cầu mô phỏng. Vì vậy, trong khi cả hai mô hình là trừu tượng của các tình huống trong thế giới thực, logit thường nhanh hơn để sử dụng cho các vấn đề lớn hơn (nhiều lựa chọn thay thế hoặc bộ dữ liệu lớn).
Không có hình thức thuận tiện như vậy tồn tại cho các mô hình probit.
Những gì tôi sẽ nói không có cách nào làm mất hiệu lực những gì đã được nói cho đến nay. Tôi chỉ muốn chỉ ra rằng các mô hình probit không phải chịu các giả định của IIA (Độc lập của các lựa chọn không liên quan), và mô hình logit thì có.
Để sử dụng một ví dụ từ cuốn sách tuyệt vời của Train. Nếu tôi có một bản ghi dự đoán liệu tôi sẽ đi xe buýt màu xanh hoặc lái xe trong xe của mình, thêm xe buýt màu đỏ sẽ rút ra từ cả xe hơi và xe buýt màu xanh theo tỷ lệ. Nhưng sử dụng mô hình probit bạn có thể tránh được vấn đề này. Về bản chất, thay vì vẽ từ cả hai theo tỷ lệ, bạn có thể rút thêm từ xe buýt màu xanh vì chúng là vật thay thế gần hơn.
Sự hy sinh bạn thực hiện là không có giải pháp dạng kín, như đã chỉ ra ở trên. Probit có xu hướng là goto của tôi khi tôi lo lắng về các vấn đề IIA. Điều đó không có nghĩa là không có cách nào để vượt qua IIA trong khung logit (phân phối GEV). Nhưng tôi đã luôn xem những kiểu mẫu này là một cách khó hiểu xung quanh vấn đề. Với tốc độ tính toán mà bạn có thể nhận được, tôi sẽ nói đi với probit.
Một trong những khác biệt nổi tiếng nhất giữa logit và probit là phân phối phần dư hồi quy (lý thuyết): bình thường cho probit, logistic cho logit (vui lòng xem: Koop G. Giới thiệu về Kinh tế lượng Chichester, Wiley: 2008: 280).
Tôi đưa ra một câu trả lời thực tế cho câu hỏi, chỉ tập trung vào "khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng probit", mà không đi vào chi tiết thống kê, mà tập trung vào các quyết định dựa trên thống kê. Câu trả lời phụ thuộc vào hai điều chính: bạn có sở thích kỷ luật không và bạn chỉ quan tâm đến mô hình nào phù hợp hơn với dữ liệu của bạn?
Sự khác biệt cơ bản
Cả hai mô hình logit và probit đều cung cấp các mô hình thống kê đưa ra xác suất rằng biến phản ứng phụ thuộc sẽ là 0 hoặc 1. Chúng rất giống nhau và thường được đưa ra kết quả thực tế, nhưng vì chúng sử dụng các hàm khác nhau để tính xác suất, nên kết quả của chúng đôi khi hơi khác nhau.
Kỷ luật ưu tiên
Một số ngành học thuật thường thích cái này hay cái khác. Nếu bạn định xuất bản hoặc trình bày kết quả của mình cho một chuyên ngành học thuật với một sở thích truyền thống cụ thể, thì hãy để điều đó quyết định lựa chọn của bạn để những phát hiện của bạn sẽ dễ được chấp nhận hơn. Ví dụ: (từ Phương thức tư vấn ),
Logit - còn được gọi là hồi quy logistic - phổ biến hơn trong các ngành khoa học sức khỏe như dịch tễ học một phần vì các hệ số có thể được hiểu theo tỷ lệ chênh lệch. Các mô hình probit có thể được khái quát hóa để giải thích cho các phương sai lỗi không đổi trong các cài đặt kinh tế lượng tiên tiến hơn (được gọi là mô hình probit dị vòng) và do đó được sử dụng trong một số bối cảnh của các nhà kinh tế và các nhà khoa học chính trị.
Vấn đề là sự khác biệt về kết quả rất nhỏ đến mức khả năng khán giả nói chung hiểu được kết quả của bạn vượt xa sự khác biệt nhỏ giữa hai cách tiếp cận.
Nếu tất cả những gì bạn quan tâm là phù hợp hơn ...
Nếu nghiên cứu của bạn thuộc một chuyên ngành không thích cái này hay cái khác, thì nghiên cứu của tôi về câu hỏi này (tốt hơn, logit hoặc probit) đã khiến tôi kết luận rằng sử dụng probit nói chung là tốt hơn , vì nó hầu như sẽ luôn luôn cung cấp một thống kê phù hợp với dữ liệu bằng hoặc vượt trội so với mô hình logit. Ngoại lệ đáng chú ý nhất khi các mô hình logit phù hợp hơn là trong trường hợp "các biến độc lập cực đoan" (mà tôi giải thích bên dưới).
Kết luận của tôi gần như hoàn toàn (sau khi tìm kiếm nhiều nguồn khác) trên Hahn, ED & Soyer, R., 2005. Mô hình probit và logit: Sự khác biệt trong lĩnh vực đa biến. Có sẵn tại: http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.329.4866&rep=rep1&type=pdf . Dưới đây là tóm tắt của tôi về các kết luận quyết định thực tế từ bài viết này liên quan đến việc liệu mô hình đa biến logit so với probit có phù hợp hơn với dữ liệu hay không (những kết luận này cũng áp dụng cho các mô hình đơn biến, nhưng chúng chỉ mô phỏng hiệu ứng cho hai biến độc lập):
Trong hầu hết các kịch bản, các mô hình logit và probit phù hợp với dữ liệu như nhau, với hai trường hợp ngoại lệ sau.
Logit chắc chắn là tốt hơn trong trường hợp "các biến độc lập cực đoan" . Đây là các biến độc lập trong đó một giá trị đặc biệt lớn hoặc nhỏ sẽ thường xuyên xác định xem biến phụ thuộc là 0 hay 1, ghi đè tác động của hầu hết các biến khác. Hahn và Soyer chính thức định nghĩa nó như vậy (trang 4):
Một mức biến độc lập cực đoan liên quan đến sự kết hợp của ba sự kiện. Đầu tiên, một mức biến độc lập cực đoan xảy ra ở cực trên hoặc cực dưới của một biến độc lập. Ví dụ, giả sử biến độc lập x là nhận các giá trị 1, 2 và 3.2. Mức biến độc lập cực đoan sẽ liên quan đến các giá trị tại x = 3.2 (hoặc x = 1). Thứ hai, một tỷ lệ đáng kể (ví dụ: 60%) trong tổng số n phải ở mức này. Thứ ba, xác suất thành công ở cấp độ này phải là cực kỳ cao (ví dụ: lớn hơn 99%).
Dựa trên phân tích của Hahn và Soyer, kết luận của tôi là luôn sử dụng các mô hình probit trừ trường hợp các biến độc lập cực đoan, trong trường hợp đó nên chọn logit . Các biến độc lập cực đoan không phải là tất cả những gì phổ biến và nên khá dễ nhận ra. Với quy tắc này, không quan trọng liệu mô hình có phải là mô hình hiệu ứng ngẫu nhiên hay không. Trong trường hợp mô hình là mô hình hiệu ứng ngẫu nhiên (ưu tiên probit) nhưng có các biến độc lập cực đoan (ưu tiên logit), mặc dù Hahn và Soyer không bình luận về điều này, ấn tượng của tôi từ bài viết của họ là hiệu ứng của các biến độc lập cực đoan chiếm ưu thế hơn, và do đó logit sẽ được ưu tiên.
Dưới đây, tôi giải thích một công cụ ước tính lồng các probit và logit như các trường hợp đặc biệt và trong đó người ta có thể kiểm tra cái nào phù hợp hơn.
Cả probit và logit đều có thể được lồng trong một mô hình biến tiềm ẩn,
trong đó thành phần quan sát được
Trong Klein & Spady, chức năng tiêu chí thay thế
Chúng rất giống nhau.
Hoặc tương đương:
Sự khác biệt giữa logistic và probit nằm ở sự khác biệt giữa logistic và phân phối bình thường. Không có nhiều như vậy. Sau khi điều chỉnh, chúng trông giống như nó:
Hậu cần có đuôi nặng hơn. Điều này có thể ảnh hưởng một chút đến cách các sự kiện có xác suất nhỏ (<1%) hoặc cao (> 99%) được trang bị. Trên thực tế, sự khác biệt thậm chí không đáng chú ý trong hầu hết các tình huống: logit và probit dự đoán về cơ bản là giống nhau. Xem http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article
"Về mặt triết học", hồi quy logistic có thể được chứng minh bằng cách tương đương với nguyên tắc entropy tối đa: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-model /
Về mặt tính toán: logistic đơn giản hơn vì phân phối tích lũy của phân phối logistic có công thức đóng không giống như phân phối bình thường. Nhưng các bản phân phối bình thường có các đặc tính tốt khi bạn đi đến đa chiều, đây là lý do tại sao probit thường được ưa thích trong các trường hợp nâng cao.