Sự khác biệt giữa mô hình logit và probit

299

Sự khác biệt giữa mô hình Logit và Probit là gì?

Ở đây tôi quan tâm hơn đến việc biết khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng Probit.

Nếu có bất kỳ tài liệu nào định nghĩa nó bằng R , điều đó cũng hữu ích.

— Beta
nguồn

5

Hầu như không có bất kỳ sự khác biệt nào giữa kết quả của cả hai (xem Paap & Franses 2000)

1

Tôi đã từng có một bộ dữ liệu (bioassay) rộng rãi, nơi chúng ta có thể thấy probit được trang bị tốt hơn một chút, nhưng nó không tạo ra sự khác biệt nào cho kết luận.

— kjetil b halvorsen

1

@Alyas Shah: và đó là lời giải thích tại sao với probit dữ liệu của tôi được cải thiện (bên lề) tốt hơn --- bởi vì trên một liều nhất định, tỷ lệ tử vong là 100% và dưới ngưỡng nào đó, tỷ lệ tử vong là 0%, vì vậy chúng tôi không thấy cách tiếp cận chậm của logit!

— kjetil b halvorsen

3

Đối với dữ liệu thực, do sự đối lập với dữ liệu được tạo từ logit hoặc probit, một cách tiếp cận có vấn đề sẽ là chạy một so sánh mô hình. Theo kinh nghiệm của tôi, dữ liệu hiếm khi dựa vào một trong hai mô hình.

— Tây An

2

Tôi đã nghe nói rằng việc sử dụng thực tế của phân phối logistic bắt nguồn từ sự tương tự của nó với CDF bình thường và chức năng phân phối tích lũy đơn giản hơn nhiều của nó. Thật vậy, CDF bình thường chứa một tích phân phải được đánh giá - mà tôi đoán là đã tính toán tốn kém trong những ngày qua.

— dv_bn

144

Chúng chủ yếu khác nhau trong chức năng liên kết.

Trong Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1}$

Trong Probit: (pdf bình thường tích lũy) $\Pr(Y=1 \mid X) = \Phi(X'\beta)$

Theo cách khác, logistic có đuôi hơi phẳng. tức là đường cong probit tiếp cận các trục nhanh hơn đường cong logit.

Logit có giải thích dễ dàng hơn probit. Hồi quy logistic có thể được hiểu là mô hình hóa tỷ lệ cược log (tức là những người hút> 25 điếu thuốc mỗi ngày có nguy cơ tử vong cao gấp 6 lần trước 65 tuổi). Thông thường mọi người bắt đầu mô hình với logit. Bạn có thể sử dụng giá trị khả năng của từng mô hình để quyết định logit vs probit.

— vinux
nguồn

6

Cảm ơn câu trả lời của bạn Vinux. Nhưng tôi cũng muốn biết khi nào nên sử dụng logit và sử dụng probit. Tôi biết logit phổ biến hơn probit và phần lớn các trường hợp chúng tôi sử dụng hồi quy logit. Nhưng có một số trường hợp mô hình Probit hữu ích hơn. Bạn có thể vui lòng cho tôi biết những trường hợp đó là gì. Và làm thế nào để phân biệt những trường hợp đó với trường hợp thông thường.

— Beta

5

Khi bạn quan tâm đến phần đuôi của đường cong, đôi khi việc lựa chọn logit hoặc probit có vấn đề. Không có quy tắc chính xác để chọn probit hoặc logit. Bạn có thể chọn mô hình bằng cách xem xét khả năng (hoặc khả năng đăng nhập) hoặc AIC.

— vinux

12

Cảm ơn vì lời khuyên! Bạn có thể giải thích về cách chọn giữa logit vs probit không? Cụ thể: (1) Làm thế nào để tôi biết khi bạn quan tâm đến phần đuôi của đường cong? (2) Làm cách nào để tôi chọn một mô hình bằng cách xem xét khả năng, khả năng đăng nhập hoặc AIC? Tôi nên xem xét cụ thể điều gì, và điều này sẽ ảnh hưởng đến quyết định của tôi về việc sử dụng mô hình nào?

— DW

Vâng, bạn có thể đưa ra ví dụ trong đó logit thất bại so với probit không? Tôi không thể tìm thấy những người bạn có trong tâm trí.

— Chảo

1

@flies Đây biểu thị chuyển vị của ma trận .

X^{'}

$X'$

X

$X$

— Mathemanic

445

Một mô hình tuyến tính tiêu chuẩn (ví dụ, một mô hình hồi quy đơn giản) có thể được coi là có hai "phần". Chúng được gọi là thành phần cấu trúc và thành phần ngẫu nhiên . Ví dụ: Hai thuật ngữ đầu tiên (nghĩa là ) tạo thành thành phần cấu trúc và (biểu thị thuật ngữ lỗi phân phối thông thường) là thành phần ngẫu nhiên. Khi biến trả lời thường không được phân phối (ví dụ: nếu biến trả lời của bạn là nhị phân) thì phương pháp này có thể không còn hợp lệ. Các mô hình tuyến tính tổng quát

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y=\beta_0+\beta_1X+\varepsilon \\ \text{where } \varepsilon\sim\mathcal{N}(0,\sigma^2)$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

ε

$\varepsilon$ (GLiM) đã được phát triển để giải quyết các trường hợp như vậy và các mô hình logit và probit là các trường hợp đặc biệt của GLiM phù hợp với các biến nhị phân (hoặc biến phản ứng đa danh mục với một số điều chỉnh cho quy trình). GLiM có ba phần, thành phần cấu trúc , chức năng liên kết và phân phối đáp ứng . Ví dụ: Ở đây lại là thành phần cấu trúc, là hàm liên kết và

g (μ) = β_{0} + β_{1} X

$g(\mu)=\beta_0+\beta_1X$

β_{0} + β_{1} X

$\beta_0+\beta_1X$

g ()

$g()$

μ

$\mu$ là một giá trị trung bình của phân phối đáp ứng có điều kiện tại một điểm nhất định trong không gian đồng biến. Cách chúng ta nghĩ về thành phần cấu trúc ở đây không thực sự khác với cách chúng ta nghĩ về nó với các mô hình tuyến tính tiêu chuẩn; thực tế, đó là một trong những lợi thế lớn của GLiM. Bởi vì đối với nhiều phân phối, phương sai là một hàm của giá trị trung bình, phù hợp với giá trị trung bình có điều kiện (và cho rằng bạn đã quy định phân phối đáp ứng), bạn đã tự động tính tương tự của thành phần ngẫu nhiên trong mô hình tuyến tính (NB: điều này có thể phức tạp hơn trong thực tế).

Hàm liên kết là chìa khóa cho GLiM: vì phân phối biến trả lời là không bình thường, nên nó cho phép chúng ta kết nối thành phần cấu trúc với phản hồi - đó là 'liên kết' chúng (do đó là tên). Đó cũng là chìa khóa cho câu hỏi của bạn, vì logit và probit là các liên kết (như @vinux đã giải thích) và việc hiểu các chức năng liên kết sẽ cho phép chúng ta lựa chọn thông minh khi nào nên sử dụng cái nào. Mặc dù có thể có nhiều chức năng liên kết có thể được chấp nhận, nhưng thường có một chức năng đặc biệt. Không muốn đi quá xa vào đám cỏ dại (điều này có thể rất kỹ thuật), ý nghĩa dự đoán, , sẽ không nhất thiết phải giống như toán học như tham số vị trí chính tắc của phân phối đáp ứng ; $\mu$ . Ưu điểm của điều này "là có một thống kê đủ tối thiểu cho tồn tại" ( Rodriguez Đức ). Liên kết chính tắc cho dữ liệu phản hồi nhị phân (cụ thể hơn là phân phối nhị thức) là logit. Tuy nhiên, có rất nhiều hàm có thể ánh xạ thành phần cấu trúc lên khoảng , và do đó có thể chấp nhận được; probit cũng phổ biến, nhưng vẫn có những tùy chọn khác đôi khi được sử dụng (như nhật ký nhật ký bổ sung, , thường được gọi là 'cloglog'). Vì vậy, có rất nhiều chức năng liên kết có thể và việc lựa chọn chức năng liên kết có thể rất quan trọng. Sự lựa chọn nên được thực hiện dựa trên một số kết hợp của: $\beta$ $(0,1)$ $\ln(-\ln(1-\mu))$

Kiến thức về phân phối đáp ứng,
Xem xét lý thuyết, và
Thực nghiệm phù hợp với dữ liệu.

Có một chút nền tảng khái niệm cần thiết để hiểu rõ hơn những ý tưởng này (tha thứ cho tôi), tôi sẽ giải thích làm thế nào những cân nhắc này có thể được sử dụng để hướng dẫn lựa chọn liên kết của bạn. (Hãy để tôi lưu ý rằng tôi nghĩ nhận xét của @ David nắm bắt chính xác lý do tại sao các liên kết khác nhau được chọn trong thực tế .) Để bắt đầu, nếu biến phản hồi của bạn là kết quả của thử nghiệm Bernoulli (nghĩa là hoặc ), phân phối phản hồi của bạn sẽ là nhị thức, và những gì bạn thực sự mô hình hóa là xác suất quan sát là (nghĩa là ). Kết quả là, bất kỳ hàm nào ánh xạ dòng số thực, , vào khoảng $0$ $1$ $1$ $\pi(Y=1)$ $(-\infty,+\infty)$ $(0,1)$ sẽ làm việc.

Từ quan điểm của lý thuyết thực chất của bạn, nếu bạn đang nghĩ về các đồng biến của mình là kết nối trực tiếp với xác suất thành công, thì bạn thường chọn hồi quy logistic vì đó là liên kết chính tắc. Tuy nhiên, hãy xem xét ví dụ sau: Bạn được yêu cầu mô hình hóa high_Blood_Pressurenhư là một hàm của một số hiệp phương sai. Bản thân huyết áp thường được phân phối trong dân số (tôi thực sự không biết điều đó, nhưng có vẻ như prima facie hợp lý), tuy nhiên, các bác sĩ lâm sàng đã phân đôi nó trong nghiên cứu (nghĩa là họ chỉ ghi 'HA cao' hoặc 'bình thường' ). Trong trường hợp này, probit sẽ được ưu tiên a-prori vì lý do lý thuyết. Đây là ý nghĩa của @Elvis bởi "kết quả nhị phân của bạn phụ thuộc vào một biến Gaussian ẩn".đối xứng , nếu bạn tin rằng xác suất thành công tăng chậm từ 0, nhưng sau đó giảm dần nhanh hơn khi nó tiếp cận một, thì tắc nghẽn được yêu cầu, v.v.

Cuối cùng, lưu ý rằng sự phù hợp theo kinh nghiệm của mô hình với dữ liệu dường như không hỗ trợ trong việc chọn liên kết, trừ khi hình dạng của các chức năng liên kết trong câu hỏi khác nhau đáng kể (trong đó, logit và probit không). Ví dụ, hãy xem xét mô phỏng sau:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Ngay cả khi chúng ta biết dữ liệu được tạo bởi mô hình probit và chúng ta có 1000 điểm dữ liệu, mô hình probit chỉ mang lại 70% phù hợp tốt hơn và thậm chí sau đó, thường chỉ bằng một lượng không đáng kể. Hãy xem xét lần lặp cuối cùng:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

Lý do cho điều này chỉ đơn giản là các hàm liên kết logit và probit mang lại đầu ra rất giống nhau khi được cung cấp cùng một đầu vào.

Nhập mô tả hình ảnh ở đây

Các hàm logit và probit thực tế giống hệt nhau, ngoại trừ logit nằm cách xa giới hạn hơn một chút khi chúng 'xoay góc', như @vinux đã nêu. (Lưu ý rằng để có được logit và probit để căn chỉnh tối ưu, của logit phải gấp lần giá trị độ dốc tương ứng cho probit. của nhau nhiều hơn, nhưng tôi để nó sang một bên để giữ cho con số dễ đọc hơn.) Lưu ý rằng guốc không đối xứng trong khi những cái khác thì không; nó bắt đầu kéo về 0 từ sớm hơn, nhưng chậm hơn và tiến gần đến 1 rồi quay mạnh. $\beta_1$ $\approx 1.7$

Một vài điều nữa có thể nói về chức năng liên kết. Đầu tiên, coi hàm nhận dạng ( ) là hàm liên kết cho phép chúng ta hiểu mô hình tuyến tính tiêu chuẩn như một trường hợp đặc biệt của mô hình tuyến tính tổng quát (nghĩa là phân phối đáp ứng là bình thường và liên kết là chức năng nhận dạng). Điều quan trọng nữa là phải nhận ra rằng bất kỳ chuyển đổi nào, liên kết tức thời đều được áp dụng đúng cho tham số điều chỉnh phân phối phản hồi (nghĩa là, ), chứ không phải dữ liệu phản hồi thực tế $g(\eta)=\eta$ $\mu$ . Cuối cùng, vì trong thực tế, chúng ta không bao giờ có tham số cơ bản để chuyển đổi, trong các cuộc thảo luận về các mô hình này, thường thì cái được coi là liên kết thực tế bị bỏ mặc và mô hình được biểu diễn bằng nghịch đảo của hàm liên kết được áp dụng cho thành phần cấu trúc thay thế . Đó là: Chẳng hạn, hồi quy logistic thường được biểu diễn: thay vì:

μ = g^{- 1} (β_{0} + β_{1} X)

$\mu=g^{-1}(\beta_0+\beta_1X)$

π (Y) = \frac{\exp (β_{0} + β_{1} X)}{1 + \exp (β_{0} + β_{1} X)}

$\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}$

\ln (\frac{π (Y)}{1 - π (Y)}) = β_{0} + β_{1} X

$\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X$

Để biết tổng quan nhanh và rõ ràng, nhưng chắc chắn về mô hình tuyến tính tổng quát, xem chương 10 của Fitzmaurice, Laird, & Ware (2004) , (trên đó tôi đã dựa vào các phần của câu trả lời này, mặc dù đây là bản chuyển thể của riêng tôi về điều đó - và khác - vật chất, bất kỳ sai lầm sẽ là của riêng tôi). Để biết làm thế nào để phù hợp với các mô hình này trong R, hãy xem tài liệu về chức năng ? Glm trong gói cơ sở.

(Một lưu ý cuối cùng được thêm vào sau :) Tôi thỉnh thoảng nghe mọi người nói rằng bạn không nên sử dụng probit, vì nó không thể diễn giải được. Điều này là không đúng, mặc dù việc giải thích các betas ít trực quan hơn. Với hồi quy logistic, một thay đổi một đơn vị trong có liên quan đến thay đổi về tỷ lệ cược nhật ký của 'thành công' (thay vào đó, một thay đổi trong các tỷ lệ cược), tất cả các số khác đều bằng nhau. Với một probit, đây sẽ là một sự thay đổi của '. ( Ví dụ, nghĩ về hai quan sát trong bộ dữ liệu với -scores là 1 và 2.) Để chuyển đổi chúng thành xác suất dự đoán , bạn có thể chuyển chúng qua CDF bình thường $X_1$ $\beta_1$ $\exp(\beta_1)$ $\beta_1\text{ }z$ $z$ hoặc tìm kiếm chúng trên -table. $z$

(+1 cho cả @vinux và @Elvis. Ở đây tôi đã cố gắng cung cấp một khung rộng hơn để suy nghĩ về những điều này và sau đó sử dụng điều đó để giải quyết sự lựa chọn giữa logit và probit.)

— gung
nguồn

79

Cảm ơn các bạn. Tôi rất vui vì điều này kết hợp tốt với nhau; đây thực sự là một ví dụ tốt về cách bạn có thể học mọi thứ trên CV bằng cách trả lời các câu hỏi, cũng như hỏi và đọc câu trả lời của người khác: Tôi biết thông tin này trước đó, nhưng không đủ rõ để tôi có thể viết nó ra lạnh. Vì vậy, tôi thực sự đã dành một chút thời gian để xem qua các văn bản cũ của mình để tìm ra cách tổ chức tài liệu và đưa nó rõ ràng, và trong quá trình củng cố những ý tưởng này cho chính tôi.

— gung

6

@gung Cảm ơn lời giải thích này, đây là một trong những mô tả rõ ràng nhất về GLM nói chung mà tôi đã đi qua.

— đánh dấu

@whuber "Khi biến phản hồi không được phân phối bình thường (ví dụ: nếu biến phản hồi của bạn là nhị phân) thì phương pháp này [OLS tiêu chuẩn] có thể không còn hợp lệ." Tôi xin lỗi đã làm phiền bạn (một lần nữa!) Với điều này, nhưng tôi thấy điều này hơi khó hiểu. Tôi hiểu rằng không có giả định phân phối vô điều kiện về biến phụ thuộc trong OLS. Có phải trích dẫn này có nghĩa là ngụ ý rằng vì phản hồi rất không bình thường (tức là biến nhị phân) nên phân phối có điều kiện của nó cho (và do đó phân phối phần dư) có thể có thể tiếp cận quy tắc?

X

$X$

— Landroni

7

@landroni, bạn có thể muốn hỏi một câu hỏi mới cho việc này. Nói tóm lại, nếu phản hồi của bạn là nhị phân, phân phối có điều kiện của Y cho X = xi có thể không thể tiếp cận tính quy tắc; nó sẽ luôn luôn là nhị thức. Sự phân phối của phần dư thô cũng sẽ không bao giờ đạt đến mức bình thường. Chúng sẽ luôn là pi & (1-pi). Tuy nhiên, phân phối lấy mẫu của giá trị trung bình có điều kiện của Y cho X = xi (nghĩa là pi) sẽ tiếp cận tính quy tắc.

— gung

2

Tôi chia sẻ phần nào mối quan tâm của Landroni: sau tất cả, một kết quả được phân phối bình thường không phải là phần dư được phân phối thông thường và kết quả không được phân phối thông thường có thể có phần dư được phân phối bình thường. Vấn đề với kết quả có vẻ là ít về phân phối cho mỗi gia nhập , hơn phạm vi của nó.

— Alexis

47

Ngoài câu trả lời của vinux, câu trả lời quan trọng nhất:

các hệ số trong hồi quy logit có các diễn giải tự nhiên về tỷ lệ chênh lệch; $\beta$
hồi quy xác suất là mô hình tự nhiên khi bạn nghĩ rằng kết quả nhị phân của bạn phụ thuộc vào biến gaussian ẩn [eq. 1] với theo cách xác định: chính xác khi . $Z = X' \beta + \epsilon\$ $\epsilon \sim \mathcal N(0,1)$ $Y = 1$ $Z > 0$
Nói chung, và tự nhiên hơn, hồi quy thử nghiệm là mô hình tự nhiên hơn nếu bạn nghĩ rằng kết quả là chính xác khi một số vượt quá ngưỡng , với . Dễ dàng thấy rằng điều này có thể được giảm xuống trong trường hợp đã nói ở trên: chỉ cần thành ; thật dễ dàng để kiểm tra phương trình đó [eq. 1] vẫn giữ (hủy bỏ các hệ số và dịch phần chặn). Các mô hình này đã được bảo vệ, ví dụ, trong bối cảnh y tế, trong đó sẽ là biến liên tục không quan sát được và ví dụ như một bệnh xuất hiện khi $1$ $Z_0 = X' \beta_0 + \epsilon_0$ $c$ $\epsilon \sim \mathcal N(0,\sigma^2)$ $Z_0$ $Z = {1\over \sigma}(Z_0-c)$ $Z_0$ $Y$ $Z_0$ vượt quá một số "ngưỡng bệnh lý".

Cả hai mô hình logit và probit chỉ là mô hình . "Tất cả các mô hình đều sai, một số hữu ích", như Box đã từng nói! Cả hai mô hình sẽ cho phép bạn phát hiện sự tồn tại của hiệu ứng trên kết quả ; ngoại trừ trong một số trường hợp rất đặc biệt, không ai trong số họ sẽ "thực sự đúng", và việc giải thích của họ nên được thực hiện với sự thận trọng. $X$ $Y$

— Elvis
nguồn

17

Cũng cần lưu ý rằng việc sử dụng mô hình probit so với logit bị ảnh hưởng nặng nề bởi truyền thống kỷ luật. Ví dụ, nhà kinh tế dường như được sử dụng nhiều hơn để phân tích probit trong khi các nhà nghiên cứu về tâm lý học chủ yếu dựa vào các mô hình logit.

— David

Mô hình đằng sau lật một đồng xu là gì?

— skan

32

Về tuyên bố của bạn

Ở đây tôi quan tâm hơn đến việc biết khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng probit

Đã có nhiều câu trả lời ở đây đưa ra những điều cần xem xét khi lựa chọn giữa hai điều này nhưng có một điều cần cân nhắc chưa được nêu rõ: Khi bạn quan tâm đến việc xem xét các liên kết trong cụm dữ liệu nhị phân bằng cách sử dụng hiệu ứng hỗn hợp hoặc mô hình probit, có một nền tảng lý thuyết cho việc thích mô hình probit. Tất nhiên, điều này là giả sử rằng không có lý do tiên quyết nào cho việc thích mô hình logistic (ví dụ: nếu bạn đang thực hiện một mô phỏng và biết nó là mô hình thực sự).

Đầu tiên , để xem tại sao đây là lưu ý đầu tiên thực sự rằng cả hai mô hình này có thể được xem là mô hình hồi quy liên tục ngưỡng. Như một ví dụ, hãy xem xét mô hình hiệu ứng hỗn hợp tuyến tính đơn giản để quan sát trong cụm : $i$ $j$

y_{i j}^{⋆} = μ + η_{j} + ε_{i j}

$y^{\star}_{ij} = \mu + \eta_{j} + \varepsilon_{ij}$

trong đó là hiệu ứng ngẫu nhiên của cụm và $\eta_j \sim N(0,\sigma^2)$ $j$ $\varepsilon_{ij}$

y_{i j} = {\begin{cases} 1 & if y_{i j}^{⋆} \geq 0 \\ 0 & if y_{i j}^{⋆} < 0 \end{cases}

$y_{ij} = \begin{cases} 1 & \text{if} \ \ \ y^{\star}_{ij}≥0\\ \\ 0 &\text{if} \ \ \ y^{\star}_{ij}<0 \end{cases}$

$\varepsilon_{ij}$

Pearson (1900) đã chỉ ra rằng nếu dữ liệu thông thường đa biến được tạo và ngưỡng là phân loại, thì mối tương quan giữa các biến cơ bản vẫn được xác định theo thống kê - những tương quan này được gọi là tương quan đa âm và, cụ thể là trường hợp nhị phân, chúng được gọi là tương quan tetrachoric . Điều này có nghĩa là, trong một mô hình probit, hệ số tương quan nội hàm của các biến phân phối thông thường cơ bản:

I C C = \frac{{\hat{σ}}^{2}}{{\hat{σ}}^{2} + 1}

${\rm ICC} = \frac{ \hat{\sigma}^{2} }{\hat{\sigma}^{2} + 1 }$

được xác định có nghĩa là trong trường hợp probit, bạn hoàn toàn có thể mô tả phân phối chung của các biến tiềm ẩn bên dưới .

Trong mô hình logistic, phương sai hiệu ứng ngẫu nhiên trong mô hình logistic vẫn được xác định nhưng nó không mô tả đầy đủ cấu trúc phụ thuộc (và do đó là phân phối chung), vì nó là hỗn hợp giữa biến ngẫu nhiên thông thường và biến ngẫu nhiên không có thuộc tính mà nó được chỉ định đầy đủ bởi ma trận trung bình và hiệp phương sai của nó. Lưu ý giả định tham số kỳ lạ này cho các biến tiềm ẩn tiềm ẩn làm cho việc giải thích các hiệu ứng ngẫu nhiên trong mô hình logistic không rõ ràng để diễn giải nói chung.

— Vĩ mô
nguồn

6

Có những tình huống khác trong đó một người sẽ thích probit là tốt. Các mô hình lựa chọn kinh tế lượng (tức là Heckman) chỉ được chứng minh bằng mô hình probit. Tôi ít chắc chắn về điều này, nhưng tôi cũng tin rằng một số mô hình SEM trong đó các biến nhị phân là nội sinh cũng sử dụng mô hình probit vì giả định về tính quy tắc đa biến cần thiết cho ước tính khả năng tối đa.

— Andy W

1

@AndyW, bạn nói đúng về SEM nhị phân - và liên quan chặt chẽ đến điểm tôi đã thực hiện ở đây - ước tính (và giải thích tiếp theo) được hỗ trợ bởi thực tế là các mối tương quan cơ bản được xác định và mô tả đầy đủ phân phối chung .

— Macro

29

Một điểm quan trọng chưa được giải quyết trong các câu trả lời (xuất sắc) trước đó là bước ước tính thực tế. Các mô hình logit đa cực có một tệp PDF dễ tích hợp, dẫn đến biểu thức dạng đóng của xác suất lựa chọn. Hàm mật độ của phân phối bình thường không được tích hợp dễ dàng, vì vậy các mô hình probit thường yêu cầu mô phỏng. Vì vậy, trong khi cả hai mô hình là trừu tượng của các tình huống trong thế giới thực, logit thường nhanh hơn để sử dụng cho các vấn đề lớn hơn (nhiều lựa chọn thay thế hoặc bộ dữ liệu lớn).

$x$ $\varepsilon$

P = \int I [ε > - β^{'} x] f (ε) d ε

$P = \int I[\varepsilon > -\beta'x] f(\varepsilon)d\varepsilon$

I

$I$

f (x)

$f(x)$

P = \int_{ε = - β^{'} x}^{\infty} f (ε) d ε = 1 - F (- β^{'} x) = 1 - \frac{1}{\exp (β^{'} x)}

$P=\int_{\varepsilon=-\beta'x}^{\infty} f(\varepsilon)d\varepsilon\\ = 1- F(-\beta'x) = 1-\dfrac{1}{\exp(\beta'x)}$

Không có hình thức thuận tiện như vậy tồn tại cho các mô hình probit.

— gregmacfarlane
nguồn

4

Đây là lý do tại sao các hàm logit đa cực được sử dụng một cách cổ điển để ước tính các vấn đề lựa chọn rời rạc không gian, mặc dù hiện tượng thực tế được mô hình hóa tốt hơn bởi một probit.

— đánh dấu

Làm thế nào bạn sẽ kết hợp các yếu tố không gian vào một mô hình DC? Tôi rất quan tâm.

— gregmacfarlane

2

Nhưng, trong tình huống lựa chọn, probit linh hoạt hơn, vì vậy, con điếm được sử dụng ngày hôm nay! logit đa phương hàm ý giả định về sự không liên quan của các lựa chọn không liên quan, không phải lúc nào cũng hợp lý về mặt thực nghiệm.

— kjetil b halvorsen

1

Bạn đúng rằng IIA không phải lúc nào cũng hợp lý, và bạn cũng đúng rằng với các mô hình probit ước tính hiện đại có thể được ước tính một cách hợp lý nhanh chóng. Nhưng các mô hình GEV giải quyết vấn đề IIA và có thể thể hiện tốt hơn cấu trúc lựa chọn trong các tình huống nhất định. Tôi cũng không chắc rằng probit "ngày nay được sử dụng nhiều hơn;" trong lĩnh vực của tôi (mô hình vận chuyển), mô hình probit vẫn còn mới lạ.

— gregmacfarlane

13

Những gì tôi sẽ nói không có cách nào làm mất hiệu lực những gì đã được nói cho đến nay. Tôi chỉ muốn chỉ ra rằng các mô hình probit không phải chịu các giả định của IIA (Độc lập của các lựa chọn không liên quan), và mô hình logit thì có.

Để sử dụng một ví dụ từ cuốn sách tuyệt vời của Train. Nếu tôi có một bản ghi dự đoán liệu tôi sẽ đi xe buýt màu xanh hoặc lái xe trong xe của mình, thêm xe buýt màu đỏ sẽ rút ra từ cả xe hơi và xe buýt màu xanh theo tỷ lệ. Nhưng sử dụng mô hình probit bạn có thể tránh được vấn đề này. Về bản chất, thay vì vẽ từ cả hai theo tỷ lệ, bạn có thể rút thêm từ xe buýt màu xanh vì chúng là vật thay thế gần hơn.

Sự hy sinh bạn thực hiện là không có giải pháp dạng kín, như đã chỉ ra ở trên. Probit có xu hướng là goto của tôi khi tôi lo lắng về các vấn đề IIA. Điều đó không có nghĩa là không có cách nào để vượt qua IIA trong khung logit (phân phối GEV). Nhưng tôi đã luôn xem những kiểu mẫu này là một cách khó hiểu xung quanh vấn đề. Với tốc độ tính toán mà bạn có thể nhận được, tôi sẽ nói đi với probit.

— người dùng61417
nguồn

1

Bạn có thể giải thích "Độc lập của các lựa chọn thay thế không liên quan" không?

— skan

3

Lưu ý rằng vẫn có thể ước tính mô hình probit đa cực thực thi một biến thể của giả định IIA (như trong lệnh mprobit trong Stata). Để loại bỏ IIA trong probit đa phương, bạn phải mô hình hóa ma trận phương sai hiệp phương sai của các lỗi biến tiềm ẩn cho mỗi phương án trong biến phản ứng.

— Kenji

8

Một trong những khác biệt nổi tiếng nhất giữa logit và probit là phân phối phần dư hồi quy (lý thuyết): bình thường cho probit, logistic cho logit (vui lòng xem: Koop G. Giới thiệu về Kinh tế lượng Chichester, Wiley: 2008: 280).

— Carlo Lazzaro
nguồn

2

nhưng làm thế nào để chúng ta biết liệu dữ liệu của chúng ta nên có phân phối dư bình thường hay lý thuyết logistic?, ví dụ như khi tôi lật một đồng xu.

— skan

8

Tôi đưa ra một câu trả lời thực tế cho câu hỏi, chỉ tập trung vào "khi nào nên sử dụng hồi quy logistic và khi nào nên sử dụng probit", mà không đi vào chi tiết thống kê, mà tập trung vào các quyết định dựa trên thống kê. Câu trả lời phụ thuộc vào hai điều chính: bạn có sở thích kỷ luật không và bạn chỉ quan tâm đến mô hình nào phù hợp hơn với dữ liệu của bạn?

Sự khác biệt cơ bản

Cả hai mô hình logit và probit đều cung cấp các mô hình thống kê đưa ra xác suất rằng biến phản ứng phụ thuộc sẽ là 0 hoặc 1. Chúng rất giống nhau và thường được đưa ra kết quả thực tế, nhưng vì chúng sử dụng các hàm khác nhau để tính xác suất, nên kết quả của chúng đôi khi hơi khác nhau.

Kỷ luật ưu tiên

Một số ngành học thuật thường thích cái này hay cái khác. Nếu bạn định xuất bản hoặc trình bày kết quả của mình cho một chuyên ngành học thuật với một sở thích truyền thống cụ thể, thì hãy để điều đó quyết định lựa chọn của bạn để những phát hiện của bạn sẽ dễ được chấp nhận hơn. Ví dụ: (từ Phương thức tư vấn ),

Logit - còn được gọi là hồi quy logistic - phổ biến hơn trong các ngành khoa học sức khỏe như dịch tễ học một phần vì các hệ số có thể được hiểu theo tỷ lệ chênh lệch. Các mô hình probit có thể được khái quát hóa để giải thích cho các phương sai lỗi không đổi trong các cài đặt kinh tế lượng tiên tiến hơn (được gọi là mô hình probit dị vòng) và do đó được sử dụng trong một số bối cảnh của các nhà kinh tế và các nhà khoa học chính trị.

Vấn đề là sự khác biệt về kết quả rất nhỏ đến mức khả năng khán giả nói chung hiểu được kết quả của bạn vượt xa sự khác biệt nhỏ giữa hai cách tiếp cận.

Nếu tất cả những gì bạn quan tâm là phù hợp hơn ...

Nếu nghiên cứu của bạn thuộc một chuyên ngành không thích cái này hay cái khác, thì nghiên cứu của tôi về câu hỏi này (tốt hơn, logit hoặc probit) đã khiến tôi kết luận rằng sử dụng probit nói chung là tốt hơn , vì nó hầu như sẽ luôn luôn cung cấp một thống kê phù hợp với dữ liệu bằng hoặc vượt trội so với mô hình logit. Ngoại lệ đáng chú ý nhất khi các mô hình logit phù hợp hơn là trong trường hợp "các biến độc lập cực đoan" (mà tôi giải thích bên dưới).

Kết luận của tôi gần như hoàn toàn (sau khi tìm kiếm nhiều nguồn khác) trên Hahn, ED & Soyer, R., 2005. Mô hình probit và logit: Sự khác biệt trong lĩnh vực đa biến. Có sẵn tại: http://citeseerx.ist.psu.edu/viewdoc/doad?doi=10.1.1.329.4866&rep=rep1&type=pdf . Dưới đây là tóm tắt của tôi về các kết luận quyết định thực tế từ bài viết này liên quan đến việc liệu mô hình đa biến logit so với probit có phù hợp hơn với dữ liệu hay không (những kết luận này cũng áp dụng cho các mô hình đơn biến, nhưng chúng chỉ mô phỏng hiệu ứng cho hai biến độc lập):

Trong hầu hết các kịch bản, các mô hình logit và probit phù hợp với dữ liệu như nhau, với hai trường hợp ngoại lệ sau.
Logit chắc chắn là tốt hơn trong trường hợp "các biến độc lập cực đoan" . Đây là các biến độc lập trong đó một giá trị đặc biệt lớn hoặc nhỏ sẽ thường xuyên xác định xem biến phụ thuộc là 0 hay 1, ghi đè tác động của hầu hết các biến khác. Hahn và Soyer chính thức định nghĩa nó như vậy (trang 4):

Một mức biến độc lập cực đoan liên quan đến sự kết hợp của ba sự kiện. Đầu tiên, một mức biến độc lập cực đoan xảy ra ở cực trên hoặc cực dưới của một biến độc lập. Ví dụ, giả sử biến độc lập x là nhận các giá trị 1, 2 và 3.2. Mức biến độc lập cực đoan sẽ liên quan đến các giá trị tại x = 3.2 (hoặc x = 1). Thứ hai, một tỷ lệ đáng kể (ví dụ: 60%) trong tổng số n phải ở mức này. Thứ ba, xác suất thành công ở cấp độ này phải là cực kỳ cao (ví dụ: lớn hơn 99%).

Probit tốt hơn trong trường hợp "mô hình hiệu ứng ngẫu nhiên" với cỡ mẫu vừa hoặc lớn (bằng với logit cho cỡ mẫu nhỏ). Đối với các mô hình hiệu ứng cố định, probit và logit đều tốt như nhau. Tôi không thực sự hiểu Hahn và Soyer có nghĩa là gì bởi "các mô hình hiệu ứng ngẫu nhiên" trong bài viết của họ. Mặc dù nhiều định nghĩa được đưa ra ( như trong câu hỏi Stack Exchange này ), định nghĩa của thuật ngữ này thực tế không rõ ràng và không nhất quán . Nhưng vì logit không bao giờ vượt trội so với probit về vấn đề này, nên điểm được thể hiện bằng cách đơn giản là chọn probit.

Dựa trên phân tích của Hahn và Soyer, kết luận của tôi là luôn sử dụng các mô hình probit trừ trường hợp các biến độc lập cực đoan, trong trường hợp đó nên chọn logit . Các biến độc lập cực đoan không phải là tất cả những gì phổ biến và nên khá dễ nhận ra. Với quy tắc này, không quan trọng liệu mô hình có phải là mô hình hiệu ứng ngẫu nhiên hay không. Trong trường hợp mô hình là mô hình hiệu ứng ngẫu nhiên (ưu tiên probit) nhưng có các biến độc lập cực đoan (ưu tiên logit), mặc dù Hahn và Soyer không bình luận về điều này, ấn tượng của tôi từ bài viết của họ là hiệu ứng của các biến độc lập cực đoan chiếm ưu thế hơn, và do đó logit sẽ được ưu tiên.

— Bộ ba
nguồn

5

Dưới đây, tôi giải thích một công cụ ước tính lồng các probit và logit như các trường hợp đặc biệt và trong đó người ta có thể kiểm tra cái nào phù hợp hơn.

Cả probit và logit đều có thể được lồng trong một mô hình biến tiềm ẩn,

y_{i}^{*} = x_{i} β + ε_{i}, ε_{i} \sim G (\cdot),

$y_i^* = x_i \beta + \varepsilon_i,\quad \varepsilon_i \sim G(\cdot),$

trong đó thành phần quan sát được

y_{i} = 1 (y_{i}^{*} > 0) .

$y_i = \mathbb{1}(y_i^* > 0).$

$G$

ℓ (β) = y_{i} \log G (x_{i} β) + (1 - y_{i}) \log [1 - G (x_{i} β)] .

$\ell(\beta) = y_i \log G(x_i\beta) + (1-y_i) \log[1-G(x_i\beta)].$

$G$

Trong Klein & Spady, chức năng tiêu chí thay thế

ℓ (β) = y_{i} \log \hat{G} (x_{i} β) + (1 - y_{i}) \log [1 - \hat{G} (x_{i} β)],

$\ell(\beta) = y_i \log \hat{G}(x_i\beta) + (1-y_i) \log[1-\hat{G}(x_i\beta)],$

$\hat{G}(\cdot)$

\hat{G} (z) = \sum_{i = 1}^{N} y_{i} \frac{K (\frac{z - x_{i} β}{h})}{\sum_{j = 1}^{N} K (\frac{z - x_{j} β}{h})},

$\hat{G}(z) = \sum_{i=1}^N y_i \frac{ K\left( \frac{z - x_i\beta}{h} \right)}{\sum_{j=1}^N K\left( \frac{z - x_j\beta}{h} \right)},$

$K$ $h$ $\beta$ $h$ $h$

$\hat{G}$ $i$ $h$

$G$ $\beta$ $G$

— Siêu nhân
nguồn

5

Chúng rất giống nhau.

$Y=1$ $X$ $S$ $X$

P (Y = 1 | X) = P (S < β X)

$P(Y=1|X)=P(S<\beta X)$

Hoặc tương đương:

P (Y = 1 | X) = P (β X - S > 0)

$P(Y=1|X)=P(\beta X-S>0)$

$S$

$S$
$S$

$\beta$

$E=\beta X-S$ $X$ $-S$

$E>0$ $Y=1$
$E<0$ $Y=0$

Sự khác biệt giữa logistic và probit nằm ở sự khác biệt giữa logistic và phân phối bình thường. Không có nhiều như vậy. Sau khi điều chỉnh, chúng trông giống như nó:

Hậu cần có đuôi nặng hơn. Điều này có thể ảnh hưởng một chút đến cách các sự kiện có xác suất nhỏ (<1%) hoặc cao (> 99%) được trang bị. Trên thực tế, sự khác biệt thậm chí không đáng chú ý trong hầu hết các tình huống: logit và probit dự đoán về cơ bản là giống nhau. Xem http://scholarworks.rit.edu/cgi/viewcontent.cgi?article=2237&context=article

"Về mặt triết học", hồi quy logistic có thể được chứng minh bằng cách tương đương với nguyên tắc entropy tối đa: http://www.win-vector.com/blog/2011/09/the-equivalence-of-logistic-regression-and-maximum -entropy-model /

Về mặt tính toán: logistic đơn giản hơn vì phân phối tích lũy của phân phối logistic có công thức đóng không giống như phân phối bình thường. Nhưng các bản phân phối bình thường có các đặc tính tốt khi bạn đi đến đa chiều, đây là lý do tại sao probit thường được ưa thích trong các trường hợp nâng cao.

— Benoit Sanchez
nguồn