Hiệu ứng cận biên của mô hình Probit và Logit

12

Bất cứ ai cũng có thể giải thích làm thế nào để tính toán hiệu ứng cận biên của mô hình Probit và Logit theo thuật ngữ của giáo dân?

Tôi mới tham gia thống kê và tôi bối rối về hai mô hình này.

— dấu
nguồn

Lưu ý rằng các số phát sinh từ các mô hình Probit và Logit trông giống như chúng đo gần giống nhau, nhưng thường khác nhau về số lượng. Khi bạn dịch chúng trở lại cuộc sống thực, sự khác biệt giữa hai thường trở nên nhỏ hơn nhiều.

— Henry

15

Tôi nghĩ rằng một cách tốt hơn để xem hiệu ứng cận biên của một biến đã cho, giả sử , là tạo ra một biểu đồ phân tán xác suất dự đoán trên trục tung và để có trên trục hoành. Đây là cách "cư sĩ" nhất mà tôi có thể nghĩ đến để chỉ ra mức độ ảnh hưởng của một biến đã cho. Không có toán, chỉ là hình ảnh. Nếu bạn có nhiều điểm dữ liệu, thì boxplot hoặc scatterplot mượt mà hơn có thể giúp xem hầu hết dữ liệu ở đâu (trái ngược với đám mây điểm). $X_j$ $X_j$

Không chắc chắn "Layman" phần tiếp theo là như thế nào, nhưng bạn có thể thấy nó hữu ích.

Nếu chúng ta nhìn vào hiệu ứng cận biên, hãy gọi nó là , lưu ý rằng , chúng ta sẽ nhận được $m_j$ $g(p)=\sum_kX_k\beta_k$

m_{j} = \frac{\partial p}{\partial X_{j}} = \frac{β_{j}}{g^{'} [g^{- 1} (X^{T} β)]} = \frac{β_{j}}{g^{'} (p)}

$m_j=\frac{\partial p}{\partial X_j}=\frac{\beta_j}{g'\left[g^{-1}(X^T\beta)\right]}=\frac{\beta_j}{g'(p)}$

Vì vậy, hiệu ứng cận biên phụ thuộc vào xác suất ước tính và độ dốc của hàm liên kết ngoài beta. Việc chia cho , xuất phát từ quy tắc chuỗi để phân biệt và thực tế là . Điều này có thể được hiển thị bằng cách phân biệt cả hai mặt của phương trình rõ ràng đúng . Chúng tôi cũng có theo định nghĩa. Đối với mô hình logit, chúng ta có và hiệu ứng cận biên là: $g'(p)$ $\frac{\partial g^{-1}(z)}{\partial z}=\frac{1}{g'\left[g^{-1}(z)\right]}$ $z=g\left[g^{-1}(z)\right]$ $g^{-1}(X^T\beta)=p$ $g(p)=\log(p)-\log(1-p)\implies g'(p)=\frac{1}{p}+\frac{1}{1-p}=\frac{1}{p(1-p)}$

m_{j}^{l o g i t} = β_{j} p (1 - p)

$m_j^{logit}=\beta_jp(1-p)$

Điều đó có nghĩa là gì? giếng bằng 0 tại và tại , và nó đạt giá trị tối đa tại . Vì vậy, hiệu ứng cận biên là lớn nhất khi xác suất gần và nhỏ nhất khi gần hoặc gần . Tuy nhiên, vẫn phụ thuộc vào , do đó các hiệu ứng cận biên rất phức tạp. Trong thực tế, vì phụ thuộc vào , bạn sẽ nhận được hiệu ứng cận biên khác nhau cho khác nhau $p(1-p)$ $p=0$ $p=1$ $0.25$ $p=0.5$ $0.5$ $p$ $0$ $1$ $p(1-p)$ $X_j$ $p$ $X_k,\;k\neq j$ các giá trị. Có thể là một lý do chính đáng để thực hiện âm mưu phân tán đơn giản đó - không cần chọn giá trị nào của các đồng biến sẽ sử dụng.

Đối với mô hình probit, chúng ta có trong đó là CDF tiêu chuẩn thông thường và là pdf chuẩn thông thường. Vì vậy, chúng tôi nhận được: $g(p)=\Phi^{-1}(p)\implies g'(p)=\frac{1}{\phi\left[\Phi^{-1}(p)\right]}$ $\Phi(.)$ $\phi(.)$

m_{j}^{p r o b i t} = β_{j} ϕ [Φ^{- 1} (p)]

$m_j^{probit}=\beta_j\phi\left[\Phi^{-1}(p)\right]$

Lưu ý rằng điều này có hầu hết các thuộc tính mà hiệu ứng cận biên mà tôi đã thảo luận trước đó và cũng đúng với bất kỳ hàm liên kết nào đối xứng khoảng (và dĩ nhiên, ví dụ ). Sự phụ thuộc vào phức tạp hơn, nhưng vẫn có hình dạng "bướu" chung (điểm cao nhất là , thấp nhất là và ). Hàm liên kết sẽ thay đổi kích thước của chiều cao tối đa (ví dụ: tối đa probit là , logit là ) và hiệu ứng cận biên được giảm dần về 0. $m_j^{logit}$ $0.5$ $g(p)=tan(\frac{\pi}{2}[2p-1])$ $p$ $0.5$ $0$ $1$ $\frac{1}{\sqrt{2\pi}}\approx 0.4$ $0.25$

— xác suất
nguồn

Các effectsgói vào R có thể dễ dàng tạo ra âm mưu như vậy xác suất dự đoán trên trục thẳng đứng vs X trên trục hoành. Xem socserv.socsci.mcmaster.ca/jfox/Misc/effects/index.html

— Landroni

Xem thêm: stats.stackexchange.com/questions/18814/ từ

— Landroni

5

Các mô hình logit và probit thường được sử dụng để tìm ra xác suất biến phụ thuộc y là 0 hoặc 1 dựa trên một số biến đầu vào.

Bằng tiếng Anh: Giả sử bạn đang cố gắng dự đoán một giá trị nhị phân, chẳng hạn như liệu ai đó sẽ phát triển bệnh tim trong suốt cuộc đời của họ. Bạn có một số biến số đầu vào như huyết áp, tuổi tác, dù họ có hút thuốc hay không, chỉ số BMI, nơi họ sống, v.v. Tất cả những biến số đó có thể đóng góp theo cách nào đó đến khả năng ai đó mắc bệnh tim.

Hiệu ứng cận biên của một biến đầu vào là nếu bạn tăng biến đó lên một chút, điều đó ảnh hưởng đến xác suất mắc bệnh tim như thế nào? Giả sử huyết áp tăng thêm một chút, làm thế nào để thay đổi cơ hội mắc bệnh tim? Hoặc nếu bạn tăng tuổi lên một năm?

Một số hiệu ứng này cũng có thể là phi tuyến tính: tăng BMI thêm một chút có thể có tác động rất khác nhau đối với người có chỉ số BMI rất khỏe mạnh so với người không có.

— ăn cướp
nguồn

1

Bạn vẫn muốn giáo dân của bạn biết phép tính, vì hiệu ứng cận biên là đạo hàm của xác suất phù hợp đối với biến quan tâm. Vì xác suất được trang bị là hàm liên kết (logit, probit hoặc bất cứ thứ gì) được áp dụng cho các giá trị được trang bị, bạn cần quy tắc chuỗi để tính toán nó. Vì vậy, trong các mô hình chỉ mục tuyến tính (trong đó các tham số nhập dưới dạng X'b), nó bằng với ước tính tham số nhân với đạo hàm của hàm liên kết. Vì đạo hàm là khác nhau ở các giá trị khác nhau của các biến hồi quy (không giống như trường hợp của mô hình tuyến tính), bạn phải quyết định, nơi để đánh giá hiệu ứng cận biên. Một lựa chọn tự nhiên sẽ là giá trị trung bình của tất cả các biến hồi quy. Một cách tiếp cận khác là đánh giá hiệu quả của từng quan sát và sau đó trung bình trên chúng. Việc giải thích khác nhau cho phù hợp.

— Alex
nguồn