Tại sao hồi quy Beta / Dirichlet không được coi là mô hình tuyến tính tổng quát?


26

Tiền đề là trích dẫn này từ họa tiết của gói R betareg1 .

Hơn nữa, mô hình chia sẻ một số thuộc tính (như bộ dự báo tuyến tính, hàm liên kết, tham số phân tán) với các mô hình tuyến tính tổng quát (GLMs; McCullagh và Nelder 1989), nhưng nó không phải là trường hợp đặc biệt của khung này (thậm chí không phân tán cố định )

Câu trả lời này cũng ám chỉ đến thực tế:

[...] Đây là một loại mô hình hồi quy phù hợp khi biến phản hồi được phân phối dưới dạng Beta. Bạn có thể nghĩ về nó tương tự như một mô hình tuyến tính tổng quát. Đó chính xác là những gì bạn đang tìm kiếm [...] (nhấn mạnh của tôi)

Tiêu đề câu hỏi nói lên tất cả: tại sao Hồi quy Beta / Dirichlet không được coi là Mô hình tuyến tính tổng quát (phải không)?


Theo như tôi biết, Mô hình tuyến tính tổng quát xác định các mô hình được xây dựng dựa trên sự mong đợi các biến phụ thuộc của chúng có điều kiện dựa trên các biến độc lập.

f là hàm liên kết ánh xạ kỳ vọng, là phân phối xác suất, kết quả và dự đoán, là tham số tuyến tính và phương sai.gYXβσ2

f(E(YX))g(βX,Iσ2)

Các GLM khác nhau áp đặt (hoặc thư giãn) mối quan hệ giữa giá trị trung bình và phương sai, nhưng phải là phân phối xác suất trong họ hàm mũ, một thuộc tính mong muốn sẽ cải thiện độ mạnh của ước lượng nếu tôi nhớ lại chính xác. Tuy nhiên, bản phân phối Beta và Dirichlet là một phần của gia đình hàm mũ, vì vậy tôi không có ý tưởng.g


[1] Cribari-Neto, F., & Zeileis, A. (2009). Hồi quy Beta trong R.



@amoeba Cảm ơn bạn đã liên kết, chưa thấy câu hỏi đó trước đây.
Firebug

2
Tôi nghĩ vấn đề là trong khi nếu bạn viết phân phối beta với các tham số , tiêu chuẩn (tức là ngụ ý thống nhất (0,1)), thì phân phối beta nằm trong họ hàm mũ, nếu bạn viết nó về mặt (trung bình) và (phân tán) thì không. Nhưng tôi chưa bao giờ quan tâm đến việc phân phối trong gia đình theo cấp số nhân. aba=b=1μϕ
Vách đá AB

@CliffAB Sau khi đọc các bình luận dưới câu trả lời của Tim bên dưới, có vẻ như việc tối ưu hóa Beta dẫn đến tính không trực giao của các tham số, dường như là một yêu cầu đối với GLM của McCullagh-Nelder.
Firebug

1
Tôi nghĩ câu trả lời ngắn gọn này: stats.stackexchange.com/a/18812/28666 có liên quan và thêm vào các câu trả lời ở đây (gợi ý lý do tại sao GLM ban đầu được xác định với họ phân tán theo cấp số nhân).
amip nói phục hồi Monica

Câu trả lời:


20

Kiểm tra tham chiếu ban đầu:

Ferrari, S., & Cribari-Neto, F. (2004). Hồi quy Beta cho tỷ lệ mô hình hóa và tỷ lệ. Tạp chí Thống kê ứng dụng, 31 (7), 799-815.

như các tác giả lưu ý, các tham số của phân phối beta được tham số lại có tương quan với nhau, vì vậy

Lưu ý rằng các tham số và không trực giao, trái ngược với những gì được xác minh trong lớp mô hình hồi quy tuyến tính tổng quát (McCullagh và Nelder, 1989).ϕβϕ

Vì vậy, trong khi mô hình trông giống như GLM và quacks giống như GLM, nó không hoàn toàn phù hợp với khung.


7
+1 nhưng thật tuyệt khi có câu trả lời chi tiết hơn. Tôi, cá nhân, không hiểu trích dẫn (ngay cả sau khi mở giấy được liên kết). Tại sao có những thông số không trực giao trong hồi quy beta .. Tại sao yêu cầu này cho GLMs .. vv?
amip nói Khôi phục Monica

3
@amoeba thành thật mà nói, tôi không phải là người có thể cho bạn câu trả lời chi tiết về điều đó. Tôi chưa bao giờ quan tâm nhiều đến lý thuyết đằng sau GLM để có đủ hiểu biết sâu sắc về sự tinh tế như vậy. McCullagh và Nelder đề cập đến yêu cầu này, nhưng tôi cần kiểm tra cuốn sách của họ để xem tại sao chính xác nó lại quan trọng. Nếu ai đó sẽ đưa ra lời giải thích chi tiết về lý do tại sao đây là một vấn đề, tôi sẽ xem xét việc đưa tiền thưởng cho câu trả lời như vậy.
Tim

9
Yêu cầu trực giao trong GLMs là quan trọng: Nó có nghĩa là bạn có thể ước lượng phương trình mà không cần lo lắng về misspecifying phần còn lại của khả năng. Ước tính tham số là phù hợp nếu phương trình trung bình ở trên được chỉ định chính xác. Suy luận là hợp lệ nếu bổ sung phương sai được chỉ định chính xác. Tuy nhiên, trong hồi quy beta bạn không thể tách rời hai phương trình mô hình theo cách này, thậm chí nếu φ chỉ là một hằng số. Để có kết quả nhất quán, mọi thứ phải được chỉ định chính xác. g(μ)=xβϕ
Achim Zeileis

3
@AchimZeileis Tôi nhớ rằng tôi đã thấy tên của bạn trên CV. Những gì bạn nói làm cho ý nghĩa hoàn hảo. Có lẽ bạn muốn chuyển đổi nhận xét của mình để trả lời bằng cách thêm một số lý do? Như tôi đã nói, tôi rất vui khi trao tiền thưởng cho ai đó đưa ra câu trả lời đủ chi tiết cho câu hỏi.
Tim

2
@Tim Sẽ cố gắng làm như vậy khi tôi có nhiều thời gian hơn. Đó là lý do tại sao tôi nghĩ một nhận xét nhanh là tốt hơn không có gì ...
Achim Zeileis

8

Câu trả lời của @probabilityislogic đang đi đúng hướng.

Phân phối beta nằm trong gia đình hàm mũ hai tham số . Các mô hình GLM đơn giản được mô tả bởi Nelder và Wedderburn (1972) không bao gồm tất cả các phân phối trong họ hai tham số mũ.

Về mặt bài viết của N & W, GLM áp dụng cho các hàm mật độ của loại sau (sau này được đặt tên là họ phân tán theo hàm mũ trong Jørgensen 1987 ):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

với hàm liên kết bổ sung và mô hình tuyến tính cho tham số tự nhiên θ = f ( μ ) = f ( X β ) .f()θ=f(μ)=f(Xβ)


Vì vậy, chúng tôi có thể viết lại phân phối ở trên:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

Hai họ tham số mũ là:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

trông tương tự nhưng tổng quát hơn (còn nếu một trong những là hằng số).θ


Sự khác biệt là rõ ràng và việc đưa bản phân phối beta ở dạng GLM là không thể.

Tuy nhiên, tôi thiếu hiểu biết đầy đủ để tạo ra một câu trả lời trực quan và đầy đủ hơn (tôi có cảm giác rằng có thể có nhiều mối quan hệ sâu sắc và thanh lịch hơn với nhiều nguyên tắc cơ bản khác nhau). GLM tổng quát hóa việc phân phối lỗi bằng cách sử dụng mô hình phân tán hàm mũ biến thiên duy nhất thay cho mô hình bình phương nhỏ nhất và khái quát hóa mối quan hệ tuyến tính trong trung bình, bằng cách sử dụng hàm liên kết.

Trực giác tốt nhất và đơn giản nhất có vẻ là dispersion- -term trong mũ, mà được nhân với tất cả mọi thứ và do đó phân tán không thay đổi với θ . Trong khi đó, nhiều gia đình mũ hai tham số, và các phương pháp bán khả năng, cho phép các tham số phân tán là một chức năng của θ là tốt.α(ϕ)θθ


Tham số thứ hai trong N & W df được xác định là phân tán. Nó được mở rộng một tham số theo họ số mũ tự nhiên π ( z ; θ )ϕπ(z;θ)
Sextus Empiricus

@amoeba beta là một bản phân phối gia đình theo cấp số nhân, ví dụ www2.stat.duke.edu/cifts/Spring11/sta114/lec/Exofam.pdf
Tim

2
Tôi không chắc chắn nếu nó không hoàn toàn có thể, ngay cả với sự phân tán cố định. Ít nhất là không theo glm như N & W đã nêu (điều tôi biết là rất nhiều người làm những việc khó khăn hơn nhiều để giải quyết hồi quy beta). Tôi sẽ chỉnh sửa câu trả lời để hiển thị những gì xảy ra, và nó sai ở đâu, nếu chúng ta cố gắng đi theo cùng một con đường lặp lại bình phương tối thiểu lặp lại.
Sextus Empiricus

2
Tôi đã chỉnh sửa câu trả lời phần nào. 1) Mô tả ban đầu của tôi về các gia đình và mô hình phân tán là không chính xác. GLM không bao gồm tất cả các bản phân phối của một họ hàm mũ theo tham số vì nó không chỉ là hàm mật độ, mà còn là hàm liên kết. 2) Xét về góc nhìn trực quan tốt hơn, tôi không thể đi xa và không mong đợi sẽ sớm đi xa. Các mô hình GLM liên quan đến mô hình cổ điển trong các biểu diễn khác nhau, thêm trọng số vào công thức ma trận của các quy trình khớp, dẫn xuất của các hàm khả năng ghi nhật ký bao gồm các thuật ngữ với hàm liên kết và phương sai, .....
Sextus Empiricus

2
Tôi lấy tự do để chỉnh sửa câu trả lời của bạn một chút, hy vọng bạn ổn với các chỉnh sửa. Ngoài ra, có vẻ như câu trả lời này thống kê.stackexchange.com/a/18812/28666 gợi ý lý do tại sao N & W sử dụng họ phân phối cụ thể này mà không phải là một nhóm rộng hơn.
amip nói rằng Phục hồi lại

2

Tôi không nghĩ rằng bản phân phối beta là một phần của họ phân tán theo cấp số nhân . Để có được điều này, bạn cần phải có một mật độ

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

cho các hàm được chỉ định d ( ) . Giá trị trung bình được cho là c ' ( θ ) và phương sai được cho là τ c " ( θ ) . Các tham số θ được gọi là tham số kinh điển.c()d()c(θ)τc(θ)θ

ylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

y=xx+zxz


1
Câu trả lời này không đúng như đã viết. Một cách để thấy điều này là, theo logic được trình bày, các phân phối Bernoulli và nhị thức, chẳng hạn, cũng sẽ không thuộc nhóm các gia đình hàm mũ.
Đức hồng y

2
Xin lỗi, bạn đúng là ví dụ tôi đưa ra là sai. (Cảnh báo: số học tinh thần và việc sử dụng CrossValidated trên thiết bị di động có thể nguy hiểm!) Tuy nhiên, quan điểm của tôi vẫn đứng vững. Câu trả lời này là không chính xác bởi vì nó phù hợp với một khái niệm "được xác định" rất hẹp về "gia đình hàm mũ" --- hẹp hơn nhiều so với bất kỳ nguồn thông thường hoặc sử dụng thực tế nào.
Đức hồng y

2
Hừm. Wikipedia có danh sách beta trong danh sách phân phối gia đình theo cấp số nhân.
amip nói phục hồi Monica

1
Đúng - Tôi đã nghĩ về gia đình hàm mũ tự nhiên - đó là một trường hợp đặc biệt
xác suất

1
θ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.