Mức độ phù hợp và mô hình nào để chọn hồi quy tuyến tính hoặc Poisson


19

Tôi cần một số lời khuyên liên quan đến hai tình huống khó xử chính trong nghiên cứu của tôi, đó là nghiên cứu trường hợp về 3 loại dược phẩm lớn và sự đổi mới. Số bằng sáng chế mỗi năm là biến phụ thuộc.

Câu hỏi của tôi là

  • Các tiêu chí quan trọng nhất cho một mô hình tốt là gì? Điều gì quan trọng hơn / ít hơn? Có phải là hầu hết hoặc tất cả các biến sẽ có ý nghĩa? Đây có phải là thăm dò của "F THỐNG KÊ" không? Đây có phải là giá trị của "Bình phương R đã điều chỉnh" không?

  • Thứ hai, làm thế nào tôi có thể quyết định mô hình phù hợp nhất cho nghiên cứu? Ngoài các bằng sáng chế là biến đếm (có thể là số Poisson), tôi có các biến giải thích như lợi nhuận trên tài sản, ngân sách nghiên cứu và phát triển, đối tác lặp lại (% không phải là biến nhị phân), quy mô công ty (nhân viên) và một vài thứ nữa. Tôi nên làm hồi quy tuyến tính hay Poisson?


5
Kjetil đã đưa ra một câu trả lời chi tiết tốt. Một ý kiến ​​nhanh hơn và nhanh hơn phù hợp với lập luận của ông là những gì bạn gắn nhãn "thứ hai" là câu hỏi thực sự quan trọng. Những gì bạn đề cập đầu tiên là ngẫu nhiên.
Nick Cox

Câu trả lời:


31

Quan trọng nhất là logic đằng sau mô hình. Biến "số bằng sáng chế mỗi năm" của bạn là biến đếm, do đó, hồi quy Poisson được chỉ định. Đó là GLM (mô hình tuyến tính tổng quát) với chức năng liên kết nhật ký (thông thường), trong khi hồi quy tuyến tính thông thường là GLM Gaussian với liên kết nhận dạng. Ở đây, nó thực sự là chức năng liên kết nhật ký quan trọng nhất, quan trọng hơn phân phối lỗi (Poisson hoặc Gaussian).

Biến "Bằng sáng chế" là một biến mở rộng : xem các thuộc tính chuyên sâu và mở rộng . Đối với các biến chuyên sâu , chẳng hạn như nhiệt độ, các mô hình tuyến tính (có liên kết nhận dạng) thường thích hợp. Nhưng với một biến số rộng rãi thì khác. Hãy nghĩ rằng một trong những công ty dược phẩm của bạn chia thành hai công ty khác nhau. Sau đó, các bằng sáng chế đã được chia ra giữa hai công ty mới. Điều gì xảy ra với các biến số, các trong hồi quy của bạn? Các biến như số lượng nhân viên và ngân sách RD cũng sẽ phải được chia.x

Nói chung, trong bối cảnh này, một biến chuyên sâu là một biến độc lập với quy mô công ty, trong khi một biến mở rộng phụ thuộc (thông thường, tuyến tính) vào quy mô công ty. Vì vậy, theo một nghĩa nào đó, nếu chúng ta có nhiều biến số mở rộng khác nhau trong phương trình hồi quy, chúng ta đang đo hiệu ứng kích thước nhiều lần . Điều đó có vẻ dư thừa, vì vậy, chúng ta nên cố gắng, khi có thể, thể hiện các biến ở dạng chuyên sâu , như ngân sách RD trên mỗi nhân viên (hoặc tính theo phần trăm của tổng ngân sách), tương tự như doanh thu, v.v. sâu rộng. Xem câu trả lời của @ onestop về Xử lý các biến hồi quy tương quan cho một cuộc thảo luận khác về vấn đề biến rộng / chuyên sâu này.

Hãy xem xét đại số này: là Bằng sáng chế, Ngân sách (trên mỗi nhân viên), Nhân viên trong công ty ban đầu, trong khi P 1 , B 1 , E 1P 2 , B 2 , E 2 là các biến tương ứng sau a chia nhỏ. Giả sử, như trên, rằng E là covaritable duy nhất mở rộng (với P , tất nhiên, cũng mở rộng).P,B,EP1,B1,E1P2,B2,E2EP

Sau đó, trước khi chia tay, chúng tôi có mô hình, liên kết bản sắc, với phần ngẫu nhiên rời ra: Hãy để phân chia được α , 1 - α như vậy cho công ty 1 sau khi chia tay chúng tôi nhận α P

P= =μ+β1E+β2B
α,1-α từP1=αP,E1=αEnhưngB1=B. Tương tự như vậy đối với công ty hai. Vì vậy, mô hình phụ thuộc một cách khá phức tạp vào quy mô công ty, chỉ có hệ số hồi quy trênE
αP= =αμ+αβ1E+αβ2BP1= =αμ+β1E1+αβ2B1
P1= =αP,E1= =αEB1= =BEđộc lập với quy mô công ty, quy mô ảnh hưởng đến tất cả các thông số khác. Điều đó làm cho việc giải thích kết quả trở nên khó khăn, đặc biệt là như vậy, nếu trong dữ liệu của bạn có các công ty có quy mô khác nhau, thì bạn sẽ diễn giải các hệ số đó như thế nào? So sánh với các nghiên cứu khác dựa trên dữ liệu khác, vv, rất phức tạp.

Bây giờ, hãy cho chúng tôi xem nếu sử dụng chức năng liên kết nhật ký có thể giúp đỡ. Một lần nữa, chúng tôi viết các mô hình lý tưởng hóa mà không có điều khoản xáo trộn. Các biến như trên.

Thứ nhất, mô hình trước khi chia tay: Sau khi chia tay, cho một công ty, chúng tôi nhận được: P 1

P= =điểm kinh nghiệm(μ+β1E+β2B)
ngoại hình này gần như ngay, ngoại trừ một vấn đề, một phần của sự phụ thuộc vàoEkhông hoàn toàn làm việc ra. Vì vậy, chúng tôi thấy rằng số lượng nhân viên, một người có thể hợp tác ở dạng rộng rãi, phải được sử dụng trên quy mô nhật ký. Sau đó, thử lại, chúng tôi nhận được:
P1= =điểm kinh nghiệm(đăng nhậpα)điểm kinh nghiệm(μ+β1E+β2B)P1= =điểm kinh nghiệm(đăng nhậpα+μ+β1E+β2B1)
E

P= =điểm kinh nghiệm(μ+β1đăng nhậpE+β2B)
P1= =điểm kinh nghiệm(đăng nhậpα)điểm kinh nghiệm(μ+β1đăng nhậpE+β2B)P1= =điểm kinh nghiệm(đăng nhậpα+μ+β1đăng nhậpE+β2B1)P1= =điểm kinh nghiệm((1-β)đăng nhậpα+μ+β1đăng nhậpE1+β2B1)P1= =điểm kinh nghiệm(μ'+β1đăng nhậpE1+β2B1)
μ'

Điều đó làm cho việc giải thích kết quả dễ dàng hơn nhiều, và cũng so sánh với các nghiên cứu sử dụng dữ liệu khác, xu hướng theo thời gian, v.v. Bạn không thể đạt được biểu mẫu này với các tham số với các diễn giải độc lập với kích thước với một liên kết nhận dạng.

Kết luận: Sử dụng GLM với chức năng liên kết nhật ký, có thể là hồi quy Poisson hoặc nhị thức âm hoặc ... Hàm liên kết là các đơn đặt hàng có cường độ quan trọng hơn!

Tóm lại, khi xây dựng mô hình hồi quy cho biến trả lời có phạm vi rộng , giống như biến đếm.

  1. Cố gắng thể hiện covariabled ở dạng chuyên sâu.

  2. Các biến số phải được để lại rộng rãi: ghi nhật ký chúng (đại số ở trên phụ thuộc vào việc có nhiều nhất một biến đổi mở rộng).

  3. Sử dụng chức năng liên kết nhật ký.

Sau đó, các tiêu chí khác, chẳng hạn như các tiêu chí dựa trên sự phù hợp, có thể được sử dụng cho các quyết định thứ cấp, chẳng hạn như phân phối thuật ngữ xáo trộn.


3
Tôi nghĩ hồi quy Poisson hồi quy GLS với chức năng liên kết nhật ký?
diễn Bob

1
Thông thường, có, nhưng bạn cũng có thể xem xét hồi quy Poisson với liên kết danh tính (hoặc khác, chẳng hạn như căn bậc hai). Nhưng đối số của tôi ở đây cho thấy rằng thông thường, bạn muốn liên kết nhật ký.
kjetil b halvorsen

(1-β)μ
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.