Quan trọng nhất là logic đằng sau mô hình. Biến "số bằng sáng chế mỗi năm" của bạn là biến đếm, do đó, hồi quy Poisson được chỉ định. Đó là GLM (mô hình tuyến tính tổng quát) với chức năng liên kết nhật ký (thông thường), trong khi hồi quy tuyến tính thông thường là GLM Gaussian với liên kết nhận dạng. Ở đây, nó thực sự là chức năng liên kết nhật ký quan trọng nhất, quan trọng hơn phân phối lỗi (Poisson hoặc Gaussian).
Biến "Bằng sáng chế" là một biến mở rộng : xem các thuộc tính chuyên sâu và mở rộng . Đối với các biến chuyên sâu , chẳng hạn như nhiệt độ, các mô hình tuyến tính (có liên kết nhận dạng) thường thích hợp. Nhưng với một biến số rộng rãi thì khác. Hãy nghĩ rằng một trong những công ty dược phẩm của bạn chia thành hai công ty khác nhau. Sau đó, các bằng sáng chế đã được chia ra giữa hai công ty mới. Điều gì xảy ra với các biến số, các trong hồi quy của bạn? Các biến như số lượng nhân viên và ngân sách RD cũng sẽ phải được chia.x
Nói chung, trong bối cảnh này, một biến chuyên sâu là một biến độc lập với quy mô công ty, trong khi một biến mở rộng phụ thuộc (thông thường, tuyến tính) vào quy mô công ty. Vì vậy, theo một nghĩa nào đó, nếu chúng ta có nhiều biến số mở rộng khác nhau trong phương trình hồi quy, chúng ta đang đo hiệu ứng kích thước nhiều lần . Điều đó có vẻ dư thừa, vì vậy, chúng ta nên cố gắng, khi có thể, thể hiện các biến ở dạng chuyên sâu , như ngân sách RD trên mỗi nhân viên (hoặc tính theo phần trăm của tổng ngân sách), tương tự như doanh thu, v.v. sâu rộng. Xem câu trả lời của @ onestop về Xử lý các biến hồi quy tương quan cho một cuộc thảo luận khác về vấn đề biến rộng / chuyên sâu này.
Hãy xem xét đại số này:
là Bằng sáng chế, Ngân sách (trên mỗi nhân viên), Nhân viên trong công ty ban đầu, trong khi
P 1 , B 1 , E 1 và P 2 , B 2 , E 2 là các biến tương ứng sau a chia nhỏ. Giả sử, như trên, rằng E là covaritable duy nhất mở rộng (với P , tất nhiên, cũng mở rộng).P, B , EP1, B1, E1P2, B2, E2EP
Sau đó, trước khi chia tay, chúng tôi có mô hình, liên kết bản sắc, với phần ngẫu nhiên rời ra:
Hãy để phân chia được α , 1 - α như vậy cho công ty 1 sau khi chia tay chúng tôi nhận
α P
P= Μ + β1E+ β2B
α , 1 - α
từ
P1=αP,E1=αEnhưng
B1=B. Tương tự như vậy đối với công ty hai. Vì vậy, mô hình phụ thuộc một cách khá phức tạp vào quy mô công ty, chỉ có hệ số hồi quy trên
Eα PP1= Alpha L + alpha beta1E+ Alpha beta2B= Alpha L + β1E1+ Alpha beta2B1
P1= α P, E1= α EB1= BEđộc lập với quy mô công ty, quy mô ảnh hưởng đến tất cả các thông số khác. Điều đó làm cho việc giải thích kết quả trở nên khó khăn, đặc biệt là như vậy, nếu trong dữ liệu của bạn có các công ty có quy mô khác nhau, thì bạn sẽ diễn giải các hệ số đó như thế nào? So sánh với các nghiên cứu khác dựa trên dữ liệu khác, vv, rất phức tạp.
Bây giờ, hãy cho chúng tôi xem nếu sử dụng chức năng liên kết nhật ký có thể giúp đỡ. Một lần nữa, chúng tôi viết các mô hình lý tưởng hóa mà không có điều khoản xáo trộn. Các biến như trên.
Thứ nhất, mô hình trước khi chia tay:
Sau khi chia tay, cho một công ty, chúng tôi nhận được:
P 1
P= điểm kinh nghiệm( Μ + β1E+ β2B )
ngoại hình này gần như ngay, ngoại trừ một vấn đề, một phần của sự phụ thuộc vào
Ekhông hoàn toàn làm việc ra. Vì vậy, chúng tôi thấy rằng số lượng nhân viên, một người có thể hợp tác ở dạng rộng rãi, phải được sử dụng trên quy mô nhật ký. Sau đó, thử lại, chúng tôi nhận được:
P1P1= điểm kinh nghiệm( nhật kýα ) exp( Μ + β1E+ β2B )= điểm kinh nghiệm( nhật kýα + μ + β1E+ β2B1)
E
P= điểm kinh nghiệm( Μ + β1đăng nhậpE+ β2B )
P1P1P1P1= điểm kinh nghiệm( nhật kýα ) exp(μ + β1đăng nhậpE+ β2B )= điểm kinh nghiệm( nhật kýα +μ + β1đăng nhậpE+ β2B1)= điểm kinh nghiệm( ( 1 - β) đăng nhậpα + μ + β1đăng nhậpE1+ β2B1)= điểm kinh nghiệm(μ'+ β1đăng nhậpE1+ β2B1)
μ'
Điều đó làm cho việc giải thích kết quả dễ dàng hơn nhiều, và cũng so sánh với các nghiên cứu sử dụng dữ liệu khác, xu hướng theo thời gian, v.v. Bạn không thể đạt được biểu mẫu này với các tham số với các diễn giải độc lập với kích thước với một liên kết nhận dạng.
Kết luận: Sử dụng GLM với chức năng liên kết nhật ký, có thể là hồi quy Poisson hoặc nhị thức âm hoặc ... Hàm liên kết là các đơn đặt hàng có cường độ quan trọng hơn!
Tóm lại, khi xây dựng mô hình hồi quy cho biến trả lời có phạm vi rộng , giống như biến đếm.
Cố gắng thể hiện covariabled ở dạng chuyên sâu.
Các biến số phải được để lại rộng rãi: ghi nhật ký chúng (đại số ở trên phụ thuộc vào việc có nhiều nhất một biến đổi mở rộng).
Sử dụng chức năng liên kết nhật ký.
Sau đó, các tiêu chí khác, chẳng hạn như các tiêu chí dựa trên sự phù hợp, có thể được sử dụng cho các quyết định thứ cấp, chẳng hạn như phân phối thuật ngữ xáo trộn.