Offsets có thể được sử dụng trong bất kỳ mô hình hồi quy nào, nhưng chúng phổ biến hơn nhiều khi làm việc với dữ liệu đếm cho biến phản ứng của bạn. Một giá trị bù chỉ là một biến buộc phải có hệ số trong mô hình. (Xem thêm chủ đề CV xuất sắc này: Khi nào nên sử dụng phần bù trong hồi quy Poisson? ) 1
Khi được sử dụng chính xác với dữ liệu đếm, điều này sẽ cho phép bạn mô hình hóa tỷ lệ thay vì đếm . Nếu đó là mối quan tâm, thì đó là một việc phải làm. Vì vậy, đây là bối cảnh trong đó offset được sử dụng thường xuyên nhất. Chúng ta hãy xem xét một Poisson GLiM với một liên kết nhật ký (đó là liên kết chính tắc).
ln( λ )ln( λt i m e)ln( λ ) - ln( t i m e )ln( λ )ln( λ )= β0+ β1X= β0+ β1X⇒= β0+ β1X= β0+ β1X+ 1 × ln( t i m e )≠= β0+ β1X+ β2× ln( t i m e )w h đ n β 2≠ 1(counts)(rates)(still rates)(counts again)
(Như bạn có thể thấy, chìa khóa để sử dụng offset chính xác là tạo bù, không phải .) t i m eln( t i m e )t i m e
Khi hệ số trên không phải là , bạn không còn tỷ lệ mô hình hóa nữa. Nhưng vì cung cấp tính linh hoạt cao hơn nhiều để phù hợp với dữ liệu, nên các mô hình không sử dụng làm phần bù thường phù hợp hơn (mặc dù họ cũng có thể phù hợp hơn). 1 β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) ln ( t i m đ )ln( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )ln( t i m e )
Việc bạn nên mô hình số lượng hay tỷ lệ thực sự phụ thuộc vào câu hỏi thực chất của bạn là gì. Bạn nên mô hình hóa cái tương ứng với những gì bạn muốn biết.
Theo như ý nghĩa của việc không phải là , hãy xem xét một ví dụ trong đó thời gian không phải là biến số trong câu hỏi. Hãy tưởng tượng nghiên cứu số lượng các biến chứng phẫu thuật tại các bệnh viện khác nhau. Một bệnh viện có nhiều biến chứng phẫu thuật được báo cáo, nhưng họ có thể cho rằng sự so sánh đó không công bằng vì họ phải phẫu thuật nhiều hơn. Vì vậy, bạn quyết định cố gắng để kiểm soát này. Bạn chỉ có thể sử dụng nhật ký của số ca phẫu thuật như một sự bù đắp, điều này sẽ cho phép bạn nghiên cứu tỷ lệ biến chứng trên mỗi ca phẫu thuật. Bạn cũng có thể sử dụng nhật ký của số ca phẫu thuật như một hiệp phương sai khác. Hãy nói rằng hệ số này khác đáng kể so với . Nếu 1 1 β 2 > 1 β 2 < 1β211β2> 1, sau đó các bệnh viện phẫu thuật nhiều hơn có tỷ lệ biến chứng cao hơn (có lẽ vì họ đang gấp rút hoàn thành công việc để hoàn thành nhiều việc hơn). Nếu , các bệnh viện thực hiện nhiều biến chứng nhất trong mỗi ca phẫu thuật (có lẽ họ có bác sĩ giỏi nhất, và vì vậy hãy làm nhiều hơn và làm cho họ tốt hơn). β2< 1
Xem làm thế nào điều này có thể xảy ra nếu biến trong câu hỏi là thời gian phức tạp hơn một chút. Các phân phối Poisson phát sinh từ quá trình Poisson , trong đó thời gian giữa các sự kiện được phân phối theo cấp số nhân, và do đó có một kết nối tự nhiên để phân tích tồn tại. Trong phân tích sinh tồn, thời gian cho các sự kiện thường không được phân phối theo cấp số nhân, nhưng nguy cơ cơ bản có thể trở nên lớn hơn hoặc ít hơn theo thời gian. Do đó, hãy xem xét trường hợp bạn đang mô hình hóa số lượng sự kiện xảy ra sau một số điểm bắt đầu tự nhiên. Nếu , điều đó có nghĩa là tốc độ của các sự kiện đang tăng tốc, trong khi nếu , điều đó có nghĩa là tốc độ của các sự kiện đang chậm lại. β 2 < 1β2> 1β2< 1
Để có một ví dụ cụ thể trước đây, hãy tưởng tượng một lần quét đếm số lượng tế bào ung thư một khoảng thời gian sau khi khối u ban đầu được phẫu thuật cắt bỏ. Đối với một số bệnh nhân, nhiều thời gian hơn đã trôi qua kể từ khi phẫu thuật và bạn muốn tính đến điều đó. Vì một khi ung thư đã lấy lại được chỗ đứng, nó sẽ bắt đầu phát triển theo cấp số nhân, tỷ lệ sẽ tăng lên theo thời gian kể từ khi phẫu thuật mà không cần điều trị thêm.
Để có một ví dụ cụ thể về sau này, hãy xem xét số người chết vì dịch bệnh mà chúng tôi không có cách điều trị. Lúc đầu, rất nhiều người chết vì họ dễ mắc bệnh đó hoặc đã có hệ thống miễn dịch bị tổn thương, v.v. Theo thời gian, khi dân số còn lại ít mắc bệnh hơn, tỷ lệ sẽ giảm. (Xin lỗi ví dụ này rất bệnh hoạn.)