Trong mô hình Poisson, sự khác biệt giữa việc sử dụng thời gian như một hiệp phương sai hoặc bù?


18

Gần đây tôi đã phát hiện ra cách lập mô hình phơi sáng theo thời gian bằng cách sử dụng nhật ký của thời gian (ví dụ) như một phần bù trong hồi quy Poisson.

Tôi hiểu rằng phần bù tương ứng với thời gian là hiệp phương sai với hệ số 1.

Tôi muốn hiểu rõ hơn về sự khác biệt giữa việc sử dụng thời gian như một phần bù hoặc như một hiệp phương thức thông thường (do đó ước tính hệ số). Trong tình huống nào tôi muốn sử dụng phương pháp này hay phương pháp khác?

NÂNG CẤP: Tôi không biết có thú vị không, nhưng tôi đã chạy xác thực hai phương pháp bằng cách sử dụng dữ liệu phân tách ngẫu nhiên lặp lại 500 lần và tôi nhận thấy rằng sử dụng phương pháp bù trừ dẫn đến lỗi kiểm tra lớn hơn.

Câu trả lời:


25

Offsets có thể được sử dụng trong bất kỳ mô hình hồi quy nào, nhưng chúng phổ biến hơn nhiều khi làm việc với dữ liệu đếm cho biến phản ứng của bạn. Một giá trị bù chỉ là một biến buộc phải có hệ số trong mô hình. (Xem thêm chủ đề CV xuất sắc này: Khi nào nên sử dụng phần bù trong hồi quy Poisson? ) 1

Khi được sử dụng chính xác với dữ liệu đếm, điều này sẽ cho phép bạn mô hình hóa tỷ lệ thay vì đếm . Nếu đó là mối quan tâm, thì đó là một việc phải làm. Vì vậy, đây là bối cảnh trong đó offset được sử dụng thường xuyên nhất. Chúng ta hãy xem xét một Poisson GLiM với một liên kết nhật ký (đó là liên kết chính tắc).

ln(λ)=β0+β1X(counts)ln(λtime)=β0+β1X(rates)ln(λ)ln(time)= =β0+β1Xln(λ)= =β0+β1X+1×ln(tTôime)(StTôitôitôi rmộtteS)ln(λ)= =β0+β1X+β2×ln(tTôime)when β21(cobạnntS mộtgmộtTôin)

(Như bạn có thể thấy, chìa khóa để sử dụng offset chính xác là tạo bù, không phải .) t i m eln(tTôime)tTôime

Khi hệ số trên không phải là , bạn không còn tỷ lệ mô hình hóa nữa. Nhưng vì cung cấp tính linh hoạt cao hơn nhiều để phù hợp với dữ liệu, nên các mô hình không sử dụng làm phần bù thường phù hợp hơn (mặc dù họ cũng có thể phù hợp hơn). 1 β 2( - , 1 ) ( 1 , ) ln ( t i m đ )ln(tTôime)1β2(-,1)(1,)ln(tTôime)


Việc bạn nên mô hình số lượng hay tỷ lệ thực sự phụ thuộc vào câu hỏi thực chất của bạn là gì. Bạn nên mô hình hóa cái tương ứng với những gì bạn muốn biết.

Theo như ý nghĩa của việc không phải là , hãy xem xét một ví dụ trong đó thời gian không phải là biến số trong câu hỏi. Hãy tưởng tượng nghiên cứu số lượng các biến chứng phẫu thuật tại các bệnh viện khác nhau. Một bệnh viện có nhiều biến chứng phẫu thuật được báo cáo, nhưng họ có thể cho rằng sự so sánh đó không công bằng vì họ phải phẫu thuật nhiều hơn. Vì vậy, bạn quyết định cố gắng để kiểm soát này. Bạn chỉ có thể sử dụng nhật ký của số ca phẫu thuật như một sự bù đắp, điều này sẽ cho phép bạn nghiên cứu tỷ lệ biến chứng trên mỗi ca phẫu thuật. Bạn cũng có thể sử dụng nhật ký của số ca phẫu thuật như một hiệp phương sai khác. Hãy nói rằng hệ số này khác đáng kể so với . Nếu 1 1 β 2 > 1 β 2 < 1β211β2>1, sau đó các bệnh viện phẫu thuật nhiều hơn có tỷ lệ biến chứng cao hơn (có lẽ vì họ đang gấp rút hoàn thành công việc để hoàn thành nhiều việc hơn). Nếu , các bệnh viện thực hiện nhiều biến chứng nhất trong mỗi ca phẫu thuật (có lẽ họ có bác sĩ giỏi nhất, và vì vậy hãy làm nhiều hơn và làm cho họ tốt hơn). β2<1

Xem làm thế nào điều này có thể xảy ra nếu biến trong câu hỏi là thời gian phức tạp hơn một chút. Các phân phối Poisson phát sinh từ quá trình Poisson , trong đó thời gian giữa các sự kiện được phân phối theo cấp số nhân, và do đó có một kết nối tự nhiên để phân tích tồn tại. Trong phân tích sinh tồn, thời gian cho các sự kiện thường không được phân phối theo cấp số nhân, nhưng nguy cơ cơ bản có thể trở nên lớn hơn hoặc ít hơn theo thời gian. Do đó, hãy xem xét trường hợp bạn đang mô hình hóa số lượng sự kiện xảy ra sau một số điểm bắt đầu tự nhiên. Nếu , điều đó có nghĩa là tốc độ của các sự kiện đang tăng tốc, trong khi nếu , điều đó có nghĩa là tốc độ của các sự kiện đang chậm lại. β 2 < 1β2>1β2<1

Để có một ví dụ cụ thể trước đây, hãy tưởng tượng một lần quét đếm số lượng tế bào ung thư một khoảng thời gian sau khi khối u ban đầu được phẫu thuật cắt bỏ. Đối với một số bệnh nhân, nhiều thời gian hơn đã trôi qua kể từ khi phẫu thuật và bạn muốn tính đến điều đó. Vì một khi ung thư đã lấy lại được chỗ đứng, nó sẽ bắt đầu phát triển theo cấp số nhân, tỷ lệ sẽ tăng lên theo thời gian kể từ khi phẫu thuật mà không cần điều trị thêm.

Để có một ví dụ cụ thể về sau này, hãy xem xét số người chết vì dịch bệnh mà chúng tôi không có cách điều trị. Lúc đầu, rất nhiều người chết vì họ dễ mắc bệnh đó hoặc đã có hệ thống miễn dịch bị tổn thương, v.v. Theo thời gian, khi dân số còn lại ít mắc bệnh hơn, tỷ lệ sẽ giảm. (Xin lỗi ví dụ này rất bệnh hoạn.)


Cảm ơn bạn rất nhiều Gung cho câu trả lời toàn diện của bạn! Xin vui lòng cho tôi biết nếu tôi hiểu rõ. Nếu chúng ta sử dụng thời gian như một phần bù, chúng ta giả sử mối quan hệ dương tuyến tính giữa thời gian và các sự kiện có hệ số góc được đưa ra bởi các yếu tố dự đoán khác lũy thừa . Thay vào đó, nếu chúng ta sử dụng thời gian đăng nhập làm đồng biến, chúng tôi ước tính tác động theo cấp số nhân của thời gian đối với các sự kiện, có thể là dương o âm . (tiếp ...)y= =tTôime*điểm kinh nghiệm(Σ1pβpXp+conSt)y= =tTôimeβtTôime*điểm kinh nghiệm(Σ1pβpXp+conSt)
Bakaburg

1
Do đó, tại sao người ta nên cho rằng mối quan hệ giữa thời gian và sự kiện là tuyến tính và đang phát triển? Sẽ không tốt hơn để ước tính hình dạng của mối quan hệ như vậy trong mọi trường hợp? Tôi có thêm hai câu hỏi: 1. thay vào đó, việc sử dụng không ghi nhật ký biến đổi thành đồng biến có nghĩa là gì? 2. (có lẽ tôi nên chỉnh sửa câu hỏi hoặc hỏi một câu hỏi mới cho vấn đề này) Tôi đọc rằng các mô hình poisson thực sự có thể được sử dụng mà không phải là số nguyên y. Do đó tôi có thể viết bằng R: glm (I (y / time) ~ cov.1 + ... + cov.n, poisson) và có cùng kết quả mà tôi đã sử dụng offset (log (time)). Tôi đã thử điều này nhưng tôi nhận được các hệ số khác nhau.
Bakaburg

Các Poisson dist chỉ dành cho số nguyên; bạn không nên nhập một phần trên LHS. Không sử dụng biến đổi nhật ký có nghĩa là mô hình hóa các sự kiện trên mỗi đơn vị thời gian theo cấp số nhân, điều này có lẽ sẽ không bao giờ có thể cảm nhận được trong thế giới thực.
gung - Phục hồi Monica

1
@Bakaburg, thời gian có lẽ tương quan với họ. Điều đó không khác với bất kỳ tình huống mô hình hồi quy nào khác. Tôi không thấy vấn đề ở đây. Bạn có thể quan tâm đến việc mô hình hóa tỷ lệ trung bình hoặc bạn không.
gung - Phục hồi Monica

1
@tatami, nếu bạn định sử dụng thời gian như một đồng biến (chứ không phải là phần bù), bạn không phải ghi nhật ký thời gian. Tuy nhiên, nếu bạn muốn so sánh kết quả của mình với phần bù, bạn sẽ cần sử dụng nhật ký để làm cho chúng có thể so sánh được.
gung - Tái lập Monica

7

Thời gian bù thường có thể được xem là mô hình của bạn ước tính tốc độ một sự kiện xảy ra trên mỗi đơn vị thời gian, với phần bù được kiểm soát trong khoảng thời gian bạn quan sát các đối tượng khác nhau.

Trong các mô hình poisson, bạn luôn ước tính tỷ lệ có chuyện gì đó xảy ra, nhưng bạn không bao giờ được quan sát trực tiếp tỷ lệ này. Bạn làm được để quan sát số lần mà một sự kiện xảy ra trên một số lượng thời gian. Sự bù đắp làm cho kết nối giữa hai khái niệm.

Ví dụ: bạn quan sát các đối tượng chụp giỏ trong các khoảng thời gian khác nhau và bạn đã đếm số lượng giỏ thành công cho mỗi đối tượng. Những gì bạn thực sự quan tâm đến mức độ thường xuyên mỗi đối tượng chìm một giỏ, tức là số lượng giỏ thành công mà mỗi đối tượng dự kiến ​​sẽ chìm mỗi phút, vì đó là thước đo hơi khách quan về kỹ năng của họ. Số lượng giỏ bạn thực sự quan sát được sau đó sẽ là tỷ lệ ước tính này nhân với thời gian bạn quan sát đối tượng cố gắng. Vì vậy, bạn có thể suy nghĩ về các đơn vị của phản ứng, số lượng giỏ mỗi phút .

Thật khó để nghĩ về một tình huống mà bạn sẽ sử dụng thời gian được quan sát như một hiệp phương sai trong hồi quy poisson, vì bản chất của nó là bạn đang ước tính một tỷ lệ.

Ví dụ: nếu tôi muốn khẳng định hiệu ứng của người Mỹ so với người châu Âu (ví dụ rất ngớ ngẩn) đối với số lượng rổ, việc thêm thời gian làm đồng biến sẽ cho phép tôi đánh giá hiệu ứng đó "một cách độc lập" từ thời điểm bắn, không phải nó không Hơn nữa, nó cũng sẽ cho tôi một ước tính về ảnh hưởng của thời gian đến kết quả.

Đây là một ví dụ hy vọng làm nổi bật sự nguy hiểm của điều này. Giả sử rằng người Mỹ và người châu Âu, trong thực tế, chìm cùng một số giỏ mỗi phút. Nhưng nói rằng chúng tôi đã quan sát mỗi người châu Âu lâu gấp đôi mỗi người Mỹ, vì vậy, trung bình, chúng tôi đã quan sát số lượng giỏ gấp đôi cho mỗi người châu Âu.

Nếu chúng ta thiết lập một mô hình bao gồm các tham số cho cả thời gian được quan sát và chỉ báo cho "là châu Âu", thì cả hai mô hình này đều giải thích dữ liệu:

E(giỏ)= =2ct+0xEropean
E(giỏ)= =0t+2cxEropean

(trong đó là một số hằng số, đó là tỷ lệ thực sự mà cả hai loại người chơi tạo ra giỏ).c

Là một nhà thống kê, chúng tôi thực sự muốn, trong tình huống này, mô hình của chúng tôi thông báo cho chúng tôi rằng không có sự khác biệt thống kê giữa tỷ lệ người châu Âu làm giỏ và tỷ lệ người Mỹ làm giỏ. Nhưng mô hình của chúng tôi đã không làm như vậy, và chúng tôi bị nhầm lẫn.

Vấn đề là chúng tôi biết một cái gì đó mà mô hình của chúng tôi không biết. Đó là, chúng ta biết rằng nếu chúng ta quan sát cùng một cá nhân trong thời gian gấp đôi, thì theo dự đoán, họ sẽ kiếm được gấp đôi số giỏ. Vì chúng tôi biết điều này, chúng tôi cần nói với mô hình của chúng tôi về nó. Đây là những gì bù đắp hoàn thành.

Có lẽ sử dụng phương pháp bù là phù hợp khi chúng ta biết rằng các sự kiện xảy ra đồng đều theo thời gian!

Có, nhưng đây là một giả định của chính mô hình poisson . Từ trang wikipedia về phân phối poisson

phân phối Poisson, được đặt theo tên nhà toán học người Pháp Siméon Denis Poisson, là phân phối xác suất rời rạc biểu thị xác suất của một số sự kiện đã cho xảy ra trong một khoảng thời gian và / hoặc không gian cố định nếu các sự kiện này xảy ra với tỷ lệ trung bình đã biết và độc lập với thời gian kể từ khi sự kiện cuối cùng .


2
Cảm ơn câu trả lời của bạn. Nhưng sử dụng thời gian như một đồng biến sẽ không cho tôi câu trả lời tương tự? Ví dụ: nếu tôi muốn khẳng định hiệu ứng của người Mỹ so với người châu Âu (ví dụ rất ngớ ngẩn) đối với số lượng rổ, việc thêm thời gian làm đồng biến sẽ cho phép tôi đánh giá hiệu ứng đó "một cách độc lập" từ thời điểm bắn, không phải nó không Hơn nữa, nó cũng sẽ cho tôi một ước tính về ảnh hưởng của thời gian đến kết quả. Đôi khi thời gian không phải lúc nào cũng quan trọng đối với một biến đếm, ví dụ khi các sự kiện xảy ra tất cả vào đầu giai đoạn quan sát.
Bakaburg

Có lẽ sử dụng phương pháp bù là phù hợp khi chúng ta biết rằng các sự kiện xảy ra đồng đều theo thời gian!
Bakaburg

1
@Bakaburg Tôi đã thêm một phản hồi cố gắng. Tôi hy vọng nó sẽ giúp!
Matthew Drury
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.