Hồi quy Poisson để ước tính rủi ro tương đối cho kết quả nhị phân


42

Bản tóm tắt ngắn gọn

Tại sao phổ biến hơn cho hồi quy logistic (với tỷ lệ chênh lệch) được sử dụng trong các nghiên cứu đoàn hệ với kết quả nhị phân, trái ngược với hồi quy Poisson (với rủi ro tương đối)?

Lý lịch

Theo kinh nghiệm của tôi, các khóa học thống kê và dịch tễ học đại học và sau đại học thường dạy rằng nên sử dụng hồi quy logistic để mô hình hóa dữ liệu với kết quả nhị phân, với các ước tính rủi ro được báo cáo là tỷ lệ cược.

Tuy nhiên, hồi quy Poisson (và có liên quan: quasi-Poisson, nhị thức âm, v.v.) cũng có thể được sử dụng để mô hình hóa dữ liệu với kết quả nhị phân và, với các phương pháp thích hợp (ví dụ: ước lượng phương sai sandwich mạnh mẽ), nó cung cấp ước tính rủi ro hợp lệ và mức độ tin cậy. Ví dụ,

Từ hồi quy Poisson, rủi ro tương đối có thể được báo cáo, mà một số người cho rằng dễ giải thích hơn so với tỷ lệ cược, đặc biệt là đối với kết quả thường xuyên và đặc biệt là bởi các cá nhân không có nền tảng thống kê mạnh. Xem Zhang J. và Yu KF, rủi ro tương đối là gì? Một phương pháp sửa tỷ lệ chênh lệch trong các nghiên cứu đoàn hệ về kết quả chung , JAMA. 1998 18/11; 280 (19): 1690-1.

Từ việc đọc các tài liệu y khoa, trong số các nghiên cứu đoàn hệ với kết quả nhị phân, dường như việc báo cáo tỷ lệ chênh lệch từ hồi quy logistic thay vì rủi ro tương đối từ hồi quy Poisson vẫn còn phổ biến hơn nhiều.

Câu hỏi

Đối với các nghiên cứu đoàn hệ với kết quả nhị phân:

  1. Có lý do chính đáng để báo cáo tỷ lệ cược từ hồi quy logistic hơn là rủi ro tương đối từ hồi quy Poisson?
  2. Nếu không, sự không thường xuyên của hồi quy Poisson với rủi ro tương đối trong tài liệu y khoa có thể được quy cho phần lớn là do độ trễ giữa lý thuyết phương pháp và thực hành giữa các nhà khoa học, bác sĩ lâm sàng, nhà thống kê và nhà dịch tễ học?
  3. Các khóa học thống kê và dịch tễ học trung gian có nên bao gồm thảo luận nhiều hơn về hồi quy Poisson cho kết quả nhị phân không?
  4. Tôi có nên khuyến khích sinh viên và đồng nghiệp xem xét hồi quy Poisson so với hồi quy logistic khi thích hợp?

Nếu bạn muốn có một rủi ro tương đối, tại sao bạn không chỉ sử dụng hồi quy nhị thức với liên kết log (chứ không phải logistic)? Mối quan hệ trung bình của gia đình Poisson không có ý nghĩa gì nếu bạn dựa vào số lượng các sự kiện có thể có trên mỗi lần quan sát.
Andrew M

@AndrewM Bạn sẽ áp dụng hồi quy Binomial với liên kết nhật ký như thế nào? Giá trị dương của bộ hồi quy sẽ ngụ ý các giá trị xác suất lớn hơn 1.
Rufo

[0,1]

@AndrewM Vâng, tôi đề cập đến dự đoán tuyến tính, cảm ơn bạn :). Nhưng ngay cả khi bạn quản lý để thực hiện mô hình, tôi không chắc nó là đủ. Như tôi chỉ ra trong một nhận xét trong câu trả lời đầu tiên, nếu bạn hoán đổi 0s cho 1s và ngược lại cho biến phản hồi, vì liên kết nhật ký không đối xứng quanh 0,5, các ước tính về rủi ro tương đối là khác nhau ( exp(beta_M1) =/= 1/exp(beta_M2)). Điều đó làm tôi khá lo lắng.
Rufo

1
P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)

Câu trả lời:


28

Một câu trả lời cho tất cả bốn câu hỏi của bạn, được ghi chú trước:

Đó thực sự không phải là tất cả những gì phổ biến đối với các nghiên cứu dịch tễ học hiện đại để báo cáo tỷ lệ chênh lệch từ hồi quy logistic cho một nghiên cứu đoàn hệ. Nó vẫn là kỹ thuật hồi quy được lựa chọn cho các nghiên cứu kiểm soát trường hợp, nhưng các kỹ thuật phức tạp hơn hiện nay là tiêu chuẩn thực tế để phân tích trong các tạp chí dịch tễ học lớn như Dịch tễ học , AJE hoặc IJE. Sẽ có một xu hướng lớn hơn cho họ xuất hiện trong các tạp chí lâm sàng báo cáo kết quả nghiên cứu quan sát. Cũng sẽ có một số vấn đề vì hồi quy Poisson có thể được sử dụng trong hai bối cảnh: Bạn đang đề cập đến điều gì, trong đó nó thay thế cho mô hình hồi quy nhị thức và trong bối cảnh theo sự kiện, cực kỳ phổ biến đối với đoàn hệ học. Thêm chi tiết trong câu trả lời câu hỏi cụ thể:

  1. Đối với một nghiên cứu đoàn hệ, không thực sự không. Có một số trường hợp cực kỳ cụ thể mà nói, một mô hình logistic piecewise có thể đã được sử dụng, nhưng đây là những ngoại lệ. Toàn bộ quan điểm của một nghiên cứu đoàn hệ là bạn có thể đo lường trực tiếp rủi ro tương đối hoặc nhiều biện pháp liên quan và không phải dựa vào tỷ lệ chênh lệch. Tuy nhiên tôi sẽ đưa ra hai lưu ý: Hồi quy Poisson thường ước tính tỷ lệ, không phải là rủi ro, và do đó, ước tính hiệu ứng từ nó thường sẽ được ghi nhận là tỷ lệ tỷ lệ (chủ yếu, theo tôi, vì vậy bạn vẫn có thể viết tắt RR) hoặc tỷ lệ mật độ tần suất (IRR hoặc IDR). Vì vậy, hãy chắc chắn rằng trong tìm kiếm của bạn, bạn thực sự đang tìm kiếm các thuật ngữ phù hợp: có nhiều nghiên cứu đoàn hệ sử dụng các phương pháp phân tích sinh tồn. Đối với các nghiên cứu này, hồi quy Poisson đưa ra một số giả định có vấn đề, đáng chú ý là mối nguy hiểm là không đổi. Vì vậy, việc phân tích một nghiên cứu đoàn hệ sử dụng các mô hình rủi ro theo tỷ lệ Cox, thay vì các mô hình Poisson, và báo cáo tỷ lệ rủi ro tiếp theo (HR) là phổ biến hơn nhiều. Nếu được nhấn để đặt tên cho một phương thức "mặc định" để phân tích một đoàn hệ, tôi muốn nói rằng dịch tễ học thực sự bị chi phối bởi mô hình Cox. Điều này có vấn đề riêng của nó, và một số nhà dịch tễ học rất giỏi muốn thay đổi nó,

  2. Có hai điều tôi có thể gán cho sự không thường xuyên - một sự không thường xuyên mà tôi không nhất thiết nghĩ là tồn tại đến mức bạn đề xuất. Một là có - "dịch tễ học" như một lĩnh vực không chính xác đóng cửa, và bạn nhận được một số lượng lớn các bài báo từ các bác sĩ lâm sàng, các nhà khoa học xã hội, vv cũng như các nhà dịch tễ học của các nền tảng thống kê khác nhau. Mô hình logistic thường được dạy và theo kinh nghiệm của tôi, nhiều nhà nghiên cứu sẽ chuyển sang công cụ quen thuộc hơn công cụ tốt hơn.

    Thứ hai thực sự là một câu hỏi về ý nghĩa của nghiên cứu "đoàn hệ". Một cái gì đó giống như mô hình Cox, hoặc mô hình Poisson, cần một ước tính thực tế về thời gian cá nhân. Có thể có được một nghiên cứu đoàn hệ theo dân số có phần khép kín trong một giai đoạn cụ thể - đặc biệt là trong các ví dụ "Giới thiệu về Epi" ban đầu, trong đó các phương pháp sinh tồn như mô hình Poisson hoặc Cox không hữu dụng. Mô hình logistic có thểđược sử dụng để ước tính tỷ lệ chênh lệch, với tỷ lệ bệnh đủ thấp, xấp xỉ nguy cơ tương đối. Các kỹ thuật hồi quy khác trực tiếp ước tính nó, như hồi quy nhị thức, có các vấn đề hội tụ có thể dễ dàng làm hỏng một học sinh mới. Hãy ghi nhớ các bài báo Zou mà bạn trích dẫn đều sử dụng kỹ thuật hồi quy Poisson để giải quyết các vấn đề hội tụ của hồi quy nhị thức. Nhưng các nghiên cứu đoàn hệ phù hợp với nhị thức thực sự là một lát cắt nhỏ của "chiếc bánh nghiên cứu đoàn hệ".

  3. Đúng. Thành thật mà nói, phương pháp phân tích sinh tồn nên đến sớm hơn họ thường làm. Lý thuyết thú cưng của tôi là lý do điều này không phải là vì các phương pháp như hồi quy logistic dễ mã hóa hơn . Các kỹ thuật dễ mã hóa hơn, nhưng đi kèm với sự cảnh báo lớn hơn nhiều về tính hợp lệ của các ước tính hiệu ứng của chúng, được dạy là tiêu chuẩn "cơ bản", đây là một vấn đề.

  4. Bạn nên khuyến khích sinh viên và đồng nghiệp sử dụng công cụ thích hợp. Nói chung đối với lĩnh vực này, tôi nghĩ rằng có lẽ bạn nên đề xuất xem xét mô hình Cox qua hồi quy Poisson, vì hầu hết các nhà đánh giá sẽ nhanh chóng đưa ra những lo ngại về giả định về mối nguy thường trực. Nhưng vâng, bạn càng sớm có thể đưa họ ra khỏi "Làm thế nào để tôi đưa câu hỏi của mình vào mô hình hồi quy logistic?" tốt hơn tất cả chúng ta sẽ được. Nhưng có, nếu bạn đang xem một nghiên cứu mà không có thời gian, sinh viên nên được giới thiệu cả hồi quy nhị thức và các phương pháp thay thế, như hồi quy Poisson, có thể được sử dụng trong trường hợp có vấn đề về hội tụ.


Khi bạn nói các kỹ thuật hồi quy khác trực tiếp ước tính nó [rủi ro tương đối, tôi đoán], như hồi quy nhị thức, có các vấn đề hội tụ [...] , bạn sẽ áp dụng hồi quy nhị thức như thế nào để nó có rủi ro tương đối? @AndrewM gợi ý một liên kết nhật ký, nhưng tôi không biết làm thế nào bạn có thể tránh được vấn đề ước tính xác suất thành công cao hơn 1.
Rufo

@Rufo Một mô hình nhị thức có liên kết log, khi chạy trên đoàn hệ, sẽ ước tính rủi ro tương đối. Rằng các mô hình này đôi khi ước tính xác suất lớn hơn 1 thực sự là một trong những lý do mô hình nhị thức khó thực hiện hơn là lý tưởng. Nhưng tôi đã thành công trong việc sử dụng chúng - thật hữu ích khi dữ liệu của bạn thường có xác suất dưới 1, vì vậy mô hình có thể không bao giờ kết thúc với vấn đề bạn lo lắng.
Fomite

p

9

Tôi cũng suy đoán về sự phổ biến của các mô hình logistic trong tài liệu khi một mô hình rủi ro tương đối sẽ phù hợp hơn. Chúng tôi với tư cách là các nhà thống kê đã quá quen thuộc với việc tuân thủ quy ước hoặc bám sát các phân tích "trình đơn thả xuống". Những điều này tạo ra nhiều vấn đề hơn nhiều so với họ giải quyết. Hồi quy logistic được dạy như là một "công cụ tiêu chuẩn" để phân tích kết quả nhị phân, trong đó một cá nhân có loại kết quả có / không như tử vong hoặc khuyết tật.

Hồi quy Poisson thường được dạy như một phương pháp để phân tích số lượng . Một phần được nhấn mạnh rằng một mô hình xác suất như vậy hoạt động đặc biệt tốt để mô hình hóa kết quả 0/1, đặc biệt là khi chúng hiếm. Tuy nhiên, một mô hình logistic cũng được áp dụng tốt với các kết quả hiếm gặp: tỷ lệ chênh lệch xấp xỉ tỷ lệ rủi ro, ngay cả với lấy mẫu phụ thuộc kết quả như với các nghiên cứu kiểm soát trường hợp. Điều tương tự không thể nói về rủi ro tương đối hoặc mô hình Poisson.

Một mô hình poisson cũng hữu ích khi các cá nhân có thể có "kết quả" hơn một lần và bạn có thể quan tâm đến tỷ lệ mắc tích lũy, chẳng hạn như bùng phát herpes, nhập viện hoặc ung thư vú. Vì lý do này, các hệ số lũy thừa có thể được hiểu là tỷ lệ tương đối . Để đánh giá sự khác biệt giữa tỷ lệ và rủi ro: Nếu có 100 trường hợp trên 1.000 người, nhưng tất cả 100 trường hợp xảy ra ở một cá nhân, tỷ lệ (tỷ lệ) vẫn là 1 trường hợp trên 10 người. Trong môi trường cung cấp dịch vụ chăm sóc sức khỏe, bạn vẫn cần điều trị 100 trường hợp và tiêm phòng 80% cho mọi người để giảm tỷ lệ mắc 80% (một tiên nghiệm). Tuy nhiên, rủi ro của ít nhất một kết quả là 1/1000. Bản chất của kết quả và câu hỏi, cùng nhau, xác định mô hình nào là phù hợp.

var(y)= =E(y)(1-E(y))

đăng nhập(E[Y|X])= =β0+β1Xvar(Y)= =E[Y](1-E[Y])

Nhân tiện, bài báo Zhang cung cấp một ước tính sai lệch suy luận dựa trên ước tính rủi ro tương đối không tính đến sự thay đổi trong thuật ngữ chặn. Bạn có thể sửa công cụ ước tính bằng cách bootstrapping.

Để trả lời các câu hỏi cụ thể:

  1. Nếu kết quả là hiếm thì họ gần như nhau. Nếu kết quả là phổ biến, phương sai của công cụ ước tính tỷ lệ tương đối từ Poisson có thể bị thổi phồng quá mức và chúng tôi có thể thích tỷ lệ chênh lệch là ước tính sai lệch nhưng hiệu quả của mối liên hệ giữa kết quả nhị phân và một số phơi nhiễm. Tôi cũng nghĩ rằng các nghiên cứu kiểm soát trường hợp biện minh cho việc sử dụng tỷ lệ chênh lệch như một biện pháp không thay đổi với lấy mẫu phụ thuộc vào kết quả. Scott và Wild 97 thảo luận về các phương pháp xung quanh điều này. Tất nhiên, các tạp chí khác có thể không có người đánh giá thống kê chuyên dụng.

2.3. Tôi nghĩ rằng bạn đang đổ lỗi và giả định đại tu về những gì xảy ra trong đánh giá y tế và học thuật.

  1. Bạn nên luôn khuyến khích học sinh của mình sử dụng các mô hình phù hợp bất cứ khi nào có thể.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiuler


2
"Sự hiểu biết của tôi là nếu lợi ích khoa học nằm trong việc ước tính tỷ lệ tương đối, thì có một mô hình lai: hồi quy rủi ro tương đối là GLM sử dụng cấu trúc phương sai logistic và cấu trúc trung bình poisson": Còn được gọi là hồi quy nhị thức với liên kết nhật ký.
Andrew M

2
@AndrewM Thật vậy. Trong thực tế, tôi nghĩ rằng đó là ngôn ngữ ưa thích. Cảm ơn đã chỉ ra rằng. Tôi đã chỉnh sửa câu hỏi để bao gồm một tham chiếu đến một bài báo làm việc từ Thomas Lumley, trong đó nhấn mạnh rằng mô hình Poisson là một "mô hình làm việc" trong đó nó là một mối quan hệ sai lệch trung bình giả định không chính xác.
AdamO

Ý bạn là gì bởi "Nếu kết quả là hiếm thì chúng gần giống nhau"? Tỷ lệ phần trăm tối đa của kết quả "hiếm" để sử dụng HOẶC thay vì RR để ước tính tỷ lệ hiện mắc là bao nhiêu?
vasili111

1
@ vasili111 đây là một chủ đề tranh luận sôi nổi không có câu trả lời rõ ràng. Ngày nay, bạn thấy rất nhiều lời phê bình của những người đưa ra giả định "hiếm" khi tỷ lệ này không phải là hiếm, chẳng hạn như hơn 1/30. Và với các mô hình đa biến, bất cứ điều gì đi!
AdamO
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.