Giúp tôi hiểu tỷ lệ cược được điều chỉnh trong hồi quy logistic

Tôi đã có một thời gian khó khăn để cố gắng hiểu việc sử dụng hồi quy logistic trong một bài báo. Bài báo có sẵn ở đây sử dụng hồi quy logistic để dự đoán xác suất biến chứng trong phẫu thuật đục thủy tinh thể.

Điều khiến tôi bối rối là bài báo trình bày một mô hình gán tỷ lệ chênh lệch 1 cho đường cơ sở được mô tả như sau:

Một bệnh nhân có hồ sơ rủi ro nằm trong nhóm tham chiếu cho tất cả các chỉ số rủi ro (nghĩa là đã điều chỉnh OR = 1,00 cho tất cả trong Bảng 1) có thể được coi là có 'hồ sơ rủi ro cơ bản' và mô hình hồi quy logistic chỉ ra 'xác suất dự đoán cơ sở' cho PCR hoặc VL hoặc cả hai = 0,736%.

Vì vậy, xác suất 0,00736 được trình bày với tỷ lệ chênh lệch là 1. Dựa trên sự chuyển đổi từ xác suất thành tỷ lệ cược: , điều này không thể bằng 1: . $o=\frac{p}{1-p}$ $0.00741=\frac{0.00736}{1-0.00736}$

Nó thậm chí còn khó hiểu hơn. Các tỷ lệ cược tổng hợp đại diện cho nhiều hiệp phương sai có các giá trị khác với đường cơ sở được sử dụng để tính toán rủi ro dự đoán.

... Tổng hợp OR từ Bảng 1 sẽ là 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5 và từ biểu đồ trong Hình 1, chúng ta thấy rằng OR này tương ứng với xác suất dự đoán của PCR hoặc VL hoặc cả hai khoảng 20%

Cách duy nhất để đạt được các giá trị mà bài báo đưa ra làm ví dụ là nhân xác suất cơ sở với tỷ lệ cược tổng hợp như sau: . $0.2025=\frac{(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)}$

Chuyện gì đang xảy ra ở đây vậy? Logic để gán tỷ lệ cược 1 cho xác suất cơ bản không phải là 0,5 là gì? Công thức cập nhật mà tôi đã đưa ra ở trên đưa ra các xác suất phù hợp cho các ví dụ trong bài báo nhưng đây không phải là phép nhân tỷ lệ cược trực tiếp mà tôi mong đợi. Sau đó là gì?

logistic odds-ratio

— gỗ gụ
nguồn

Bạn có thể có một nhầm lẫn đơn giản về thuật ngữ:

là tỷ lệ cược , không phải là tỷ lệ cược. Một tỷ lệ cược là sự phân chia của một biểu thức như vậy cho một biểu thức khác.

p / (1 - p)

$p/(1-p)$

— whuber

Tỷ lệ cược là một cách để thể hiện cơ hội. Tỷ lệ cược chỉ là: tỷ lệ cược chia cho người khác. Điều đó có nghĩa là tỷ lệ cược là những gì bạn nhân một tỷ lệ cược này để tạo ra tỷ lệ cược khác. Hãy xem cách họ làm việc trong tình huống phổ biến này.

Chuyển đổi giữa tỷ lệ cược và xác suất

$Y$ $1$ $\Pr(Y=1)$ $0$ $\Pr(Y=0)$

Odds (Y) = \frac{Pr (Y = 1)}{Pr (Y = 0)} = \frac{Pr (Y = 1)}{1 - Pr (Y = 1)} .

$\text{Odds}(Y) = \frac{\Pr(Y=1)}{\Pr(Y=0)} = \frac{\Pr(Y=1)}{1 - \Pr(Y=1)}.$

Biểu thức tương đương ở bên phải cho thấy nó đủ cho mô hình để tìm tỷ lệ cược. Ngược lại, lưu ý rằng chúng ta có thể giải quyết $\Pr(Y=1)$

Pr (Y = 1) = \frac{Odds (Y)}{1 + Odds (Y)} = 1 - \frac{1}{1 + Odds (Y)} .

$\Pr(Y=1) = \frac{\text{Odds}(Y)}{1 + \text{Odds}(Y)} = 1 - \frac{1}{1 + \text{Odds}(Y)}.$

Hồi quy logistic

Hồi quy logistic mô hình logarit của tỷ lệ cược của là hàm tuyến tính của các biến giải thích. Nói chung, viết các biến này là và bao gồm một thuật ngữ không đổi có thể có trong hàm tuyến tính, chúng tôi có thể đặt tên cho các hệ số (được ước tính từ dữ liệu) là và . Chính thức này tạo ra mô hình $Y$ $x_1, \ldots, x_p$ $\beta_1,\ldots, \beta_p$ $\beta_0$

\log (Odds (Y)) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p} .

$\log\left(\text{Odds}(Y)\right) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.$

Các tỷ lệ cược có thể được phục hồi bằng cách hoàn tác logarit:

Odds (Y) = \exp (β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}) .

$\text{Odds}(Y) = \exp(\beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p).$

Sử dụng các biến phân loại

Các biến phân loại, chẳng hạn như nhóm tuổi, giới tính, sự hiện diện của Glaucoma, v.v. , được kết hợp bằng phương tiện "mã hóa giả". Để chỉ ra rằng cách biến được mã hóa không quan trọng, tôi sẽ cung cấp một ví dụ đơn giản về một nhóm nhỏ; khái quát của nó cho nhiều nhóm nên rõ ràng. Trong nghiên cứu này, một biến là "kích cỡ đồng tử", với ba loại, "Lớn", "Trung bình" và "Nhỏ". (Nghiên cứu coi những điều này là hoàn toàn phân loại, dường như không chú ý đến thứ tự vốn có của chúng.) Theo trực giác, mỗi danh mục có tỷ lệ cược riêng, giả sử cho "Lớn", cho "Trung bình" và cho "Nhỏ" . Điều này có nghĩa là, tất cả những thứ khác như nhau, $\alpha_L$ $\alpha_M$ $\alpha_S$

Odds (Y) = \exp (α_{L} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_L + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

cho bất cứ ai trong danh mục "Lớn",

Odds (Y) = \exp (α_{M} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_M + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

cho bất kỳ ai trong danh mục "Trung bình" và

Odds (Y) = \exp (α_{S} + β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p})

$\text{Odds}(Y) = \exp(\color{Blue}{\alpha_S + \beta_0} + \beta_1 x_1 + \cdots + \beta_p x_p)$

cho những người trong danh mục "Nhỏ".

Tạo các hệ số nhận dạng

Tôi đã tô màu hai hệ số đầu tiên để làm nổi bật chúng, bởi vì tôi muốn bạn nhận thấy rằng chúng cho phép thay đổi đơn giản xảy ra: chúng tôi có thể chọn bất kỳ số và bằng cách thêm nó vào và trừ nó khỏi mỗi , và , chúng tôi sẽ không thay đổi bất kỳ tỷ lệ cược dự đoán nào. Điều này là do sự tương đương rõ ràng của hình thức $\gamma$ $\beta_0$ $\alpha_L$ $\alpha_M$ $\alpha_S$

α_{L} + β_{0} = (α_{L} - γ) + (γ + β_{0}),

$\alpha_L + \beta_0 = (\alpha_L - \gamma) + (\gamma + \beta_0 ),$

v.v. Mặc dù điều này không có vấn đề gì đối với mô hình - nó vẫn dự đoán chính xác những điều tương tự - nó cho thấy rằng các tham số không thể tự hiểu được. Những gì vẫn giữ nguyên khi chúng tôi thực hiện thao tác cộng trừ này là sự khác biệt giữa các hệ số. Thông thường, để giải quyết vấn đề thiếu nhận dạng này, mọi người (và theo mặc định, phần mềm) chọn một trong các loại trong mỗi biến là "cơ sở" hoặc "tham chiếu" và chỉ cần quy định rằng hệ số của nó sẽ bằng không. Điều này loại bỏ sự mơ hồ.

Bài viết liệt kê danh mục tài liệu tham khảo đầu tiên; "Lớn" trong trường hợp này. Do đó, được trừ từ mỗi và và được thêm vào để bù lại. $\alpha_L$ $\alpha_L, \alpha_M,$ $\alpha_S$ $\beta_0$

Do đó, tỷ lệ cược nhật ký cho một cá nhân giả định rơi vào tất cả các loại cơ sở do đó bằng cộng với một loạt các thuật ngữ được liên kết với tất cả các "đồng biến" khác - các biến không phân loại: $\beta_0$

Odds(Base category) = \exp (β_{0} + β_{1} X_{1} + \dots + β_{p} X_{p}) .

$\text{Odds(Base category)} = \exp(\beta_0 + \beta_1X_1 + \cdots + \beta_p X_p).$

Không có thuật ngữ liên quan đến bất kỳ biến phân loại xuất hiện ở đây. (Tôi đã thay đổi một chút ký hiệu vào thời điểm này: betas hiện chỉ là các hệ số của các hiệp phương sai , trong khi mô hình đầy đủ bao gồm alphas cho các danh mục khác nhau.) $\beta_i$ $\alpha_j$

So sánh tỷ lệ cược

Hãy để chúng tôi so sánh tỷ lệ cược. Giả sử một cá nhân giả định là một

bệnh nhân nam ở độ tuổi 80, 89 với một đục thủy tinh thể màu trắng, không có quan điểm cơ bản và một học sinh nhỏ được phẫu thuật bởi một nhà đăng ký chuyên khoa, ...

Liên kết với bệnh nhân này (hãy gọi anh ta là Charlie) là các hệ số ước tính cho từng loại: cho nhóm tuổi của anh ta, vì là nam, v.v. Bất cứ nơi nào thuộc tính của anh ta là cơ sở cho thể loại của nó, hệ số bằng không theo quy ước , như chúng ta đã thấy. Bởi vì đây là mô hình tuyến tính, các hệ số thêm vào. Do đó, với tỷ lệ cược nhật ký cơ sở được đưa ra ở trên, tỷ lệ cược nhật ký cho bệnh nhân này có được bằng cách thêm vào $\alpha_\text{80-89}$ $\alpha_\text{male}$

α_{80-89} + α_{male} + α_{no Glaucoma} + \dots + α_{specialist registrar} .

$\alpha_\text{80-89}+\alpha_\text{male}+\alpha_\text{no Glaucoma}+ \cdots + \alpha_\text{specialist registrar}.$

Đây chính xác là số tiền mà tỷ lệ cược log của bệnh nhân này thay đổi tùy theo cơ sở. Để chuyển đổi từ tỷ lệ cược log, hoàn tác logarit và nhớ lại rằng điều này biến phép cộng thành phép nhân. Do đó, tỷ lệ cược cơ sở phải được nhân với

\exp (α_{80-89}) \exp (α_{male}) \exp (α_{no Glaucoma}) \dots \exp (α_{specialist registrar}) .

$\exp(\alpha_\text{80-89})\exp(\alpha_\text{male})\exp(\alpha_\text{no Glaucoma}) \cdots \exp(\alpha_\text{specialist registrar}).$

Đây là những con số được đưa ra trong bảng trong phần "Điều chỉnh HOẶC" (tỷ lệ chênh lệch được điều chỉnh). (Nó được gọi là "được điều chỉnh" vì các biến số được đưa vào mô hình. Chúng không có vai trò trong bất kỳ tính toán nào của chúng tôi, như bạn sẽ thấy mà tỷ lệ cược cơ sở phải được nhân lên để tạo ra tỷ lệ cược dự đoán của bệnh nhân: xem đoạn đầu tiên của bài đăng này.) Theo thứ tự trong bảng, chúng là , , , v.v. Theo bài báo, sản phẩm của họ hoạt động đến . vì thế $x_1, \ldots, x_p$ $\exp(\alpha_\text{80-89})=1.58$ $\exp(\alpha_\text{male})=1.28$ $\exp(\alpha_\text{no Glaucoma})=1.00$ $34.5$

Odds(Charlie) = 34.5 \times Odds(Base) .

$\text{Odds(Charlie)} = 34.5\times \text{Odds(Base)}.$

(Lưu ý rằng tất cả các danh mục cơ sở đều có tỷ lệ cược là , vì bao gồm trong sản phẩm không thay đổi. Đó là cách bạn có thể phát hiện các danh mục cơ sở trong bảng.) $1.00=\exp(0)$ $1$

Khôi phục kết quả dưới dạng xác suất

Cuối cùng, chúng ta hãy chuyển đổi kết quả này thành xác suất. Chúng tôi đã nói với xác suất dự đoán cơ sở là . Do đó, bằng cách sử dụng các công thức liên quan đến tỷ lệ cược và xác suất xuất phát ngay từ đầu, chúng tôi có thể tính toán $0.736\%=0.00736$

Odds(Base) = \frac{0.00736}{1 - 0.00736} = 0.00741.

$\text{Odds(Base)} = \frac{0.00736}{1 - 0.00736} = 0.00741.$

Do đó, tỷ lệ cược của Charlie là

Odds(Charlie) = 34.5 \times 0.00741 = 0.256.

$\text{Odds(Charlie)} = 34.5\times 0.00741 = 0.256.$

Cuối cùng, chuyển đổi điều này trở lại xác suất mang lại

Pr (Y (Charlie) = 1) = 1 - \frac{1}{1 + 0.256} = 0.204.

$\Pr(Y(\text{Charlie})=1) = 1 - \frac{1}{1 + 0.256} = 0.204.$

— whuber
nguồn

whuber: nhận được trước máy tính của tôi sau một ngày rất mệt mỏi và tìm thấy phản ứng phi thường này từ bạn chỉ đơn giản là tuyệt vời. Bạn đã giúp tôi rất nhiều trong một tình huống rất chặt chẽ. Cảm ơn nhiều. (bằng cách nào đó @ whuber sẽ không xuất hiện ...)

— mahonya