Giải thích các dự đoán đơn giản cho tỷ lệ cược trong hồi quy logistic


29

Tôi hơi mới khi sử dụng hồi quy logistic và hơi bối rối bởi sự khác biệt giữa các diễn giải của tôi về các giá trị sau mà tôi nghĩ sẽ giống nhau:

  • giá trị beta lũy thừa
  • dự đoán xác suất của kết quả bằng cách sử dụng các giá trị beta.

Đây là phiên bản đơn giản của mô hình tôi đang sử dụng, trong đó suy dinh dưỡng và bảo hiểm đều là nhị phân và sự giàu có là liên tục:

Under.Nutrition ~ insurance + wealth

Mô hình (thực tế) của tôi trả về giá trị beta lũy thừa là 8 cho bảo hiểm, mà tôi sẽ hiểu là:

"Xác suất bị thiếu dinh dưỡng cho một cá nhân được bảo hiểm là gấp 8 lần xác suất bị suy dinh dưỡng đối với một cá nhân không có bảo hiểm."

Tuy nhiên, khi tôi tính toán sự khác biệt về xác suất cho các cá nhân bằng cách đưa các giá trị 0 và 1 vào biến bảo hiểm và giá trị trung bình của sự giàu có, sự khác biệt về suy dinh dưỡng chỉ là 0,04. Điều đó được tính như sau:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

Tôi thực sự sẽ đánh giá cao nếu ai đó có thể giải thích tại sao các giá trị này khác nhau và cách giải thích tốt hơn (đặc biệt đối với giá trị thứ hai) có thể là gì.


Chỉnh sửa làm rõ thêm
Theo tôi hiểu, xác suất được nuôi dưỡng cho một người không có bảo hiểm (trong đó B1 tương ứng với bảo hiểm) là:

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

Trong khi Xác suất được nuôi dưỡng cho một người được bảo hiểm là:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

Tỷ lệ thiếu dinh dưỡng đối với người không có bảo hiểm so với người được bảo hiểm là:

exp(B1)

Có cách nào để dịch giữa các giá trị này (về mặt toán học) không? Tôi vẫn còn một chút bối rối bởi phương trình này (nơi tôi có lẽ nên là một giá trị khác trên RHS):

Prob(Ins) - Prob(Unins) != exp(B)

Theo thuật ngữ của giáo dân, câu hỏi đặt ra là tại sao không bảo đảm cho một cá nhân thay đổi xác suất bị thiếu dinh dưỡng nhiều như tỷ lệ chênh lệch cho thấy điều đó xảy ra? Trong dữ liệu của tôi, Prob (Ins) - Prob (Unins) = .04, trong đó giá trị beta lũy thừa là .8 (vậy tại sao sự khác biệt không phải là .2?)


2
Đây có phải là những giải thích tuyệt vời và rõ ràng áp dụng cho các mô hình / hồi quy logistic không?

Câu trả lời:


50

Tôi thấy rõ ràng là trừ khi . Vì vậy, tôi không rõ ràng về những gì có thể nhầm lẫn. Điều tôi có thể nói là phía bên trái (LHS) của dấu bằng (không) là tỷ lệ thiếu dinh dưỡng, trong khi RHS là xác suất bị thiếu dinh dưỡng. Khi tự kiểm tra, , là tỷ lệ cược , đó là hệ số nhân cho phép bạn chuyển từ tỷ lệ cược ( ) sang tỷ lệ cược ( ).

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1)xx+1

Hãy cho tôi biết nếu bạn cần thêm thông tin / khác nhau.

Cập nhật:
Tôi nghĩ rằng điều này chủ yếu là vấn đề không quen thuộc với xác suất và tỷ lệ cược, và cách chúng liên quan đến nhau. Không có gì trong số đó là trực quan, bạn cần phải ngồi xuống và làm việc với nó một lúc và học cách suy nghĩ theo những điều khoản đó; nó không tự nhiên đến với bất cứ ai.

Vấn đề là con số tuyệt đối rất khó để tự mình giải thích. Hãy nói rằng tôi đã nói với bạn về một thời gian khi tôi có một đồng tiền và tôi tự hỏi liệu nó có công bằng không. Vì vậy, tôi lật nó một số và có 6 cái đầu. Điều đó nghĩa là gì? Là 6 rất nhiều, một chút, về phải không? Thật khó để nói. Để giải quyết vấn đề này, chúng tôi muốn đưa ra một số bối cảnh. Trong trường hợp như thế này, có hai lựa chọn rõ ràng về cách cung cấp bối cảnh cần thiết: tôi có thể đưa ra tổng số lần lật hoặc tôi có thể đưa ra số lượng đuôi. Trong cả hai trường hợp, bạn có thông tin đầy đủ để hiểu 6 đầu và bạn có thể tính giá trị khác nếu cái tôi nói với bạn không phải là cái bạn thích. Xác suất là số lượng người đứng đầu chia cho tổng số sự kiện. Tỷ lệ cược là tỷ lệ giữa số lượng đầu với số lượngkhông phải đầu (theo trực giác chúng tôi muốn nói số lượng đuôi, hoạt động trong trường hợp này, nhưng không phải nếu có nhiều hơn 2 khả năng). Với tỷ lệ cược, có thể đưa ra cả hai số, ví dụ 4 đến 5. Điều này có nghĩa là về lâu dài, điều gì đó sẽ xảy ra 4 lần cho mỗi 5 lần nó không xảy ra. Khi tỷ lệ cược được trình bày theo cách này, chúng được gọi là " tỷ lệ cược Las Vegas ". Tuy nhiên, trong thống kê, chúng tôi thường phân chia và nói tỷ lệ cược là .8 thay vào đó (tức là 4/5 = .8) cho mục đích tiêu chuẩn hóa. Chúng tôi cũng có thể chuyển đổi giữa tỷ lệ cược và xác suất:

probability=odds1+odds                odds=probability1probability
(Với các công thức này, có thể khó nhận ra rằng tỷ lệ cược là LHS ở đầu và xác suất là RHS, nhưng hãy nhớ rằng đó không phải là dấu bằng ở giữa.) Tỷ lệ cược chỉ là tỷ lệ cược của một thứ được chia cho tỷ lệ cược của một cái gì đó khác; trong bối cảnh hồi quy logistic, mỗi là tỷ lệ của các tỷ lệ cược cho các giá trị liên tiếp của hiệp phương sai liên quan khi tất cả các giá trị khác được giữ bằng nhau. exp(β)

Điều quan trọng để nhận ra từ tất cả các phương trình này là xác suất, tỷ lệ cược và tỷ lệ cược không tương đương theo bất kỳ cách đơn giản nào; chỉ vì khả năng đi lên bằng 0,04 rất nhiêu không ngụ ý rằng tỷ lệ cược hoặc odds ratio nên bất cứ điều gì như 0,04! Hơn nữa, xác suất nằm trong khoảng từ , trong khi tỷ lệ cược ln (đầu ra từ phương trình hồi quy logistic thô) có thể nằm trong khoảng , và tỷ lệ cược và tỷ lệ cược có thể dao động từ . Phần cuối cùng này rất quan trọng: Do phạm vi xác suất bị giới hạn, xác suất là phi tuyến tính , nhưng tỷ lệ ln có thể là tuyến tính. Đó là, như (ví dụ)[0,1](,+)(0,+)wealthtăng theo mức tăng không đổi, xác suất thiếu dinh dưỡng sẽ tăng theo số lượng khác nhau, nhưng tỷ lệ cược sẽ tăng theo một lượng không đổi và tỷ lệ cược sẽ tăng theo hệ số nhân không đổi. Đối với bất kỳ bộ giá trị đã cho nào trong mô hình hồi quy logistic của bạn, có thể có một số điểm trong đó đối với một số và , Nhưng nó sẽ không đồng đều ở mọi nơi khác. xx'

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(Mặc dù nó được viết trong bối cảnh của một câu hỏi khác, câu trả lời của tôi ở đây chứa rất nhiều thông tin về hồi quy logistic có thể hữu ích cho bạn trong việc hiểu về LR và các vấn đề liên quan đầy đủ hơn.)


Cảm ơn phản hồi - Tôi đã giải thích thêm về sự nhầm lẫn của tôi trong chỉnh sửa ở trên.
chước

Thực sự đánh giá cao việc dành thời gian để viết ra một lời giải thích đầy đủ - rất hữu ích.
mike

Bạn được chào đón, @mike, đó là những gì CV dành cho.
gung - Phục hồi Monica

Re những tỷ lệ cược Las Vegas liên kết: Tôi chưa bao giờ đến Vegas, nhưng nhìn lên một số giá được cung cấp bởi các trang web Vegas, nơi họ trích dẫn tỷ lệ cược phân đoạn (như trái ngược với điểm-tiền) họ làm theo hệ thống Anh của "tỷ lệ cược chống lại", không thống kê "tỷ lệ cược có lợi". Do đó, "tỷ lệ cược Las Vegas" trong liên kết của bạn không tương ứng với tỷ lệ cược cờ bạc thực tế, trong đó "9 đến 1" là một sự kiện không thể xảy ra , không phải (vì "9 đến 1" có nghĩa là một thống kê) có khả năng là một thống kê! Một nguồn gây nhầm lẫn tôi cố gắng giải quyết ở đây
Silverfish

@Silverfish, tôi đã không đến Las Vegas trong một thời gian dài. Tôi không nhớ họ thường liệt kê tỷ lệ cược cho hay tỷ lệ cược chống lại. Tuy nhiên, "4 đến 5" được gọi là tỷ lệ cược Las Vegas .
gung - Phục hồi Monica


-1

Tỷ lệ chênh lệch OR = Exp (b) chuyển thành Xác suất A = SQRT (OR) / (SQRT (OR) +1), trong đó Xác suất A là xác suất của sự kiện A và OR là tỷ lệ xảy ra sự kiện A / không xảy ra sự kiện A (hoặc tiếp xúc / không tiếp xúc với bảo hiểm như trong câu hỏi trên). Tôi phải mất khá nhiều thời gian để giải quyết; Tôi không chắc tại sao đó không phải là công thức nổi tiếng.

Có một ví dụ. Giả sử, có 10 người được nhận vào trường đại học; 7 người trong số họ là đàn ông. Vì vậy, đối với mỗi người đàn ông, xác suất được thừa nhận là 70%. Tỷ lệ được nhận vào nam giới là 3/3 = 2,33 và không được thừa nhận 3/7 = 0,43. Tỷ lệ chênh lệch (OR) là 2,33 / 0,43 = 5,44 có nghĩa là đối với nam giới có cơ hội được chấp nhận cao hơn 5,44 lần so với phụ nữ. Chúng ta hãy tìm xác suất để được nhận vào người từ OR: P = SQRT (5,44) / (SQRT (5,44) +1) = 0,7

Cập nhật Điều này chỉ đúng nếu số lượng nam giới hoặc nữ giới được thừa nhận bằng số lượng người nộp đơn. Nói cách khác, nó không HOẶC. Chúng tôi không thể tìm thấy xác suất tăng (hoặc mất) tùy thuộc vào yếu tố mà không biết thêm thông tin.


Không chính xác Tôi sợ: trong ví dụ này, chúng ta có thể ước tính tỷ lệ cược (& xác suất) mà một người nào đó nhận vào trường đại học là một người đàn ông (hoặc một phụ nữ), nhưng không có tỷ lệ cược tỷ lệ mà không có cũng biết có bao nhiêu người đàn ông & phụ nữ nằm trong số những người nộp đơn . không chính xác tôi sợ: trong ví dụ này, chúng ta có thể ước tính tỷ lệ cược (& xác suất) mà một người nào đó nhận vào trường đại học là một người đàn ông (hoặc một phụ nữ), nhưng không có tỷ lệ cược tỷ lệ mà không có cũng biết có bao nhiêu người đàn ông & phụ nữ nằm trong số những người nộp đơn . Những gì bạn đang gọi OR ở đây thực tế chỉ là tỷ lệ cược bình phương . 7232
Scortchi - Tái lập Monica

Vâng, bạn hoàn toàn đúng, cảm ơn bạn. Tôi thấy rằng chúng ta không thể chuyển đổi OR (mà chúng ta nhận được, ví dụ, như đầu ra hồi quy logistic) thành xác suất tăng hoặc giảm mà không biết thông tin về xác suất trước. Tôi đưa cập nhật vào câu trả lời của tôi.
Niksr
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.