Tỷ lệ cược là một cách để thể hiện cơ hội. Tỷ lệ cược chỉ là: tỷ lệ cược chia cho người khác. Điều đó có nghĩa là tỷ lệ cược là những gì bạn nhân một tỷ lệ cược này để tạo ra tỷ lệ cược khác. Hãy xem cách họ làm việc trong tình huống phổ biến này.
Chuyển đổi giữa tỷ lệ cược và xác suất
Y1Pr ( Y= 1 )Pr ( Y = 0 )0Pr ( Y= 0 )
Tỷ lệ cược ( Y) = Pr ( Y= 1 )Pr ( Y= 0 )= Pr ( Y= 1 )1 - Pr ( Y= 1 ).
Biểu thức tương đương ở bên phải cho thấy nó đủ cho mô hình để tìm tỷ lệ cược. Ngược lại, lưu ý rằng chúng ta có thể giải quyếtPr ( Y= 1 )
Pr ( Y= 1 ) = Tỷ lệ cược ( Y)Tỷ lệ 1 + ( Y)= 1 - 1Tỷ lệ 1 + ( Y).
Hồi quy logistic
Hồi quy logistic mô hình logarit của tỷ lệ cược của là hàm tuyến tính của các biến giải thích. Nói chung, viết các biến này là và bao gồm một thuật ngữ không đổi có thể có trong hàm tuyến tính, chúng tôi có thể đặt tên cho các hệ số (được ước tính từ dữ liệu) là và . Chính thức này tạo ra mô hìnhx 1 , ... , x p beta 1 , ... , β p β 0Yx1, Lọ , xpβ1, ... , βpβ0
đăng nhập( Tỷ lệ cược ( Y) ) = β0+ β1x1+ ⋯ + βpxp.
Các tỷ lệ cược có thể được phục hồi bằng cách hoàn tác logarit:
Tỷ lệ cược ( Y) = điểm kinh nghiệm( β0+ β1x1+ ⋯ + βpxp) .
Sử dụng các biến phân loại
Các biến phân loại, chẳng hạn như nhóm tuổi, giới tính, sự hiện diện của Glaucoma, v.v. , được kết hợp bằng phương tiện "mã hóa giả". Để chỉ ra rằng cách biến được mã hóa không quan trọng, tôi sẽ cung cấp một ví dụ đơn giản về một nhóm nhỏ; khái quát của nó cho nhiều nhóm nên rõ ràng. Trong nghiên cứu này, một biến là "kích cỡ đồng tử", với ba loại, "Lớn", "Trung bình" và "Nhỏ". (Nghiên cứu coi những điều này là hoàn toàn phân loại, dường như không chú ý đến thứ tự vốn có của chúng.) Theo trực giác, mỗi danh mục có tỷ lệ cược riêng, giả sử cho "Lớn", cho "Trung bình" và cho "Nhỏ" . Điều này có nghĩa là, tất cả những thứ khác như nhau,α M α SαLαMαS
Tỷ lệ cược ( Y) = điểm kinh nghiệm( αL+ β0+ β1x1+ ⋯ + βpxp)
cho bất cứ ai trong danh mục "Lớn",
Tỷ lệ cược ( Y) = điểm kinh nghiệm( αM+ β0+ β1x1+ ⋯ + βpxp)
cho bất kỳ ai trong danh mục "Trung bình" và
Tỷ lệ cược ( Y) = điểm kinh nghiệm( αS+ β0+ β1x1+ ⋯ + βpxp)
cho những người trong danh mục "Nhỏ".
Tạo các hệ số nhận dạng
Tôi đã tô màu hai hệ số đầu tiên để làm nổi bật chúng, bởi vì tôi muốn bạn nhận thấy rằng chúng cho phép thay đổi đơn giản xảy ra: chúng tôi có thể chọn bất kỳ số và bằng cách thêm nó vào và trừ nó khỏi mỗi , và , chúng tôi sẽ không thay đổi bất kỳ tỷ lệ cược dự đoán nào. Điều này là do sự tương đương rõ ràng của hình thứcγβ0αLαMαS
αL+β0=(αL−γ)+(γ+β0),
v.v. Mặc dù điều này không có vấn đề gì đối với mô hình - nó vẫn dự đoán chính xác những điều tương tự - nó cho thấy rằng các tham số không thể tự hiểu được. Những gì vẫn giữ nguyên khi chúng tôi thực hiện thao tác cộng trừ này là sự khác biệt giữa các hệ số. Thông thường, để giải quyết vấn đề thiếu nhận dạng này, mọi người (và theo mặc định, phần mềm) chọn một trong các loại trong mỗi biến là "cơ sở" hoặc "tham chiếu" và chỉ cần quy định rằng hệ số của nó sẽ bằng không. Điều này loại bỏ sự mơ hồ.
Bài viết liệt kê danh mục tài liệu tham khảo đầu tiên; "Lớn" trong trường hợp này. Do đó, được trừ từ mỗi và và được thêm vào để bù lại.αLαL,αM,αSβ0
Do đó, tỷ lệ cược nhật ký cho một cá nhân giả định rơi vào tất cả các loại cơ sở do đó bằng cộng với một loạt các thuật ngữ được liên kết với tất cả các "đồng biến" khác - các biến không phân loại:β0
Odds(Base category)=exp(β0+β1X1+⋯+βpXp).
Không có thuật ngữ liên quan đến bất kỳ biến phân loại xuất hiện ở đây. (Tôi đã thay đổi một chút ký hiệu vào thời điểm này: betas hiện chỉ là các hệ số của các hiệp phương sai , trong khi mô hình đầy đủ bao gồm alphas cho các danh mục khác nhau.)βiαj
So sánh tỷ lệ cược
Hãy để chúng tôi so sánh tỷ lệ cược. Giả sử một cá nhân giả định là một
bệnh nhân nam ở độ tuổi 80, 89 với một đục thủy tinh thể màu trắng, không có quan điểm cơ bản và một học sinh nhỏ được phẫu thuật bởi một nhà đăng ký chuyên khoa, ...
Liên kết với bệnh nhân này (hãy gọi anh ta là Charlie) là các hệ số ước tính cho từng loại: cho nhóm tuổi của anh ta, vì là nam, v.v. Bất cứ nơi nào thuộc tính của anh ta là cơ sở cho thể loại của nó, hệ số bằng không theo quy ước , như chúng ta đã thấy. Bởi vì đây là mô hình tuyến tính, các hệ số thêm vào. Do đó, với tỷ lệ cược nhật ký cơ sở được đưa ra ở trên, tỷ lệ cược nhật ký cho bệnh nhân này có được bằng cách thêm vàoα80-89αmale
α80-89+αmale+αno Glaucoma+⋯+αspecialist registrar.
Đây chính xác là số tiền mà tỷ lệ cược log của bệnh nhân này thay đổi tùy theo cơ sở. Để chuyển đổi từ tỷ lệ cược log, hoàn tác logarit và nhớ lại rằng điều này biến phép cộng thành phép nhân. Do đó, tỷ lệ cược cơ sở phải được nhân với
exp(α80-89)exp(αmale)exp(αno Glaucoma)⋯exp(αspecialist registrar).
Đây là những con số được đưa ra trong bảng trong phần "Điều chỉnh HOẶC" (tỷ lệ chênh lệch được điều chỉnh). (Nó được gọi là "được điều chỉnh" vì các biến số được đưa vào mô hình. Chúng không có vai trò trong bất kỳ tính toán nào của chúng tôi, như bạn sẽ thấy mà tỷ lệ cược cơ sở phải được nhân lên để tạo ra tỷ lệ cược dự đoán của bệnh nhân: xem đoạn đầu tiên của bài đăng này.) Theo thứ tự trong bảng, chúng là , , , v.v. Theo bài báo, sản phẩm của họ hoạt động đến . vì thếx1,…,xpexp(α80-89)=1.58exp(αmale)=1.28exp(αno Glaucoma)=1.0034.5
Odds(Charlie)=34.5×Odds(Base).
(Lưu ý rằng tất cả các danh mục cơ sở đều có tỷ lệ cược là , vì bao gồm trong sản phẩm không thay đổi. Đó là cách bạn có thể phát hiện các danh mục cơ sở trong bảng.) 1.00=exp(0)1
Khôi phục kết quả dưới dạng xác suất
Cuối cùng, chúng ta hãy chuyển đổi kết quả này thành xác suất. Chúng tôi đã nói với xác suất dự đoán cơ sở là . Do đó, bằng cách sử dụng các công thức liên quan đến tỷ lệ cược và xác suất xuất phát ngay từ đầu, chúng tôi có thể tính toán0.736%=0.00736
Odds(Base)=0.007361−0.00736=0.00741.
Do đó, tỷ lệ cược của Charlie là
Odds(Charlie)=34.5×0.00741=0.256.
Cuối cùng, chuyển đổi điều này trở lại xác suất mang lại
Pr(Y(Charlie)=1)=1−11+0.256=0.204.