Dịch lệnh glm của R thành ký hiệu toán học


8

Tôi có mô hình tuyến tính tổng quát sau đây. Đối tượng glmDVđược mô hình hóa như là một tỷ lệ thành công trong tổng số thử nghiệm. Các đối tượng x_ilà các biến liên tục.

Điều này trông như thế nào trong ký hiệu toán học?

winp.glm = glm(glmDV ~ x1 + x2 + x3 + x4 + x5 + x6 + x7, 
               data=myData, family=binomial("logit"))

1
Lưu ý rằng, nếu câu trả lời của bạn là một tỷ lệ thay vì một bộ 0s & 1s (mà tôi thu thập được những gì bạn đã dựa trên mô tả của bạn), bạn nên sử dụng một weightstham số w / ? GLM , trong đó các trọng là số lượng tổng thử nghiệm cho mỗi quan sát.
gung - Tái lập Monica

Câu trả lời:


11

Đối với hồi quy logistic nhị phân, trường hợp sử dụng thông thường cho GLM nhị thức có liên kết logit, bạn đang mô hình xác suất biến phụ thuộc của bạn là "thành công" (hoặc "có"), được mã hóa theo quy ước là . Cách mà bạn đang làm là bằng cách lập mô hình tỷ lệ cược đăng nhập. Vì vậy, thay vì mô hình hóa giá trị trung bình của phản hồi như trong OLS, bạn đang lập mô hình thay đổi về tỷ lệ cược nhật ký:1

Pr(y=1)=θ=logit1(β0+β1x1+β2x2+...+β7x7)

Trong đó và .logit(x)=log(x1x)logit1(x)=exp(x)1+exp(x)

Một lời giải thích kỹ lưỡng hơn, rất dễ tiếp cận về điều này có thể được tìm thấy trong Agresti, Giới thiệu về Phân tích dữ liệu phân loại.

Nhưng với câu hỏi cụ thể của bạn, bạn nói rằng bạn đang mô hình hóa tỷ lệ thành công. Đây không thực sự là những gì một GLM nhị thức được sử dụng để làm. Tuy nhiên, những gì bạn thực sự theo đuổi là những gì một GLM nhị thức làm được, và vẫn có thể có trong R. Nó chỉ cần một chút điều chỉnh cho những gì bạn đang làm. Trong trường hợp bạn có số lượng thử nghiệm hữu hạn có thể có thành công, bạn vẫn có thể sử dụng cùng một mô hình có mật độ Vì các giá trị của bạn được cố định bởi thiết kế thử nghiệm và là thành công được quan sát của bạn, bạn đang thực hiện suy luận về tham sốny{0...n}

Pr(y)(ny)θy(1θ)ny
nyθ theo cách tương tự như trường hợp phản hồi nhị phân điển hình hơn (ở trên), trong đó được cố định ở 1, lấy giá trị 1 với xác suất và là một hàm của các tham số của bạn. Đối với trường hợp liên kết logit, sau đó chúng tôi mô hình , chủ yếu vì chuyển đổi này tồn tại trên toàn bộ dòng thực, thay vì khoảng thời gian đơn vị . (Các thuộc tính mong muốn khác của liên kết logit được mô tả trong Agresti, bao gồm tính hợp lệ của các hệ số ngay cả trong các cài đặt sử dụng các mẫu không ngẫu nhiên như thiết kế kiểm soát trường hợp; ví dụ, đây không phải là trường hợp cho các chức năng liên kết probit.)nyθθ
logit(θ)=β0+β1x1+...+βixi
θ

Về mặt R, chỉ cần tạo một đối tượng (mà bạn gọi glmDVlà ma trận 2 cột, cột đầu tiên là số lần thành công và lần thứ hai là tổng số lần thất bại . Phần còn lại của tuyên bố vẫn giữ nguyên!yny


Xác nhận chéo này là rất hữu ích. Tôi sẽ kiểm tra Agresti tại thư viện. Cảm ơn sự giúp đỡ của bạn.
2205916

@Sycorax hoặc @ user2205916, cụ thể làm thế nào để bạn vượt qua "ma trận 2 cột" chứa số lần thành công và thất bại cho R, và R sử dụng điều này như thế nào? Tôi quen thuộc với việc sử dụng glmvà, theo hiểu biết của tôi, nó chỉ chấp nhận biến trả lời 1 cột, không phải hai cột. Vui lòng sửa cho tôi nếu tôi sai và trích dẫn tài liệu liên quan nếu có thể. Cảm ơn bạn!
Clarpaul

@clarpaul stat.ethz.ch/R-manual/R-patched/l Library / stat / html / glm.html Đoạn đầu tiên của "Chi tiết" trong glmtài liệu. Một cách hay để tìm hiểu về cách các chức năng R hoạt động là Google tên hàm; điều này thường xuất hiện các tài liệu liên quan. Bạn cũng có thể gõ ?glmvào bảng điều khiển R
Sycorax nói Phục hồi lại

@Sycorax, cảm ơn bạn đã tìm kiếm điều đó cho tôi. Tôi đã đưa nó vào thực tế ngày hôm qua, và nó dường như hoạt động!
Clarpaul
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.