Tôi đang đọc A. Agresti (2007), Giới thiệu về Phân tích dữ liệu phân loại , lần 2. phiên bản và không chắc chắn nếu tôi hiểu đoạn này (tr.106, 4.2.1) một cách chính xác (mặc dù nó sẽ dễ dàng):
Trong Bảng 3.1 về ngáy và bệnh tim ở chương trước, có tới 254 đối tượng báo cáo ngáy mỗi đêm, trong đó 30 người mắc bệnh tim. Nếu tệp dữ liệu đã nhóm dữ liệu nhị phân, một dòng trong tệp dữ liệu báo cáo các dữ liệu này là 30 trường hợp mắc bệnh tim trong số cỡ mẫu là 254. Nếu tệp dữ liệu có dữ liệu nhị phân chưa được nhóm, mỗi dòng trong tệp dữ liệu đề cập đến một đối tượng riêng biệt, vì vậy 30 dòng chứa 1 cho bệnh tim và 224 dòng chứa 0 cho bệnh tim. Các ước tính ML và giá trị SE là giống nhau cho cả hai loại tệp dữ liệu.
Việc chuyển đổi một tập hợp dữ liệu chưa được nhóm (1 phụ thuộc, 1 độc lập) sẽ mất nhiều hơn "một dòng" để bao gồm tất cả thông tin!?
Trong ví dụ sau, một tập dữ liệu đơn giản (không thực tế!) Được tạo và mô hình hồi quy logistic được xây dựng.
Dữ liệu được nhóm thực sự trông như thế nào (tab biến?)? Làm thế nào cùng một mô hình có thể được xây dựng bằng cách sử dụng dữ liệu được nhóm?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())