Các nghiên cứu trọng lượng thấp
Đây là một trong những bộ dữ liệu trong sách giáo khoa của Hosmer và Lemeshow trên Hồi quy logistic ứng dụng (2000, Wiley, tái bản lần 2). Mục tiêu của nghiên cứu tiền cứu này là xác định các yếu tố nguy cơ liên quan đến việc sinh em bé nhẹ cân (cân nặng dưới 2.500 gram). Dữ liệu được thu thập trên 189 phụ nữ, 59 trong số đó có em bé nhẹ cân và 130 trong số đó có em bé nhẹ cân bình thường. Bốn biến số được cho là có tầm quan trọng là tuổi tác, cân nặng của đối tượng ở kỳ kinh nguyệt cuối cùng, chủng tộc và số lần khám bác sĩ trong ba tháng đầu của thai kỳ.
Nó có sẵn trong R như data(birthwt, package="MASS")
hoặc trong Stata với webuse lbw
. Một phiên bản văn bản xuất hiện ở đây: lowbwt.dat ( mô tả ). Đáng chú ý, có một số phiên bản của bộ dữ liệu này vì nó được mở rộng sang nghiên cứu kiểm soát trường hợp (1-1 hoặc 1-3, phù hợp với độ tuổi), như được minh họa bởi Hosmer và Lemeshow trong ALR chương 7.
Tôi đã từng dạy các khóa học giới thiệu dựa trên bộ dữ liệu này vì những lý do sau:
- Đó là điều thú vị từ góc độ lịch sử và dịch tễ học (dữ liệu được thu thập vào năm 1986); không có kiến thức cơ bản về y học hoặc thống kê được yêu cầu để hiểu các ý chính và câu hỏi nào có thể được hỏi từ nghiên cứu đó.
- Một số biến của các loại hỗn hợp (liên tục, thứ tự và danh nghĩa) có sẵn giúp dễ dàng trình bày các thử nghiệm liên kết cơ bản (kiểm tra t, ANOVA, χ2 -test cho các bảng hai chiều, tỷ lệ chênh lệch, kiểm tra xu hướng của Burrane và Armitage , Vân vân.). Hơn nữa, trọng lượng sơ sinh có sẵn như một thước đo liên tục cũng như chỉ số nhị phân (trên hoặc dưới 2,5 kg): Chúng ta có thể bắt đầu xây dựng các mô hình tuyến tính đơn giản, theo sau là hồi quy bội (với các dự đoán quan tâm được chọn từ phân tích thăm dò trước đó), và sau đó chuyển sang GLM (hồi quy logistic), có thể thảo luận về việc lựa chọn điểm cắt.
- Nó cho phép thảo luận về các quan điểm mô hình hóa khác nhau (phương pháp giải thích hoặc dự đoán) và ý nghĩa của sơ đồ lấy mẫu khi phát triển các mô hình (phân tầng / trường hợp khớp).
Các điểm khác có thể được nhấn mạnh, tùy thuộc vào đối tượng và trình độ chuyên môn với phần mềm thống kê hoặc thống kê nói chung.
Đối với tập dữ liệu có sẵn trong R, các yếu tố dự đoán phân loại được ghi là số nguyên (ví dụ: đối với dân tộc của mẹ, chúng ta có '1' = trắng, '2' = đen, '3' = khác), mặc dù thực tế là thứ tự tự nhiên đối với một số dự đoán (ví dụ: số lượng lao động sinh non trước đó hoặc số lần khám bác sĩ) hoặc sử dụng nhãn rõ ràng (luôn luôn nên sử dụng 'có' / 'không' thay vì 1/0 cho các biến nhị phân, ngay cả khi điều đó không ' t thay đổi bất cứ điều gì trong ma trận thiết kế!) chỉ đơn giản là vắng mặt. Như vậy, thật dễ dàng để thảo luận về những vấn đề có thể được nêu ra bằng cách bỏ qua các mức hoặc đơn vị đo lường trong phân tích dữ liệu.
Các biến của các loại hỗn hợp rất thú vị khi thực hiện một số phân tích khám phá và thảo luận về loại màn hình đồ họa nào phù hợp để tóm tắt các mối quan hệ đơn biến, biến đổi hoặc biến đổi. Tương tự, tạo các bảng tóm tắt đẹp và báo cáo tổng quát hơn, là một khía cạnh thú vị khác của bộ dữ liệu này (nhưng Hmisc::summary.formula
lệnh này làm cho nó trở nên dễ dàng theo R).
Hosmer và Lemeshow báo cáo rằng dữ liệu thực tế đã được sửa đổi để bảo vệ tính bảo mật của chủ thể (trang 25). Có thể rất thú vị khi thảo luận về các vấn đề bảo mật dữ liệu, như đã được thực hiện trong một trong những Câu lạc bộ Tạp chí trước đây của chúng tôi , nhưng hãy xem bảng điểm của nó . (Tôi phải thừa nhận tôi không bao giờ đi sâu vào chi tiết với điều đó.)
Thật dễ dàng để giới thiệu một số giá trị bị thiếu hoặc giá trị sai (là những vấn đề phổ biến trong cuộc sống thực của một nhà thống kê), điều này dẫn đến việc thảo luận (a) phát hiện của họ thông qua cuốn sách mã ( Hmisc::describe
hoặc Stata codebook
) hoặc đồ họa khám phá (luôn luôn vẽ đồ thị của bạn trước!) và (b) biện pháp khắc phục có thể (cắt bỏ dữ liệu, xóa theo cách liệt kê hoặc đo lường kết hợp theo cặp, v.v.).