Các bộ dữ liệu tốt để minh họa các khía cạnh cụ thể của phân tích thống kê là gì?


16

Tôi nhận ra điều này là chủ quan, nhưng tôi nghĩ sẽ thật tuyệt khi nói về các bộ dữ liệu yêu thích của chúng tôi và những gì chúng tôi nghĩ làm cho chúng thú vị. Có rất nhiều dữ liệu ngoài đó và với tất cả các API (ví dụ: Datamob ) cùng với các bộ dữ liệu cổ điển (ví dụ: dữ liệu R ), tôi nghĩ rằng điều này có thể có một số phản hồi rất thú vị.

Ví dụ, tôi luôn thích các bộ dữ liệu như bộ dữ liệu "Nhà ở Boston" (hàm ý không may mặc dù) và "mtcars" vì tính linh hoạt của chúng. Từ quan điểm sư phạm, người ta có thể cho thấy giá trị của một loạt các kỹ thuật thống kê sử dụng chúng; và bộ dữ liệu iris của Anderson / Fisher sẽ luôn có một vị trí trong trái tim tôi.

Suy nghĩ?


2
Người đang được sử dụng cho luận án của tôi, bởi vì nó sẽ giúp tôi lấy bằng tiến sĩ nếu tôi phân tích đúng>.>
Fomite

3
Chào mừng bạn đến với Xác thực chéo! Điều này được thiết kế như một trang web hỏi đáp cho các câu hỏi với câu trả lời thực sự, không phải là một diễn đàn thảo luận. Như vậy, tôi không tin đây là loại câu hỏi mà chúng tôi muốn trên trang web này. Vui lòng xem FAQ .
Michael McGowan

4
Tôi biết rằng nó được thiết kế dưới dạng hỏi đáp, nhưng với các câu hỏi như "phim hoạt hình thống kê yêu thích của bạn là gì?" được bình chọn cao, tôi cho rằng điều này sẽ không phù hợp khủng khiếp. Đặc biệt về mặt sư phạm, nếu ai đó đang cố gắng tìm hiểu về phân tích dữ liệu và kỹ thuật khám phá, có thể hữu ích để nhận được một số phản hồi về các bộ dữ liệu công cộng có cấu trúc phong phú và có một lượng lớn lịch sử và nghiên cứu đằng sau chúng.
DA

4
Tôi có xu hướng để cho cộng đồng quyết định xem liệu điều này có phải được đóng lại (vì không mang tính xây dựng) hay không, mặc dù tôi sẽ thêm rằng các câu trả lời thấu đáo và tranh luận có thể đóng vai trò hỗ trợ cho các câu hỏi trong tương lai về các khía cạnh cụ thể của phân tích dữ liệu. Trong khi đó, tôi đang chuyển đổi nó thành CW vì rõ ràng, không có câu trả lời hay nhất.
chl

2
Câu hỏi này và câu trả lời của họ rất hữu ích cho tôi. Xin vui lòng không loại bỏ.
DSign

Câu trả lời:


12

Các nghiên cứu trọng lượng thấp

Đây là một trong những bộ dữ liệu trong sách giáo khoa của Hosmer và Lemeshow trên Hồi quy logistic ứng dụng (2000, Wiley, tái bản lần 2). Mục tiêu của nghiên cứu tiền cứu này là xác định các yếu tố nguy cơ liên quan đến việc sinh em bé nhẹ cân (cân nặng dưới 2.500 gram). Dữ liệu được thu thập trên 189 phụ nữ, 59 trong số đó có em bé nhẹ cân và 130 trong số đó có em bé nhẹ cân bình thường. Bốn biến số được cho là có tầm quan trọng là tuổi tác, cân nặng của đối tượng ở kỳ kinh nguyệt cuối cùng, chủng tộc và số lần khám bác sĩ trong ba tháng đầu của thai kỳ.

Nó có sẵn trong R như data(birthwt, package="MASS")hoặc trong Stata với webuse lbw. Một phiên bản văn bản xuất hiện ở đây: lowbwt.dat ( mô tả ). Đáng chú ý, có một số phiên bản của bộ dữ liệu này vì nó được mở rộng sang nghiên cứu kiểm soát trường hợp (1-1 hoặc 1-3, phù hợp với độ tuổi), như được minh họa bởi Hosmer và Lemeshow trong ALR chương 7.

Tôi đã từng dạy các khóa học giới thiệu dựa trên bộ dữ liệu này vì những lý do sau:

  • Đó là điều thú vị từ góc độ lịch sử và dịch tễ học (dữ liệu được thu thập vào năm 1986); không có kiến ​​thức cơ bản về y học hoặc thống kê được yêu cầu để hiểu các ý chính và câu hỏi nào có thể được hỏi từ nghiên cứu đó.
  • Một số biến của các loại hỗn hợp (liên tục, thứ tự và danh nghĩa) có sẵn giúp dễ dàng trình bày các thử nghiệm liên kết cơ bản (kiểm tra t, ANOVA, χ2 -test cho các bảng hai chiều, tỷ lệ chênh lệch, kiểm tra xu hướng của Burrane và Armitage , Vân vân.). Hơn nữa, trọng lượng sơ sinh có sẵn như một thước đo liên tục cũng như chỉ số nhị phân (trên hoặc dưới 2,5 kg): Chúng ta có thể bắt đầu xây dựng các mô hình tuyến tính đơn giản, theo sau là hồi quy bội (với các dự đoán quan tâm được chọn từ phân tích thăm dò trước đó), và sau đó chuyển sang GLM (hồi quy logistic), có thể thảo luận về việc lựa chọn điểm cắt.
  • Nó cho phép thảo luận về các quan điểm mô hình hóa khác nhau (phương pháp giải thích hoặc dự đoán) và ý nghĩa của sơ đồ lấy mẫu khi phát triển các mô hình (phân tầng / trường hợp khớp).

Các điểm khác có thể được nhấn mạnh, tùy thuộc vào đối tượng và trình độ chuyên môn với phần mềm thống kê hoặc thống kê nói chung.

  1. Đối với tập dữ liệu có sẵn trong R, các yếu tố dự đoán phân loại được ghi là số nguyên (ví dụ: đối với dân tộc của mẹ, chúng ta có '1' = trắng, '2' = đen, '3' = khác), mặc dù thực tế là thứ tự tự nhiên đối với một số dự đoán (ví dụ: số lượng lao động sinh non trước đó hoặc số lần khám bác sĩ) hoặc sử dụng nhãn rõ ràng (luôn luôn nên sử dụng 'có' / 'không' thay vì 1/0 cho các biến nhị phân, ngay cả khi điều đó không ' t thay đổi bất cứ điều gì trong ma trận thiết kế!) chỉ đơn giản là vắng mặt. Như vậy, thật dễ dàng để thảo luận về những vấn đề có thể được nêu ra bằng cách bỏ qua các mức hoặc đơn vị đo lường trong phân tích dữ liệu.

  2. Các biến của các loại hỗn hợp rất thú vị khi thực hiện một số phân tích khám phá và thảo luận về loại màn hình đồ họa nào phù hợp để tóm tắt các mối quan hệ đơn biến, biến đổi hoặc biến đổi. Tương tự, tạo các bảng tóm tắt đẹp và báo cáo tổng quát hơn, là một khía cạnh thú vị khác của bộ dữ liệu này (nhưng Hmisc::summary.formulalệnh này làm cho nó trở nên dễ dàng theo R).

  3. Hosmer và Lemeshow báo cáo rằng dữ liệu thực tế đã được sửa đổi để bảo vệ tính bảo mật của chủ thể (trang 25). Có thể rất thú vị khi thảo luận về các vấn đề bảo mật dữ liệu, như đã được thực hiện trong một trong những Câu lạc bộ Tạp chí trước đây của chúng tôi , nhưng hãy xem bảng điểm của nó . (Tôi phải thừa nhận tôi không bao giờ đi sâu vào chi tiết với điều đó.)

  4. Thật dễ dàng để giới thiệu một số giá trị bị thiếu hoặc giá trị sai (là những vấn đề phổ biến trong cuộc sống thực của một nhà thống kê), điều này dẫn đến việc thảo luận (a) phát hiện của họ thông qua cuốn sách mã ( Hmisc::describehoặc Stata codebook) hoặc đồ họa khám phá (luôn luôn vẽ đồ thị của bạn trước!) và (b) biện pháp khắc phục có thể (cắt bỏ dữ liệu, xóa theo cách liệt kê hoặc đo lường kết hợp theo cặp, v.v.).


+1 Cảm ơn bạn đã cung cấp một câu trả lời mẫu mực cho thấy chủ đề này thể hữu ích và cung cấp một tiêu chuẩn giải trình mà các câu trả lời khác có thể (và nên) nhắm đến.
whuber

Điều này thật tuyệt vời và chính xác những gì tôi đang tìm kiếm khi đặt câu hỏi. Tôi cảm ơn bạn cho bạn cái nhìn sâu sắc có giá trị.
DA

5

Tất nhiên, bộ dữ liệu Anscombe 4 rất tốt cho việc giảng dạy - chúng trông rất khác nhau, nhưng có các thuộc tính thống kê đơn giản giống hệt nhau.

Tôi cũng đề xuất bộ dữ liệu của KDD Cup http://www.kdd.org/kddcup/ vì chúng đã được nghiên cứu kỹ lưỡng và có nhiều giải pháp, vì vậy sinh viên có thể so sánh kết quả của mình và xem thứ hạng của họ.

Trong khóa học khai thác dữ liệu của mình, tôi đã cung cấp một cuộc thi dữ liệu Microarray có thể được sử dụng bởi các giáo sư http://www.kdnuggets.com/data_mining_cference/


Đối với các bộ dữ liệu khác đã được thiết kế cho mục đích sư phạm theo cách tương tự với Bộ tứ Anscombe, hãy xem câu hỏi này .
Cá bạc

3

Rất nhiều khóa học Phân tích thống kê của tôi tại Cal Poly đã sử dụng bộ dữ liệu "Iris" đã có trong R. Nó có các biến phân loại và các biến tương quan cao.


Bạn có muốn mở rộng điểm cuối cùng của mình: Làm thế nào để bộ dữ liệu này giúp giảng dạy thống kê? (AFAICT, bộ dữ liệu iris chỉ có một biến phân loại, đó là lớp iris.)
chl

Đây là một chủ đề liên quan hoàn toàn với việc sử dụng bộ dữ liệu Iris trong giảng dạy .
Cá bạc

3

Bộ dữ liệu Titanic được sử dụng bởi Harrell trong "Chiến lược mô hình hồi quy". Tôi sử dụng một phiên bản đơn giản của phân tích của anh ấy khi giải thích hồi quy logistic, giải thích sự sống còn bằng cách sử dụng giới tính, giai cấp và tuổi tác.

Bộ dữ liệu Loyn được thảo luận trong "Thiết kế thí nghiệm và phân tích dữ liệu cho các nhà sinh học" của Gerry Quinn và Mick Keough chứa các vấn đề hay đòi hỏi phải chuyển đổi cho hồi quy tuyến tính.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.