Tôi thấy rằng các bài tập phân tích dữ liệu đơn giản thường có thể giúp minh họa và làm rõ các khái niệm thống kê. Những bài tập phân tích dữ liệu nào bạn sử dụng để dạy các khái niệm thống kê?
Tôi thấy rằng các bài tập phân tích dữ liệu đơn giản thường có thể giúp minh họa và làm rõ các khái niệm thống kê. Những bài tập phân tích dữ liệu nào bạn sử dụng để dạy các khái niệm thống kê?
Câu trả lời:
Vì tôi phải giải thích các phương pháp lựa chọn biến khá thường xuyên, không phải trong bối cảnh giảng dạy, nhưng đối với những người không thống kê yêu cầu trợ giúp cho nghiên cứu của họ, tôi thích ví dụ cực kỳ đơn giản này minh họa tại sao lựa chọn biến đơn không nhất thiết là một ý tưởng tốt.
Nếu bạn có bộ dữ liệu này:
y X1 x2
1 1 1
1 0 0
0 1 0
0 0 1
Sẽ không mất nhiều thời gian để nhận ra rằng cả X1 và X2 đều hoàn toàn không phù hợp với y (khi chúng giống nhau, y 'chắc chắn' là 1 - Tôi bỏ qua các vấn đề về kích thước mẫu ở đây, chỉ cần giả sử bốn quan sát này là toàn thể vũ trụ). Tuy nhiên, sự kết hợp của hai biến là hoàn toàn thông tin. Như vậy, mọi người sẽ dễ hiểu hơn tại sao không nên (chỉ) kiểm tra giá trị p cho các mô hình với mỗi biến riêng lẻ là một biến hồi quy.
Theo kinh nghiệm của tôi, điều này thực sự nhận được thông điệp.
Nhiều hệ số hồi quy và sai lầm ký hiệu dự kiến
Một trong những minh họa yêu thích của tôi về một khái niệm thống kê thông qua một bài tập phân tích dữ liệu là giải cấu trúc của một hồi quy bội thành nhiều hồi quy bivariate.
Mục tiêu
Khái niệm
Các hệ số hồi quy trong mô hình hồi quy bội biểu thị mối quan hệ giữa a) một phần của biến dự báo đã cho (x1) không liên quan đến tất cả các biến dự báo khác (x2 ... xN) trong mô hình; và 2) phần của biến trả lời (Y) không liên quan đến tất cả các biến dự đoán khác (x2 ... xN) trong mô hình. Khi có mối tương quan giữa các yếu tố dự đoán, các dấu hiệu liên quan đến hệ số dự đoán biểu thị mối quan hệ giữa các phần dư đó.
Tập thể dục
Hệ số cho bước 4 cho r2 sẽ là hệ số của x1 cho mô hình hồi quy bội với x1 và x2. Bạn có thể làm tương tự cho x2 bằng cách tách x1 cho cả y và x2.
Đây là một số mã R cho bài tập này.
set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2) # Multiple regression Model
ry1 <- residuals( lm( y ~ x2) ) # The part of y not related to x2
rx1 <- residuals( lm(x1 ~ x2) ) # The part of x1 not related to x2
lm( ry1 ~ rx1)
ry2 <- residuals( lm( y ~ x1) ) # The part of y not related to x1
rx2 <- residuals( lm(x2 ~ x1) ) # The part of x2 not related to x1
lm( ry2 ~ rx2)
Dưới đây là các kết quả và kết quả có liên quan.
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) ***x1*** ***x2***
-0.02410 ***1.89527*** ***5.07549***
Call:
lm(formula = ry1 ~ rx1)
Coefficients:
(Intercept) ***rx1***
-2.854e-17 ***1.895e+00***
Call:
lm(formula = ry2 ~ rx2)
Coefficients:
(Intercept) ***rx2***
3.406e-17 ***5.075e+00***