Học các khái niệm thống kê thông qua các bài tập phân tích dữ liệu


18

Tôi thấy rằng các bài tập phân tích dữ liệu đơn giản thường có thể giúp minh họa và làm rõ các khái niệm thống kê. Những bài tập phân tích dữ liệu nào bạn sử dụng để dạy các khái niệm thống kê?

Câu trả lời:


9

Vì tôi phải giải thích các phương pháp lựa chọn biến khá thường xuyên, không phải trong bối cảnh giảng dạy, nhưng đối với những người không thống kê yêu cầu trợ giúp cho nghiên cứu của họ, tôi thích ví dụ cực kỳ đơn giản này minh họa tại sao lựa chọn biến đơn không nhất thiết là một ý tưởng tốt.

Nếu bạn có bộ dữ liệu này:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Sẽ không mất nhiều thời gian để nhận ra rằng cả X1 và X2 đều hoàn toàn không phù hợp với y (khi chúng giống nhau, y 'chắc chắn' là 1 - Tôi bỏ qua các vấn đề về kích thước mẫu ở đây, chỉ cần giả sử bốn quan sát này là toàn thể vũ trụ). Tuy nhiên, sự kết hợp của hai biến là hoàn toàn thông tin. Như vậy, mọi người sẽ dễ hiểu hơn tại sao không nên (chỉ) kiểm tra giá trị p cho các mô hình với mỗi biến riêng lẻ là một biến hồi quy.

Theo kinh nghiệm của tôi, điều này thực sự nhận được thông điệp.


5

Nhiều hệ số hồi quy và sai lầm ký hiệu dự kiến

Một trong những minh họa yêu thích của tôi về một khái niệm thống kê thông qua một bài tập phân tích dữ liệu là giải cấu trúc của một hồi quy bội thành nhiều hồi quy bivariate.

Mục tiêu

  • Để làm rõ ý nghĩa của các hệ số hồi quy với sự có mặt của nhiều yếu tố dự báo.
  • Để minh họa tại sao điều đó không chính xác với việc mong đợi, một hệ số hồi quy bội có một dấu hiệu cụ thể dựa trên mối quan hệ hai biến của nó với Y khi các yếu tố dự đoán tương quan.

Khái niệm

Các hệ số hồi quy trong mô hình hồi quy bội biểu thị mối quan hệ giữa a) một phần của biến dự báo đã cho (x1) không liên quan đến tất cả các biến dự báo khác (x2 ... xN) trong mô hình; và 2) phần của biến trả lời (Y) không liên quan đến tất cả các biến dự đoán khác (x2 ... xN) trong mô hình. Khi có mối tương quan giữa các yếu tố dự đoán, các dấu hiệu liên quan đến hệ số dự đoán biểu thị mối quan hệ giữa các phần dư đó.

Tập thể dục

  1. Tạo một số dữ liệu ngẫu nhiên cho hai yếu tố dự đoán (x1, x2) và phản hồi (y).
  2. Hồi quy y trên x2 và lưu trữ phần dư.
  3. Hồi quy x1 trên x2 và lưu trữ phần dư.
  4. Hồi quy phần dư của bước 2 (r1) trên phần dư của bước 3 (r2).

Hệ số cho bước 4 cho r2 sẽ là hệ số của x1 cho mô hình hồi quy bội với x1 và x2. Bạn có thể làm tương tự cho x2 bằng cách tách x1 cho cả y và x2.

Đây là một số mã R cho bài tập này.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Dưới đây là các kết quả và kết quả có liên quan.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.