Đây là một ví dụ đơn giản. Tôi không biết nếu bạn quen thuộc với R, nhưng hy vọng mã này đủ tự giải thích.
set.seed(9) # this makes the example reproducible
N = 36
# the following generates 3 variables:
x1 = rep(seq(from=11, to=13), each=12)
x2 = rep(rep(seq(from=90, to=150, by=20), each=3 ), times=3)
x3 = rep(seq(from=6, to=18, by=6 ), times=12)
cbind(x1, x2, x3)[1:7,] # 1st 7 cases, just to see the pattern
x1 x2 x3
[1,] 11 90 6
[2,] 11 90 12
[3,] 11 90 18
[4,] 11 110 6
[5,] 11 110 12
[6,] 11 110 18
[7,] 11 130 6
# the following is the true data generating process, note that y is a function of
# x1 & x2, but not x3, note also that x1 is designed above w/ a restricted range,
# & that x2 tends to have less influence on the response variable than x1:
y = 15 + 2*x1 + .2*x2 + rnorm(N, mean=0, sd=10)
reg.Model = lm(y~x1+x2+x3) # fits a regression model to these data
Bây giờ, hãy xem nó trông như thế nào:
. . .
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.76232 27.18170 -0.065 0.94871
x1 3.11683 2.09795 1.486 0.14716
x2 0.21214 0.07661 2.769 0.00927 **
x3 0.17748 0.34966 0.508 0.61524
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
. . .
F-statistic: 3.378 on 3 and 32 DF, p-value: 0.03016
Chúng ta có thể tập trung vào phần "Hệ số" của đầu ra. Mỗi tham số được ước tính bởi mô hình sẽ có hàng riêng. Ước tính thực tế được liệt kê trong cột đầu tiên. Cột thứ hai liệt kê các Lỗi tiêu chuẩn của các ước tính, nghĩa là ước tính số lượng ước tính sẽ 'nảy xung quanh' từ mẫu này sang mẫu khác, nếu chúng ta lặp đi lặp lại quá trình này nhiều lần. Cụ thể hơn, đó là ước tính độ lệch chuẩn của giá trị p phân phối lấy mẫu của ước tính. Nếu chúng ta chia từng ước tính tham số cho SE của nó, chúng ta sẽ nhận được điểm t , được liệt kê trong cột thứ ba; cái này được sử dụng để kiểm tra giả thuyết, đặc biệt để kiểm tra xem ước tính tham số có "khác biệt" đáng kể so với 0. Cột cuối cùng là liên quan đến điểm số t đó. Đó là xác suất tìm thấy một giá trị ước tính cách xa hoặc xa hơn 0, nếu giả thuyết null là đúng. Lưu ý rằng nếu giả thuyết null không đúng, thì rõ ràng giá trị này đang cho chúng ta biết bất cứ điều gì có ý nghĩa.
Nếu chúng ta nhìn qua lại giữa bảng Hệ số và quy trình tạo dữ liệu thực ở trên, chúng ta có thể thấy một vài điều thú vị. Giá trị chặn được ước tính là -1,8 và SE của nó là 27, trong khi giá trị thực là 15. Vì giá trị p liên quan là 0,95, nên sẽ không được coi là "khác biệt đáng kể" so với 0 ( lỗi loại II ), nhưng dù sao đó là trong một SE của giá trị thực. Do đó, không có gì cực kỳ khủng khiếp về ước tính này từ góc độ của giá trị thực và số tiền nó phải dao động; chúng tôi chỉ đơn giản là không có đủ sức mạnh để phân biệt nó với 0. Câu chuyện tương tự, ít nhiều, chox1
. Các nhà phân tích dữ liệu thường nói rằng nó thậm chí không 'đáng kể về mặt biên' vì giá trị p của nó là> .10, tuy nhiên, đây là một lỗi loại II khác. Ước tính cho x2
khá chính xác0,21214 ≈ 0,2và giá trị p là 'rất có ý nghĩa', một quyết định chính xác. x3
cũng không thể phân biệt được từ 0, p = 0,62, một quyết định đúng khác (x3 không hiển thị trong quy trình tạo dữ liệu thực ở trên). Thật thú vị, giá trị p lớn hơn giá trị đó x1
, nhưng nhỏ hơn giá trị chặn, cả hai đều là lỗi loại II. Cuối cùng, nếu chúng ta nhìn bên dưới bảng Hệ số, chúng ta sẽ thấy giá trị F cho mô hình, đây là một thử nghiệm đồng thời. Thử nghiệm này kiểm tra xem liệu toàn bộ mô hình dự đoán biến phản ứng tốt hơn là chỉ có cơ hội. Một cách khác để nói điều này, là có hay không tất cảcác ước tính nên được coi là không thể phân biệt được từ 0. Kết quả của thử nghiệm này cho thấy rằng ít nhất một số ước tính tham số không bằng 0, quyết định đúng bao phấn. Vì có 4 bài kiểm tra ở trên, chúng tôi sẽ không có sự bảo vệ nào khỏi và tình huống ngược lại ở đây: Làm thế nào một hồi quy có thể có ý nghĩa nhưng tất cả các dự đoán đều không quan trọngvấn đề của nhiều so sánh mà không có điều này. (Hãy nhớ rằng vì giá trị p là các biến ngẫu nhiên - cho dù điều gì đó có ý nghĩa sẽ thay đổi từ thử nghiệm này sang thử nghiệm khác, nếu thử nghiệm được chạy lại - có thể các giá trị này không nhất quán với nhau. Điều này được thảo luận về CV ở đây: Ý nghĩa của các hệ số trong hồi quy bội: kiểm tra t đáng kể so với thống kê F không có ý nghĩa , & ở đây: Thống kê F và t trong hồi quy .) Có lẽ tò mò, không có lỗi loại I trong ví dụ này. Ở bất kỳ giá nào, cả 5 bài kiểm tra được thảo luận trong đoạn này đều là bài kiểm tra giả thuyết.
Từ nhận xét của bạn, tôi tập hợp bạn cũng có thể tự hỏi về cách xác định xem một biến giải thích có quan trọng hơn biến khác không. Đây là một câu hỏi rất phổ biến, nhưng khá khó khăn. Hãy tưởng tượng bạn muốn dự đoán tiềm năng thành công trong một môn thể thao dựa trên chiều cao và cân nặng của vận động viên, và tự hỏi cái nào quan trọng hơn. Một chiến lược chung là xem xét hệ số ước tính nào lớn hơn. Tuy nhiên, những ước tính này là cụ thể cho các đơn vị đã được sử dụng: ví dụ: hệ số trọng lượng sẽ thay đổi tùy thuộc vào việc sử dụng pound hay kilogam. Ngoài ra, không rõ ràng từ xa làm thế nào để đánh đồng / so sánh pound và inch, hoặc kilogam và centimet. Một chiến lược mà mọi người sử dụng là chuẩn hóa(nghĩa là biến thành z-points) dữ liệu của họ trước. Sau đó, các kích thước này được tính theo đơn vị chung (viz., Độ lệch chuẩn) và các hệ số tương tự như điểm số r . Hơn nữa, có thể kiểm tra nếu một điểm r lớn hơn điểm khác . Thật không may, điều này không đưa bạn ra khỏi khu rừng; trừ khi r thực sự chính xác bằng 0, r ước tính được điều khiển phần lớn bởi phạm vi các giá trị hiệp biến được sử dụng. (Tôi không biết sẽ dễ dàng nhận ra như thế nào, nhưng câu trả lời tuyệt vời của @ whuber ở đây: LàR2hữu ích hoặc nguy hiểm , minh họa điểm này; để xem nó, chỉ cần nghĩ về cáchr = r2--√.) Vì vậy, điều tốt nhất có thể nói là độ biến thiên của một biến giải thích trong một phạm vi xác định là quan trọng hơn để xác định mức độ phản hồi so với biến thiên trong một biến giải thích khác trong phạm vi chỉ định khác.