Hiểu t-test cho hồi quy tuyến tính


16

Tôi đang cố gắng tìm ra cách thực hiện một số thử nghiệm giả thuyết trên hồi quy tuyến tính (giả thuyết null không có tương quan). Mọi hướng dẫn và trang về chủ đề tôi chạy vào dường như đang sử dụng bài kiểm tra t. Nhưng tôi không hiểu kiểm tra t cho hồi quy tuyến tính thực sự có nghĩa là gì. Một bài kiểm tra t, trừ khi tôi có một sự hiểu biết hoàn toàn sai hoặc mô hình tinh thần, được sử dụng để so sánh hai quần thể. Nhưng biến hồi quy và biến hồi quy không phải là mẫu của các quần thể tương tự và thậm chí có thể không cùng một đơn vị, vì vậy không có nghĩa gì khi so sánh chúng.

Vì vậy, khi sử dụng kiểm tra t trên hồi quy tuyến tính, chúng ta thực sự đang làm gì?

Câu trả lời:


36

Có lẽ bạn đang nghĩ đến thử nghiệm hai mẫu t vì đó thường là nơi đầu tiên phân phối t xuất hiện. Nhưng thực sự tất cả một thử nghiệm t có nghĩa là phân phối tham chiếu cho thống kê kiểm tra là phân phối t . Nếu ZN(0,1)S2χd2 với ZS2 độc lập, sau đó

ZS2/dtd
theo định nghĩa. Tôi viết thư này để nhấn mạnh rằngphân phốitchỉ là một tên được đặt cho phân phối tỷ lệ này vì nó xuất hiện rất nhiều và bất cứ thứ gì thuộc dạng này sẽ cóphân phốit. Đối với thử nghiệm t hai mẫu, tỷ lệ này xuất hiện vì theo null sự khác biệt trong phương tiện là một Gaussian zero-mean và dự toán không đúng cho Gaussian độc lập là một độc lậpχ2(tính độc lập có thể được hiển thị thông quađịnh lý Basu của trong đó sử dụng thực tế là ước tính phương sai chuẩn trong mẫu Gaussian là phụ trợ cho trung bình dân số, trong khi giá trị trung bình mẫu là đầy đủ và đủ cho cùng một đại lượng đó).

Với hồi quy tuyến tính, về cơ bản chúng ta có được điều tương tự. Ở dạng β^N(β,σ2(XTX)1) . Đặt Sj2=(XTX)jj1 và giả sử các yếu tố dự đoán X là không ngẫu nhiên. Nếu chúng ta biết σ2 chúng tôi có β j - 0

β^j0σSjN(0,1)
dưới nullH0:βj=0vì vậy chúng tôi thực sự có một bài kiểm tra Z. Nhưng một khi chúng tôi ước tínhσ2chúng tôi kết thúc với mộtχ2biến ngẫu nhiên đó, theo các giả định bình thường của chúng tôi, hóa ra là không phụ thuộc vào số liệu thống kê của chúng tôi β jvà sau đó chúng ta có được mộttphân phối.β^jt

Dưới đây là các chi tiết về điều đó: giả yN(Xβ,σ2I) . Cho H=X(XTX)1XT là ma trận mũ chúng tôi có

e2=(IH)y2=yT(IH)y.
H là idempotent vì vậy chúng tôi có kết quả thực sự tốt đẹp rằng
yT(IH)y/σ2χnp2(δ)
với phi trung tâm thông sốδ=βTXT(IH)Xβ=βT(XTXXTX)β=0 , vì vậy trên thực tế đây là một trung tâmχ2 vớinp bậc tự do (đây là trường hợp đặc biệt của định lý của Burran ). Tôi đang sử dụng p để biểu thị số lượng cột của X , vì vậy nếu một cột của X đưa ra đánh chặn thì chúng ta sẽ có p1 dự đoán không chặn. Một số tác giả sử dụng p là số lượng dự đoán không chặn, vì vậy đôi khi bạn có thể thấy một cái gì đó giống như np1 ở mức độ tự do ở đó, nhưng tất cả đều giống nhau.

Kết quả của việc này là , vì vậy σ 2 : = 1E(eTe/σ2)=nphoạt động tuyệt vời như một công cụ ước tínhσ2.σ^2:=1npeTeσ2

Điều này có nghĩa rằng β j là tỷ lệ của một Gaussian tiêu chuẩn so với bình phương chia cho mức độ tự do của nó. Để hoàn thành điều này, chúng ta cần thể hiện sự độc lập và chúng ta có thể sử dụng kết quả sau:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

Kết quả: cho và ma trận AB trong R l × kR m × k tương ứng, Một ZB Z là độc lập khi và chỉ khi A Σ B T = 0 (đây là tập thể dục 58 (b) trong chương 1 của Thống kê toán học của Jun Shao ).ZNk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0

Chúng tôi có β = ( X T X ) - 1 X T ye = ( I - H ) y nơi y ~ N ( X β , σ 2 tôi ) . Điều này có nghĩa ( X T X ) - 1 X Tσ 2 Tôi ( I - H ) T = σ 2β^=(XTX)1XTye=(IH)yyN(Xβ,σ2I) nên betae, và do đó beta e T e.

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
β^eβ^eTe

Kết quả cuối cùng là bây giờ chúng ta biết β j như mong muốn (dưới tất cả các giả định ở trên).

β^jσ^Sjtnp

Đây là bằng chứng của kết quả đó. Đặt (l+m)×kma trận hình thành bằng cách chồngAtrên đầu trang củaB. Khi đó CZ= ( AZC=(AB)(l+m)×kAB trong đó CΣCT=(A

CZ=(AZBZ)N((AμBμ),CΣCT)
CZlà một Gaussian đa biến và một kết quả nổi tiếng là hai thành phần của Gaussian đa biến là độc lập khi và chỉ khi chúng không tương thích, do đó điều kiệnAΣBT=0hóa ra tương đương chính xác với các thành phầnAZBZ
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZAΣBT=0AZBZtrong không tương quan.CZ


3
+1 luôn thích đọc câu trả lời của bạn.
Haitao Du

9

Câu trả lời của @ Chaconne là tuyệt vời. Nhưng đây là một phiên bản phi toán học ngắn hơn nhiều!

Vì mục tiêu là tính toán giá trị P, trước tiên bạn cần xác định giả thuyết null. Hầu như luôn luôn, đó là độ dốc thực sự nằm ngang nên giá trị bằng số cho độ dốc (beta) là 0,0.

Độ dốc phù hợp với dữ liệu của bạn không phải là 0,0. Là sự khác biệt đó là do cơ hội ngẫu nhiên hay do giả thuyết khống là sai? Bạn không bao giờ có thể trả lời điều đó một cách chắc chắn, nhưng giá trị P là một cách để sắp xếp câu trả lời.

Chương trình hồi quy báo cáo một lỗi tiêu chuẩn của độ dốc. Tính tỷ số t là độ dốc chia cho sai số chuẩn của nó. Trên thực tế, nó là (độ dốc trừ độ dốc giả thuyết null) chia cho sai số chuẩn, nhưng độ dốc giả thuyết null gần như luôn luôn bằng không.

Bây giờ bạn có tỷ lệ. Số bậc tự do (df) bằng số điểm dữ liệu trừ đi số lượng tham số phù hợp với hồi quy (hai cho hồi quy tuyến tính).

Với các giá trị đó (t và df), bạn có thể xác định giá trị P bằng máy tính hoặc bảng trực tuyến.

Đây thực chất là một thử nghiệm t một mẫu, so sánh giá trị tính toán quan sát được (độ dốc) với giá trị giả thuyết (giả thuyết null).


3
Câu hỏi thực sự là tại sao đây "về cơ bản là một bài kiểm tra một mẫu" và tôi không thấy làm thế nào nó có thể trở nên rõ ràng từ câu trả lời của bạn ...
amip nói rằng Rebstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.