Các thiết lập được thể hiện thông thường trong các hình thức
y=Xβ+ε
cho một n-vector y câu trả lời, một n×k mô hình ma trận Xvà một k-vector tham số β, theo giả định rằng các lỗi ngẫu nhiên ε=(εi) không tương quan với phương sai bằng nhau σ2 và không có nghĩa là: đó là,
E(ε)=0; Var(ε)=σ2In.
Khi đây là trường hợp, ước tính bình phương nhỏ nhất bình thường là
β^=(X′X)−X′y.
Để cho Z là một 2×k ma trận có hàng zR và zTđưa ra các giá trị của các biến hồi quy cho Rachel và Thomas, tương ứng. Các câu trả lời dự đoán là trong2-vector Zβ^. Các câu trả lời thực tế làzRβ+εR và zTβ+εT trong đó các epsilon mới này là các biến ngẫu nhiên không tương quan không có nghĩa, không phụ thuộc vào gốc ϵvà với phương sai chung σ2.
Sự khác biệt giữa các giá trị đó cho Rachel trừ Thomas, mà tôi sẽ gọi δ, chỉ đơn giản là
δ=(zRβ+εR)−(zTβ+εT)=(1,−1)Zβ+εR−εT.
Cả hai bên là 1×1ma trận - nghĩa là các con số - và hiển nhiên chúng là ngẫu nhiên nhờ sự xuất hiện củayở phía bên tay phải. (Phía bên tay phải là sự khác biệt ước tính giữa phản ứng của Rachel và Thomas, cộng với độ lệchεRgiữa phản ứng thực tế và dự đoán của Rachel, trừ đi độ lệchεT giữa các câu trả lời thực tế và dự đoán của Thomas.) Chúng tôi có thể tính toán kỳ vọng của nó theo thuật ngữ:
E(δ)=E((1,−1)Zβ+εR−εT)=(1,−1)Zβ+0−0=z1β−z2β.
Đây chính xác là những gì người ta sẽ cho rằng: sự khác biệt dự kiến là sự khác biệt trong các giá trị dự đoán. Nó có thể được ước tính bằng cách thay thế các tham số bằng ước tính của họ. Để chỉ ra điều này, hãy đặt một chiếc mũ lên trên "E":
E^(δ)=(1,−1)Zβ^=z1β^−z2β^.(1)
Đó là 2.88−2.51 xuất hiện trong câu hỏi.
Chúng tôi có thể tiếp tục phân tích sự khác biệt giữa Rachel và Thomas bằng cách thể hiện hai thành phần không chắc chắn về phân phối đó: một là vì β và σ được ước tính từ dữ liệu ngẫu nhiên và cái khác là sự xuất hiện của những sai lệch ngẫu nhiên εR và εT.
Var(Rachel−Thomas)=Var((1,−1)Zβ^+εR−εT)=(1,−1)ZVar(β^)Z′(1,−1)′+Var(εR)+Var(εT)=(1,−1)ZVar(β^)Z′(1,−1)′+2σ^2.(2)
Phương sai của các epsilon được ước tính bởi σ^2. Chúng tôi không biếtVar(β^) bởi vì nó phụ thuộc vào σ. Đó là thói quen để ước tính phương sai này bằng cách thay thếσ2 theo ước tính bình phương nhỏ nhất của nó σ^2, sản xuất một số lượng đôi khi được viết Varˆ(β^).
Các ước tính này chỉ có thể được chuyển đổi thành xác suất bằng cách đưa ra các giả định cụ thể hơn về các phân phối có điều kiện của y trên X. Cho đến nay, đơn giản nhất là giả địnhy là đa biến Bình thường, sau đó δ (là một biến đổi tuyến tính của vectơ y) chính nó là Bình thường và do đó trung bình và phương sai của nó hoàn toàn xác định phân phối của nó. Phân phối ước tính của nó có được bằng cách đặt mũ trênE và Var.
Cuối cùng chúng tôi đã tập hợp tất cả các thông tin cần thiết cho một giải pháp. Quy trình OLS ước tính phân phối phản hồi của Rachel trừ đi phản ứng của Thomas là Bình thường với giá trị trung bình bằng với chênh lệch trong các giá trị dự đoán(1) và với phương sai ước tính bởi (2), liên quan đến phương sai lỗi ước tính σ^2 và ma trận phương sai hiệp phương sai của các ước tính hệ số, Var(β^).
R
Mã này trực tiếp thực hiện các tính toán được thể hiện trong các công thức(1) và (2):
fit <- lm(cgpa ~ hgpa + sat + ltrs, data=df) # model to predict College GPA
Z <- as.matrix(data.frame(intercept=1, hgpa=c(4,3), sat=c(1168,1168),ltrs=c(6,6)))
cont <- matrix(c(1,-1), 1, 2) # Rachel - Thomas "contrast".
beta.hat <- coef(fit) # Estimated coefficients for prediction
delta.hat <- cont %*% Z %*% beta.hat # Predicted mean difference
sigma.hat <- sigma(fit) # Estimated error SD
var.delta.hat <- cont %*% Z %*% vcov(fit) %*% t(Z) %*% t(cont) + 2 * sigma.hat^2
pnorm(0, -delta.hat, sqrt(var.delta.hat)) # Chance Rachel > Thomas
Đầu ra cho những dữ liệu này là 0.67: OLS ước tính rằng có một 67%có khả năng CGPA của Rachel vượt xa Thomas. (Hóa ra trong trường hợp này, vì Rachel và Thomas rất giống nhau, mô hình rất phù hợp và lượng dữ liệu quá lớn, điều đóVarˆ(δ^) nhỏ bé so với 2σ^2và vì vậy có thể bị bỏ qua. Điều đó sẽ không luôn luôn như vậy.)
Đây là cơ chế làm cơ sở cho việc tính toán các khoảng dự đoán : chúng ta có thể tính các khoảng dự đoán cho sự khác biệt giữa CGPA của Rachel và Thomas bằng cách sử dụng phân phối này.