Tính xác suất của x1> x2


7

Tôi tự học về xác suất bằng R, mô hình tuyến tính và tính toán xác suất. Tôi hiện đang bế tắc về cách so sánh 2 dự đoán từ một mô hình. Dữ liệu tôi đang sử dụng được tải xuống (miễn phí) từ đây: wmbriggs.com/public/sat.csv

df <- read.csv("sat.csv")              # Load data
lm <- lm(cgpa~hgpa+sat+ltrs,data=df)   # model to predict College GPA
new.df <- data.frame(hgpa=c(4,3),sat=c(1168,1168),ltrs=c(6,6))  # 2 scenario data. Same SAT and LTRS, differing Highschool GPA
predict(lm,new.df)                     # plug our scenario data into the model to predict cgpa based on input
       1        2
2.881214 2.508154

Vì vậy, đó là dữ liệu thiết lập. Hãy đặt tên cho người có CGPA dự đoán cao hơn (2.88) Rachel và người có Tobias CGPA (2.51) dự đoán thấp hơn . Câu hỏi của tôi là, làm thế nào để tôi tính xác suất Rachel có CGPA cao hơn Tobias? Tôi đã nhìn vào khu vực dưới đường cong và không chắc là tôi đã làm đúng hay chưa, nếu tôi diễn giải đúng. Tính diện tích:

area <- pnorm(2.881214,1.9805,0.7492264)-pnorm(2.508154,1.9805,0.7492264) # area under the curve between the 2 predicted CGPAs
[1] 0.1259893

Vì vậy, sự khác biệt giữa 2 dự đoán là 12,5%. Tuy nhiên, nếu Rachel và Tobias có cùng các biến đầu vào để tạo cùng một CGPA, thì xác suất 1 trong số chúng có CGPA cao hơn là 50/50. Tôi có thể thêm 0,5 vào khu vực (62,5%) để có xác suất thật không? Tôi có lối thoát và cần phải làm gì khác không?

Câu trả lời:


3

Các thiết lập được thể hiện thông thường trong các hình thức

y= =Xβ+ε

cho một n-vector y câu trả lời, một n×k mô hình ma trận Xvà một k-vector tham số β, theo giả định rằng các lỗi ngẫu nhiên ε= =(εTôi) không tương quan với phương sai bằng nhau σ2 và không có nghĩa là: đó là,

E(ε)= =0; Var(ε)= =σ2Tôin.

Khi đây là trường hợp, ước tính bình phương nhỏ nhất bình thường là

β^= =(X'X)-X'y.

Để cho Z là một 2×k ma trận có hàng zRzTđưa ra các giá trị của các biến hồi quy cho Rachel và Thomas, tương ứng. Các câu trả lời dự đoán là trong2-vector Zβ^. Các câu trả lời thực tếzRβ+εRzTβ+εT trong đó các epsilon mới này là các biến ngẫu nhiên không tương quan không có nghĩa, không phụ thuộc vào gốc εvà với phương sai chung σ2.

Sự khác biệt giữa các giá trị đó cho Rachel trừ Thomas, mà tôi sẽ gọi δ, chỉ đơn giản là

δ= =(zRβ+εR)-(zTβ+εT)= =(1,-1)Zβ+εR-εT.

Cả hai bên là 1×1ma trận - nghĩa là các con số - và hiển nhiên chúng là ngẫu nhiên nhờ sự xuất hiện củayở phía bên tay phải. (Phía bên tay phải là sự khác biệt ước tính giữa phản ứng của Rachel và Thomas, cộng với độ lệchεRgiữa phản ứng thực tế và dự đoán của Rachel, trừ đi độ lệchεT giữa các câu trả lời thực tế và dự đoán của Thomas.) Chúng tôi có thể tính toán kỳ vọng của nó theo thuật ngữ:

E(δ)= =E((1,-1)Zβ+εR-εT)= =(1,-1)Zβ+0-0= =z1β-z2β.

Đây chính xác là những gì người ta sẽ cho rằng: sự khác biệt dự kiến ​​là sự khác biệt trong các giá trị dự đoán. Nó có thể được ước tính bằng cách thay thế các tham số bằng ước tính của họ. Để chỉ ra điều này, hãy đặt một chiếc mũ lên trên "E":

(1)E^(δ)=(1,1)Zβ^=z1β^z2β^.

Đó là 2.882.51 xuất hiện trong câu hỏi.

Chúng tôi có thể tiếp tục phân tích sự khác biệt giữa Rachel và Thomas bằng cách thể hiện hai thành phần không chắc chắn về phân phối đó: một là vì βσ được ước tính từ dữ liệu ngẫu nhiên và cái khác là sự xuất hiện của những sai lệch ngẫu nhiên εRεT.

(2)Var(RachelThomas)=Var((1,1)Zβ^+εRεT)=(1,1)ZVar(β^)Z(1,1)+Var(εR)+Var(εT)=(1,1)ZVar(β^)Z(1,1)+2σ^2.

Phương sai của các epsilon được ước tính bởi σ^2. Chúng tôi không biếtVar(β^) bởi vì nó phụ thuộc vào σ. Đó là thói quen để ước tính phương sai này bằng cách thay thếσ2 theo ước tính bình phương nhỏ nhất của nó σ^2, sản xuất một số lượng đôi khi được viết Var^(β^).

Các ước tính này chỉ có thể được chuyển đổi thành xác suất bằng cách đưa ra các giả định cụ thể hơn về các phân phối có điều kiện của y trên X. Cho đến nay, đơn giản nhất là giả địnhy là đa biến Bình thường, sau đó δ (là một biến đổi tuyến tính của vectơ y) chính nó là Bình thường và do đó trung bình và phương sai của nó hoàn toàn xác định phân phối của nó. Phân phối ước tính của nó có được bằng cách đặt mũ trênEVar.

Cuối cùng chúng tôi đã tập hợp tất cả các thông tin cần thiết cho một giải pháp. Quy trình OLS ước tính phân phối phản hồi của Rachel trừ đi phản ứng của Thomas là Bình thường với giá trị trung bình bằng với chênh lệch trong các giá trị dự đoán(1) và với phương sai ước tính bởi (2), liên quan đến phương sai lỗi ước tính σ^2 và ma trận phương sai hiệp phương sai của các ước tính hệ số, Var(β^).

RMã này trực tiếp thực hiện các tính toán được thể hiện trong các công thức(1)(2):

fit <- lm(cgpa ~ hgpa + sat + ltrs, data=df)         # model to predict College GPA
Z <- as.matrix(data.frame(intercept=1, hgpa=c(4,3), sat=c(1168,1168),ltrs=c(6,6)))

cont <- matrix(c(1,-1), 1, 2)             # Rachel - Thomas "contrast".
beta.hat <- coef(fit)                     # Estimated coefficients for prediction
delta.hat <- cont %*% Z %*% beta.hat      # Predicted mean difference 
sigma.hat <- sigma(fit)                   # Estimated error SD
var.delta.hat <- cont %*% Z %*% vcov(fit) %*% t(Z) %*% t(cont) + 2 * sigma.hat^2
pnorm(0, -delta.hat, sqrt(var.delta.hat)) # Chance Rachel > Thomas

Đầu ra cho những dữ liệu này là 0.67: OLS ước tính rằng có một 67%có khả năng CGPA của Rachel vượt xa Thomas. (Hóa ra trong trường hợp này, vì Rachel và Thomas rất giống nhau, mô hình rất phù hợp và lượng dữ liệu quá lớn, điều đóVar^(δ^) nhỏ bé so với 2σ^2và vì vậy có thể bị bỏ qua. Điều đó sẽ không luôn luôn như vậy.)

Đây là cơ chế làm cơ sở cho việc tính toán các khoảng dự đoán : chúng ta có thể tính các khoảng dự đoán cho sự khác biệt giữa CGPA của Rachel và Thomas bằng cách sử dụng phân phối này.


@Taylor mô hình khẳng định rằng bất kỳ phản hồi cá nhân nào đều ở dạng zβ+ε. Những chiếc mũ chỉ xuất hiện khi làm việc với các ước tính mô hình . Tôi thấy rằng tôi đã viết nó một cách khó hiểu - đó là một dấu tích của việc thực hiện chuyển đổi giữa hai công thức của mô hình. Hãy để tôi sửa nó và chúng tôi sẽ xem liệu nó có phù hợp không.
whuber

@whuber: câu hỏi: tại sao '-delta.hat' (phủ định)? Và chúng ta có thể thay thế pnorm bằng cdf ước tính thông qua ecdf {stats} không? Bất kỳ hàm ý cho ước tính lm? (lm không giả định tính bình thường).
Maximilian

1
@Max (1) pnormtính toán khả năng một biến sẽ nhỏ hơn đối số của nó trong khi chúng tôi muốn cơ hội lớn hơn . Về mặt kỹ thuật, sau đó, tôi đáng lẽ phải viện dẫn pnorm(0, delta.hat, sqrt(var.delta.hat), lower.tail=FALSE), nhưng tôi đã khai thác tính đối xứng của nó để rút ngắn tuyên bố. (2) Không rõ giá trị nào bạn đề xuất cho ecdf của bạn. (3) Đối với các phân phối phản hồi không bình thường, bạn có thể sẽ cần một mô hình tuyến tính tổng quát hoặc một số khái quát hóa khác.
whuber

0

Vấn đề của bạn nghe có vẻ dễ dàng, nhưng nó phức tạp một cách đáng ngạc nhiên.

Để đánh giá xác suất mà CPGA của Rachel (gọi nó là y1) lớn hơn Tobias '(y2), trong khi biết những gì hgpa, satltrs-scores của họ , cũng giống như viếtP(y2-y1>0|X), Ở đâu Xlà điểm số của họ. Bởi vì chúng ta có thể viếtyTôi= =yTôi^+εTôi, chúng ta cũng có thể nói

P(y2-y1>0|X)= =P(ε2-ε1~N(0,2σy2)+y2^-y1^= =2,8812-2.5082>0|X)= =P(ε2-ε1<0,373)

Đây là nơi bạn gặp khó khăn, bởi vì chúng tôi không biết σy2chắc chắn. Điều tốt nhất chúng ta có thể làm ở đây, là ước tính nó bằng cách tính toán phương sai của phần dư hồi quy của bạn. Nếu mẫu của bạn đủ lớn (), điều này sẽ hội tụ đến σy2.

Nếu bạn muốn bỏ qua lỗi ước tính trong σy2^, bạn có thể thực hiện điều này trong R:

sigma_hat <- summary(lm)$sigma
e2_min_e1 <- diff(predict(lm, new.df)) * -1

pnorm(e2_min_e1, 0, 2*sigma_hat)
# 0.6255

sự thật không phải vậy yTôi= =yTôi^+εTôi.
Taylor

tại sao không? yTôi^E(yTôi|XTôi) (thực ra chỉ là phép chiếu tuyến tính, nhưng theo các giả định hồi quy tuyến tính thông thường, đây cũng là cond. exp) và nó luôn giữ như vậy yTôi= =E(yTôi|XTôi)+εTôivà epsilon có nghĩa là không
KenHBS

y^Tôi= =E(yTôi|xTôi)^
Taylor

@KenS. Cảm ơn Ken. Tôi biết tôi có thể nhận được Lỗi tiêu chuẩn trong 'dự đoán ()' bằng cách thêm 'se.fit = TRUE'. Tôi đã thử nó với mã của bạn và nó đã cho tôi một thông báo lỗi: 'Lỗi trong r [i1] - r [-length (r) :-( length (r) - lag + 1L)]: đối số không phải là số đối với nhị phân nhà điều hành '
Kunio

Một trong những giả định tiêu chuẩn của OLS là dạng hàm tuyến tính được chỉ định chính xác. Nếu giả định đó đúng, thìyTôi= =E(yTôi|XTôi)+εTôi. Tôi không chắc chắn tôi đang nhận được điểm của bạn. Nó có thể chỉ là một sự khác biệt công chứng?
KenHBS
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.