Chúng ta có thể đưa ra các báo cáo xác suất với các khoảng dự đoán không?


12

Tôi đã đọc qua nhiều cuộc thảo luận tuyệt vời trên trang web về việc giải thích các khoảng tin cậy và khoảng dự đoán, nhưng một khái niệm vẫn còn hơi khó hiểu:

Hãy xem xét các khuôn khổ OLS và chúng tôi đã thu được những trang bị mô hình y = X β . Chúng tôi đang đưa ra một x * và hỏi để dự đoán phản ứng của nó. Chúng tôi tính toán x * T β và, như một phần thưởng, chúng tôi cũng cung cấp một khoảng thời gian dự đoán 95% xung quanh dự đoán của chúng tôi, a la Lấy một công thức cho giới hạn dự đoán trong một mô hình tuyến tính . Hãy gọi khoảng dự đoán PI này.y^=Xβ^xxTβ^

Bây giờ, điều nào sau đây (hoặc không) là cách giải thích chính xác về PI?

  1. Đối với nói riêng, y ( x ) nằm trong PI với xác suất 95%.xy(x)
  2. x

Từ cách diễn đạt của @ gung trong khoảng dự đoán hồi quy tuyến tính , có vẻ như điều này là đúng (mặc dù tôi rất có thể hiểu sai.) Giải thích 1 có vẻ trái ngược với tôi (theo nghĩa là chúng ta rút ra kết luận Bayes từ phân tích thường xuyên), nhưng nếu nó đúng, có phải vì chúng ta dự đoán việc thực hiện một biến ngẫu nhiên so với ước tính một tham số ?

βϵ

Nỗ lực mới nhất của tôi về điều này: chúng ta có thể "phân tách một cách khái niệm" (sử dụng từ rất lỏng lẻo) một khoảng dự đoán thành hai phần: (A) một khoảng tin cậy xung quanh phản ứng trung bình dự đoán và (B) một tập hợp các khoảng chỉ là lượng tử phạm vi của thuật ngữ lỗi. (B) chúng ta có thể đưa ra các tuyên bố xác suất, có điều kiện để biết ý nghĩa dự đoán thực sự, nhưng nói chung, chúng ta chỉ có thể coi các khoảng dự đoán là các TCTD thường xuyên xung quanh các giá trị dự đoán. Điều này có phần đúng?


Câu trả lời tôi đã viết tại stats.stackexchange.com/a/26704 ngụ ý rằng một cái gì đó giống như (2) là trường hợp (theo luật số lượng lớn) nhưng chắc chắn không phải (1).
whuber

Câu trả lời:


5

Đầu tiên, về việc sử dụng xác suất từ, người thường xuyên không gặp vấn đề gì với việc sử dụng xác suất từ ​​khi dự đoán điều gì đó mà phần ngẫu nhiên chưa diễn ra. Chúng tôi không thích xác suất từ ​​cho khoảng tin cậy vì tham số thực không thay đổi (chúng tôi giả định rằng đó là giá trị cố định, mặc dù không xác định) và khoảng đó là cố định vì nó dựa trên dữ liệu mà chúng tôi đã thu thập. Ví dụ: nếu dữ liệu của chúng tôi xuất phát từ một mẫu ngẫu nhiên của người đàn ông trưởng thành và x là chiều cao của họ và y là cân nặng của họ và chúng tôi phù hợp với mô hình hồi quy chung thì chúng tôi không sử dụng xác suất khi nói về khoảng tin cậy. Nhưng nếu tôi muốn nói về xác suất một người đàn ông cao 65 inch được chọn ngẫu nhiên từ tất cả những người đàn ông cao 65 inch có cân nặng trong một khoảng thời gian nhất định,

Vì vậy, tôi sẽ nói rằng câu trả lời cho câu hỏi tiền thưởng là "Có". Nếu chúng ta biết đủ thông tin, thì chúng ta có thể tính xác suất nhìn thấy giá trị ay trong một khoảng (hoặc tìm một khoảng với xác suất mong muốn).

Đối với tuyên bố của bạn có nhãn "1." Tôi sẽ nói rằng nó ổn nếu bạn sử dụng một từ như "gần đúng" khi nói về khoảng hoặc xác suất. Giống như bạn đề cập trong câu hỏi về phần thưởng, chúng ta có thể phân tách sự không chắc chắn thành một phần về trung tâm của dự đoán và một phần về tính ngẫu nhiên xung quanh giá trị trung bình thực. Khi chúng tôi kết hợp những điều này để bao gồm tất cả sự không chắc chắn của chúng tôi (và giả sử chúng tôi có mô hình / quy tắc chính xác), chúng tôi có một khoảng sẽ có xu hướng quá rộng (mặc dù cũng có thể quá hẹp), do đó xác suất của một điểm được chọn ngẫu nhiên mới rơi vào khoảng dự đoán sẽ không chính xác 95%. Bạn có thể thấy điều này bằng cách mô phỏng. Bắt đầu với một mô hình hồi quy đã biết với tất cả các tham số đã biết. Chọn một mẫu (trên nhiều giá trị x) từ mối quan hệ này, phù hợp với hồi quy, và tính khoảng dự đoán (s). Bây giờ tạo lại một số lượng lớn các điểm dữ liệu mới từ mô hình thực và so sánh chúng với các khoảng dự đoán. Tôi đã làm điều này một vài lần bằng cách sử dụng mã R sau đây:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Tôi đã chạy mã trên một vài lần (khoảng 10, nhưng tôi không giữ số lượng cẩn thận) và hầu hết thời gian tỷ lệ của các giá trị mới rơi vào các khoảng nằm trong khoảng 96% đến 98%. Tôi đã có một trường hợp độ lệch chuẩn ước tính rất thấp là tỷ lệ này nằm trong khoảng 93% đến 94%, nhưng tất cả các trường hợp còn lại đều ở mức trên 95%. Vì vậy, tôi sẽ rất vui với tuyên bố 1 của bạn với thay đổi thành "xấp xỉ 95%" (giả sử tất cả các giả định là đúng hoặc đủ gần để được đề cập trong khoảng).

Tương tự, câu 2 cần một "xấp xỉ" hoặc tương tự, bởi vì để che giấu sự không chắc chắn của chúng tôi, chúng tôi đang nắm bắt trung bình hơn 95%.


0

Thứ hai là tốt hơn. Việc đầu tiên phụ thuộc vào những thông tin khác được biết.

Sử dụng một ví dụ ngẫu nhiên, đúng là "95% các khoảng (với độ tin cậy 95%) sẽ bao gồm giá trị trung bình thực của [biến chèn]".

Mặt khác, nếu một kết quả rõ ràng là phản trực giác, chúng ta không thể khẳng định (1).

Ví dụ: "bài kiểm tra quan trọng của tôi với độ tin cậy 95% cho thấy chiều cao và cân nặng có mối tương quan ngược chiều". Rõ ràng đó là sai và chúng tôi không thể nói rằng có "xác suất 95% là đúng". Trong thực tế, có xem xét kiến ​​thức trước, một xác suất rất nhỏ rằng đó là sự thật. Tuy nhiên, có giá trị để nói rằng "95% các xét nghiệm như vậy sẽ mang lại kết quả chính xác."


1
Câu trả lời này dường như thảo luận về khoảng tin cậy hơn là khoảng dự đoán.
whuber

@whuber Nguyên tắc tương tự được áp dụng. Về cơ bản, chúng tôi đang xử lý các khoảng tin cậy cho một biến nhất định (biến "dự đoán").

2
Có một sự phân biệt quan trọng giữa một giá trị cố định (như tham số) và giá trị của một biến ngẫu nhiên. Hơn nữa, trung tâm của câu hỏi hiện tại có được sự khác biệt này: có thể nói gì về xác suất của kết quả ngẫu nhiên ("tương lai") đó? Do đó, nó có vẻ không đầy đủ - và có thể gây hiểu lầm - để coi câu hỏi này chỉ là một trong những ý nghĩa của sự tự tin.
whuber

@whuber Câu lệnh (2) trong bài viết vẫn không bao hàm câu lệnh (1). Như trong ví dụ của tôi, một dự đoán đi ngược lại với trực giác / kiến ​​thức nền tảng rõ ràng sẽ không ngụ ý rằng kết quả trong tương lai có 95% cơ hội rơi vào PI. Đúng là quá trình, 95% thời gian, sẽ mang lại cho PI kết quả tương lai. Nhưng đôi khi có thể phát hiện khi điều này đã hoặc chưa xảy ra.

Bạn nói đúng, nhưng nếu tôi đọc bình luận của bạn một cách chính xác, tôi nghi ngờ nó sẽ sai điểm. Vấn đề không phải là (theo thiết kế) PI chỉ có 95% cơ hội bao trùm giá trị tương lai hoặc dữ liệu bổ sung (hoặc trực giác) có thể cung cấp thêm thông tin. Vấn đề trước khi chúng ta quan tâm liệu PI có thể được giải thích theo xác suất có điều kiện cho giá trị tương lai (dựa trên các giá trị hồi quy). Đó thực sự là cách giải thích của Bayes PI, như OP lưu ý, nhưng nó không hợp lệ đối với PI thường xuyên.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.