Đối với khoảng dự đoán trong hồi quy tuyến tính, bạn vẫn sử dụng để tạo khoảng. Bạn cũng sử dụng điều này để tạo khoảng tin cậy của . Sự khác biệt giữa hai là gì?
Đối với khoảng dự đoán trong hồi quy tuyến tính, bạn vẫn sử dụng để tạo khoảng. Bạn cũng sử dụng điều này để tạo khoảng tin cậy của . Sự khác biệt giữa hai là gì?
Câu trả lời:
Câu hỏi của bạn không hoàn toàn chính xác. Khoảng tin cậy cung cấp phạm vi cho , như bạn nói. Một khoảng dự đoán đưa ra một phạm vi cho chính . Đương nhiên, dự đoán tốt nhất của chúng tôi cho là , do đó, cả hai khoảng sẽ được tập trung xung quanh cùng một giá trị, .
Như @Greg nói, các lỗi tiêu chuẩn sẽ khác --- chúng tôi đoán giá trị mong đợi của chính xác hơn là chúng tôi ước tính . Ước tính yêu cầu bao gồm phương sai xuất phát từ thuật ngữ lỗi thực sự.
Để minh họa sự khác biệt, hãy tưởng tượng rằng chúng ta có thể có được ước tính hoàn hảo về các hệ số . Sau đó, ước tính của chúng tôi về sẽ hoàn hảo. Nhưng chúng tôi vẫn sẽ không chắc chắn những gì bản thân là bởi vì có một số hạng sai sự thật mà chúng ta cần phải xem xét. Độ tin cậy "khoảng" của chúng tôi sẽ chỉ là một điểm vì chúng tôi ước tính chính xác, nhưng khoảng dự đoán của chúng tôi sẽ rộng hơn vì chúng tôi tính đến thuật ngữ lỗi thực sự.
Do đó, khoảng dự đoán sẽ rộng hơn khoảng tin cậy.
Sự khác biệt giữa khoảng dự đoán và khoảng tin cậy là lỗi tiêu chuẩn.
Lỗi tiêu chuẩn cho khoảng tin cậy trên giá trị trung bình có tính đến độ không đảm bảo do lấy mẫu. Dòng bạn tính toán từ mẫu của bạn sẽ khác với dòng đã được tính nếu bạn có toàn bộ dân số, lỗi tiêu chuẩn có tính đến độ không đảm bảo này.
Lỗi tiêu chuẩn cho một khoảng dự đoán trên một quan sát riêng lẻ có tính đến độ không đảm bảo do lấy mẫu như trên, nhưng cũng tính đến sự thay đổi của các cá nhân xung quanh giá trị trung bình dự đoán. Lỗi tiêu chuẩn cho khoảng dự đoán sẽ rộng hơn khoảng tin cậy và do đó khoảng dự đoán sẽ rộng hơn khoảng tin cậy.
Tôi thấy lời giải thích sau đây hữu ích:
Khoảng tin cậy cho bạn biết bạn đã xác định được mức trung bình tốt như thế nào. Giả sử rằng dữ liệu thực sự được lấy mẫu ngẫu nhiên từ phân phối Gaussian. Nếu bạn làm điều này nhiều lần và tính khoảng tin cậy của giá trị trung bình từ mỗi mẫu, bạn sẽ mong đợi khoảng 95% các khoảng đó bao gồm giá trị thực của trung bình dân số. Điểm mấu chốt là khoảng tin cậy cho bạn biết về vị trí có khả năng của tham số dân số thực.
Khoảng dự đoán cho bạn biết nơi bạn có thể mong đợi để xem điểm dữ liệu tiếp theo được lấy mẫu. Giả sử rằng dữ liệu thực sự được lấy mẫu ngẫu nhiên từ phân phối Gaussian. Thu thập một mẫu dữ liệu và tính toán một khoảng dự đoán. Sau đó lấy mẫu thêm một giá trị từ dân số. Nếu bạn làm điều này nhiều lần, bạn sẽ mong rằng giá trị tiếp theo nằm trong khoảng dự đoán đó trong 95% mẫu. Điểm quan trọng là khoảng dự đoán cho bạn biết về phân phối giá trị, không phải là sự không chắc chắn trong việc xác định dân số nghĩa là.
Khoảng dự đoán phải tính đến cả sự không chắc chắn trong việc biết giá trị trung bình của dân số, cộng với phân tán dữ liệu. Vì vậy, khoảng dự đoán luôn rộng hơn khoảng tin cậy.
Một là dự đoán về một quan sát trong tương lai, và một là dự đoán có nghĩa là dự đoán. Tôi sẽ đưa ra một câu trả lời chi tiết hơn để hy vọng giải thích sự khác biệt và nguồn gốc của nó, cũng như sự khác biệt này thể hiện như thế nào trong các khoảng dự đoán rộng hơn so với sự tự tin.
Ví dụ này có thể minh họa sự khác biệt giữa khoảng tin cậy và dự đoán: giả sử chúng ta có mô hình hồi quy dự đoán giá nhà dựa trên số phòng ngủ, kích thước, v.v. Có hai loại dự đoán chúng ta có thể đưa ra cho nhất định :
Chúng tôi có thể dự đoán giá cho một ngôi nhà mới cụ thể xuất hiện trên thị trường với các đặc điểm ( "giá dự đoán cho ngôi nhà này bao nhiêu?" ). Giá thực của nó sẽ là . Vì , giá dự đoán sẽ là Để đánh giá phương sai của dự đoán này, chúng tôi cần đưa vào sự không chắc chắn của chúng tôi về , cũng như sự không chắc chắn của chúng tôi về dự đoán của chúng tôi (lỗi dự đoán của chúng tôi) và do đó phải bao gồm phương sai của (lỗi dự đoán của chúng tôi). Điều này thường được gọi là dự đoán của một giá trị trong tương lai .
Chúng ta cũng có thể dự đoán giá trung bình của một ngôi nhà có đặc điểm ( "giá trung bình của một ngôi nhà có đặc điểm bao nhiêu?" ). Ước tính điểm vẫn là , nhưng hiện tại chỉ cần tính đến phương sai trong . Điều này thường được gọi là dự đoán của phản ứng trung bình.
Hầu hết thời gian, những gì chúng ta thực sự muốn là trường hợp đầu tiên. Chúng tôi biết rằng
Đây là phương sai cho phản ứng trung bình của chúng tôi (trường hợp 2). Nhưng, để dự đoán về một quan sát trong tương lai (trường hợp 1), hãy nhớ rằng chúng ta cần phương sai của ; có phương sai và được coi là độc lập với . Sử dụng một số đại số đơn giản, điều này dẫn đến các khoảng tin cậy sau:
CI cho một phản hồi trong tương lai cho :
CI cho phản hồi trung bình đã cho :
Trong đó là một thống kê t với bậc tự do ở định lượng .
Hy vọng rằng điều này làm cho nó rõ ràng hơn một chút tại sao khoảng dự đoán luôn rộng hơn và sự khác biệt cơ bản giữa hai khoảng là gì. Ví dụ này được điều chỉnh từ Faraway, Mô hình tuyến tính với R, Sec. 4.1.
Câu trả lời ngắn:
Một khoảng dự đoán là một khoảng liên quan đến một biến ngẫu nhiên chưa được quan sát (dự báo).
Khoảng tin cậy là một khoảng liên quan đến một tham số và là một khái niệm thường xuyên.
Kiểm tra câu trả lời đầy đủ ở đây từ Rob Hyndman, người tạo ra gói dự báo trong R.
Câu trả lời này dành cho những độc giả không thể hiểu đầy đủ các câu trả lời trước đó. Hãy thảo luận về một ví dụ cụ thể. Giả sử bạn cố gắng dự đoán cân nặng của mọi người từ chiều cao, giới tính (nam, nữ) và chế độ ăn uống (tiêu chuẩn, ít carb, ăn chay). Hiện tại, có hơn 8 tỷ người trên Trái đất. Tất nhiên, bạn có thể tìm thấy nhiều ngàn người có cùng chiều cao và hai thông số khác nhưng cân nặng khác nhau. Trọng lượng của chúng khác nhau một cách điên cuồng vì một số trong số chúng bị béo phì và những người khác có thể bị đói. Hầu hết những người đó sẽ ở đâu đó ở giữa.
Một nhiệm vụ là dự đoán trọng số trung bình của tất cả những người có cùng giá trị của cả ba biến giải thích. Ở đây chúng tôi sử dụng khoảng tin cậy. Một vấn đề khác là dự báo trọng lượng của một số người cụ thể. Và chúng ta không biết hoàn cảnh sống của cá nhân đó. Ở đây khoảng dự đoán phải được sử dụng. Nó được tập trung xung quanh cùng một điểm, nhưng nó phải rộng hơn nhiều so với khoảng tin cậy.