Sự khác biệt giữa ước tính và dự đoán là gì?


46

Ví dụ: tôi có dữ liệu tổn thất trong quá khứ và tôi đang tính toán các lượng tử cực trị (Giá trị rủi ro hoặc tổn thất tối đa có thể xảy ra). Kết quả thu được là để ước tính tổn thất hay dự đoán chúng? Nơi nào người ta có thể vẽ đường? Tôi bị bối rối.


4
Liên quan chặt chẽ là một cuộc thảo luận về sự khác biệt giữa khoảng tin cậy và khoảng dự đoán tại stats.stackexchange.com/questions/16493 .
whuber

Câu trả lời:


64

"Dự đoán" và "ước tính" đôi khi thực sự được sử dụng thay thế cho nhau trong văn bản phi kỹ thuật và chúng dường như hoạt động tương tự nhau, nhưng có một sự khác biệt rõ ràng giữa chúng trong mô hình chuẩn của một vấn đề thống kê. Công cụ ước tính sử dụng dữ liệu để đoán tham số trong khi người dự đoán sử dụng dữ liệu để đoán ở một giá trị ngẫu nhiên không phải là một phần của tập dữ liệu. Đối với những người không quen thuộc với "tham số" và "giá trị ngẫu nhiên" nghĩa là gì trong thống kê, phần sau đây cung cấp giải thích chi tiết.

Trong mô hình chuẩn này, dữ liệu được giả sử để tạo thành một quan sát (có thể là đa biến) của một biến ngẫu nhiên có phân phối chỉ được biết là nằm trong một tập hợp phân phối có thể có, "trạng thái tự nhiên". Công cụ ước tính là một thủ tục toán học gán cho từng giá trị có thể của một số thuộc tính của trạng thái tự nhiên , chẳng hạn như trung bình . Do đó, một ước tính là một phỏng đoán về trạng thái thực sự của tự nhiên. Chúng ta có thể cho biết mức độ ước tính tốt như thế nào bằng cách so sánh với . X t x t ( x ) θ μ ( θ ) t ( x ) μ ( θ )xX txt(x)θμ(θ)t(x)μ(θ)

Một công cụ dự đoán liên quan đến việc quan sát độc lập một biến ngẫu nhiên có phân phối liên quan đến trạng thái thực của tự nhiên. Một dự đoán là một dự đoán về một giá trị ngẫu nhiên khác. Chúng ta có thể nói như thế nào tốt một dự đoán cụ thể là chỉ bằng cách so sánh với giá trị thực hiện bởi . Chúng tôi hy vọng rằng trung bình thỏa thuận sẽ tốt (theo nghĩa là tính trung bình trên tất cả các kết quả có thể đồng thời trên tất cả các giá trị có thể có của ).Z p ( x ) Z x Zp(x)Zp(x)Zx Z

Bình phương tối thiểu bình thường gắn liền với ví dụ tiêu chuẩn. Dữ liệu bao gồm các cặp liên kết các giá trị của biến phụ thuộc với giá trị của biến độc lập. Trạng thái tự nhiên được chỉ định bởi ba tham số , và : nó nói rằng mỗi giống như một bản vẽ độc lập từ một phân phối bình thường với trung bình và độ lệch chuẩn . , và là các tham số (số) được cho là cố định và không có giá trị. Quan tâm tập trung vàoy i x i α β σ y i α + β x i σ α β σ α β ( α , β ) α α β β α β(xi,yi)yixiαβσyiα+βxiσαβσα (đánh chặn) và (độ dốc). Ước tính OLS, được viết , theo nghĩa là có xu hướng gần với và có xu hướng gần với , bất kể giá trị thật (nhưng chưa biết) của có thể là gì .β(α^,β^)α^αβ^βαβ

Dự đoán OLS bao gồm quan sát một giá trị mới của biến phụ thuộc được liên kết với một số giá trị của biến độc lập. có thể hoặc không thể nằm trong số trong tập dữ liệu; đó là phi vật chất. Một dự đoán trực giác tốt là giá trị mới này có thể gần với . Dự đoán tốt hơn cho biết mức độ gần của giá trị mới có thể (chúng được gọi là khoảng dự đoán ). Chúng giải thích cho việc và không chắc chắn (vì chúng phụ thuộc về mặt toán học vào các giá trị ngẫu nhiênx x x i α + β x α β ( y i ) σ Y ( x ) σ α + β xZ=Y(x)xxxiα^+β^xα^β^(yi) ), không được biết đến nhất định (và do đó phải được ước tính), cũng như giả định rằng có phân phối bình thường với độ lệch chuẩn và có nghĩa là ( lưu ý sự vắng mặt của bất kỳ chiếc mũ!).σY(x)σα+βx

Đặc biệt lưu ý rằng dự đoán này có hai nguồn không chắc chắn riêng biệt : độ không đảm bảo trong dữ liệu dẫn đến độ không đảm bảo về độ dốc ước tính, đánh chặn và độ lệch chuẩn còn lại ( σ ); Ngoài ra, có sự không chắc chắn về giá trị của Y ( x ) sẽ xảy ra. Sự không chắc chắn bổ sung này - bởi vì Y ( x ) là ngẫu nhiên - đặc trưng cho các dự đoán. Một dự đoán có thể trông giống như một ước tính (sau khi tất cả, α + β x ước tính α(xi,yi)σY(x)Y(x)α^+β^x :-) và thậm chí có thể có cùng một công thức toán học ( p ( x ) đôi khi có thể giống với t ( x ) ), nhưngnó sẽ đi kèm với độ không chắc chắn lớn hơn ước tính.α+βxp(x)t(x)

Ở đây, trong ví dụ về OLS, chúng ta thấy rõ sự khác biệt: ước tính đoán các tham số (là các số cố định nhưng không xác định), trong khi dự đoán đoán giá trị của một đại lượng ngẫu nhiên. Nguồn gốc của sự nhầm lẫn tiềm năng là dự đoán thường được xây dựng dựa trên các tham số ước tính và thậm chí có thể có cùng công thức như một công cụ ước tính.

Trong thực tế, bạn có thể phân biệt các công cụ ước tính với các yếu tố dự đoán theo hai cách:

  1. mục đích : một người ước tính tìm cách biết một tính chất của trạng thái tự nhiên thực sự, trong khi một dự đoán tìm cách đoán kết quả của một biến ngẫu nhiên; và

  2. độ không đảm bảo : một yếu tố dự đoán thường có độ không đảm bảo lớn hơn so với ước lượng liên quan, do độ không đảm bảo được thêm vào trong kết quả của biến ngẫu nhiên đó. Do đó, các công cụ dự đoán được chứng minh bằng tài liệu tốt và thường được đi kèm với các dải không chắc chắn - khoảng dự đoán - rộng hơn các dải không chắc chắn của các công cụ ước tính, được gọi là khoảng tin cậy. Một đặc điểm đặc trưng của các khoảng dự đoán là chúng có thể (theo giả thuyết) co lại khi tập dữ liệu tăng lên, nhưng chúng sẽ không co lại về độ rộng bằng không - sự không chắc chắn trong kết quả ngẫu nhiên là "không thể giảm được" - trong khi độ rộng của khoảng tin cậy sẽ có xu hướng thu nhỏ về 0, tương ứng với trực giác của chúng tôi rằng độ chính xác của ước tính có thể trở nên tốt tùy ý với lượng dữ liệu đủ.

Khi áp dụng điều này để đánh giá khoản lỗ đầu tư tiềm năng, trước tiên hãy xem xét mục đích: bạn có muốn biết bạn thực sự có thể mất bao nhiêu cho khoản đầu tư này (hoặc rổ đầu tư cụ thể này ) trong một khoảng thời gian nhất định hay bạn thực sự chỉ đoán là gì tổn thất dự kiến (có lẽ trong một vũ trụ đầu tư lớn, có lẽ)? Cái trước là dự đoán, cái sau là ước tính. Sau đó xem xét sự không chắc chắn. Câu trả lời của bạn sẽ thay đổi như thế nào nếu bạn có nguồn lực gần như vô hạn để thu thập dữ liệu và thực hiện phân tích? Nếu nó trở nên rất chính xác, có lẽ bạn đang ước tính lợi tức dự kiến ​​của khoản đầu tư, trong khi nếu bạn vẫn không chắc chắn về câu trả lời, bạn đang đưa ra dự đoán.

Do đó, nếu bạn vẫn không chắc chắn mình đang đối phó với loài động vật nào, hãy hỏi người ước tính / người dự đoán của bạn: nó có khả năng sai đến mức nào và tại sao? Bằng cả hai tiêu chí (1) và (2) bạn sẽ biết bạn có gì.


Câu trả lời rất thú vị! Bạn có thể cung cấp cho chúng tôi một số tài liệu tham khảo về nó?
dùng1420303

2
@ user1420303 Đây là hai. (1) Kiefer, Giới thiệu về suy luận thống kê (1987), tr. 30. ("Một vấn đề dự đoán là một vấn đề trong đó quyết định không phải là một số thuộc tính của , mà là một số thuộc tính của một biến ngẫu nhiên ....") (2) Hahn & Meeker, Khoảng thời gian thống kê (1991) . Xem phần 2.3 để biết ví dụ và giải thích. F
whuber

+1. Tôi đã bắt gặp câu trả lời của bạn bởi vì tôi đang cố gắng tìm hiểu sự khác biệt về thuật ngữ giữa BLUE và BLUP trong các mô hình hỗn hợp, và tôi vẫn không chắc chắn mình có được nó. Trong trường hợp của một mô hình hỗn hợp , nơi chặn ngẫu nhiên u i ~ N ( 0 , σ 2 u ) , chúng tôi ước tính α , β , σ ,σ u . Sau đó chúng ta có thể dự đoán y . Sự khác biệt này tôi hiểu. Nhưng còn bạn thì saoy=α+βx+ui+ϵuiN(0,σu2) α,β,σ,σu y không Chúng được tính toán với BLUP, tức là với "công cụ dự đoán"; nhưng có vẻ như với n bất kỳ biến mất không chắc chắn, vì vậy không nên chúng ta nói rằng u tôi đượcước tính? uinui
amip nói phục hồi Monica

2
@amoeba Có thể hữu ích để hiểu tình huống này như là một mô hình phân cấp: ở một cấp độ của phân cấp là ngẫu nhiên (vì vậy các tuyên bố về nó sẽ là dự đoán ) trong khi ở cấp độ sau, nó đã được nhận ra và ước tính tiếp theo là có điều kiện hiện thực hóa (đưa ra tuyên bố về nó ước tính ). ui
whuber

2
@whuber Điểm quan trọng nhất mà bạn đã chỉ ra là các công cụ ước tính luôn nhằm mục đích xấp xỉ một đại lượng với bản chất không ngẫu nhiên / không ngẫu nhiên như các tham số trong mô hình SLR; các yếu tố dự đoán luôn nhằm mục đích xấp xỉ một đại lượng có tính chất ngẫu nhiên / ngẫu nhiên như biến phản ứng (bao gồm cả thuật ngữ lỗi) trong một mô hình SLR. Điểm này được đánh giá cao trong các tác phẩm đầu tiên của Rao.
Henry.L

8

Ước tính luôn luôn cho tham số chưa biết trong khi dự đoán là cho biến ngẫu nhiên.


5
Bạn dự đoán việc thực hiện một biến ngẫu nhiên trong khi bạn ước tính một tham số của biến ngẫu nhiên (ví dụ: giá trị dự kiến ​​của nó).
Richard Hardy

@CowboyTrader, tôi không biết đủ về ước tính mật độ hạt nhân để nhận xét về khiếu nại của bạn.
Richard Hardy

2

Không có sự khác biệt trong các mô hình. Thực sự có một sự khác biệt (nhẹ) trong hành động được thực hiện. Ước tính là hiệu chuẩn của mô hình xác suất của bạn bằng cách sử dụng dữ liệu ("học tập" theo thuật ngữ AI). Dự đoán là "đoán" của một quan sát trong tương lai. Giả sử việc "đoán" này dựa trên dữ liệu trong quá khứ - đây có thể là một trường hợp ước tính; chẳng hạn như dự đoán về chiều cao của người tiếp theo bạn sắp gặp bằng cách sử dụng ước tính chiều cao trung bình trong dân số. Lưu ý rằng, dự đoán đó không phải luôn luôn là một ví dụ của ước tính. Giới tính của người tiếp theo bạn sắp gặp, không phải là một thông số của dân số theo nghĩa cổ điển; Dự đoán giới tính, có thể cần một số ước tính, nhưng nó sẽ yêu cầu thêm một số ...

Trong trường hợp rủi ro giá trị, dự đoán và ước tính trùng khớp với tổn thất dự đoán của bạn , là kỳ vọng ước tính của tổn thất.


2
Bạn bắt đầu tốt với một sự phân biệt chính xác giữa ước tính và dự đoán, nhưng sau đó hai phần ba cuối cùng của câu trả lời lại xuất hiện để dự đoán nhầm lẫn với ước tính một lần nữa. Việc đưa ra ví dụ về giới trở nên khó hiểu hơn, bởi vì nó không liên quan đến sự khác biệt ban đầu (thực tế, nó vô lý, bởi vì bên dưới nó là một sự thay đổi của mô hình thống kê giữa bước ước tính và dự đoán).
whuber

0

Dự đoán là việc sử dụng hàm hồi quy mẫu để ước tính giá trị cho biến phụ thuộc dựa trên một số giá trị không quan sát được của biến độc lập.

Ước tính là quá trình hoặc kỹ thuật tính toán một tham số hoặc số lượng chưa biết của dân số.


3
12

0

Thông thường "ước tính" được dành riêng cho các tham số và "dự đoán" dành cho các giá trị. Tuy nhiên, đôi khi sự khác biệt bị mờ đi, ví dụ bạn có thể đã thấy một cái gì đó như "ước tính giá trị ngày mai" thay vì "dự đoán giá trị vào ngày mai".

Giá trị rủi ro (VaR) là một trường hợp thú vị. VaR không phải là một tham số, nhưng chúng tôi không nói "dự đoán VaR." Chúng tôi nói "ước tính VaR." Tại sao?

Lý do trong đó VaR không phải là số lượng ngẫu nhiên NẾU bạn biết phân phối, VÀ bạn cần biết phân phối để tính VaR. Vì vậy, nếu bạn đang sử dụng phương pháp VaR tham số, thì trước tiên bạn ước tính các tham số của phân phối sau đó tính VaR. Nếu bạn đang sử dụng VaR không theo tỷ lệ, thì bạn ước tính trực tiếp VaR tương tự như cách bạn ước tính các tham số. Về vấn đề này, nó tương tự như lượng tử.

Mặt khác, số tiền thua lỗ là một giá trị ngẫu nhiên. Do đó, nếu bạn được yêu cầu dự báo tổn thất, bạn sẽ dự đoán chúng không ước tính. Một lần nữa, đôi khi chúng ta nói "ước tính" mất mát. Vì vậy, dòng bị mờ, như tôi đã viết trước đó.


Bạn nói VaR không phải là một tham số, nhưng tôi tự hỏi nếu đó thực sự là trường hợp. VaR là lượng tử (có điều kiện hoặc không điều kiện) của phân phối biến phụ thuộc. Như vậy, nó trông giống như một tham số của phân phối cho tôi, hoặc ít nhất là một chức năng của một số tham số cơ bản khác, dường như không thay đổi bản chất. Nó không giống như một nhận thức của một biến ngẫu nhiên.
Richard Hardy

Ngoài ra, khi bạn nói rằng dự đoán là dành cho các giá trị, nó áp dụng cho các giá trị của các tham số cũng giống như thực hiện các biến ngẫu nhiên (cũng là các giá trị). Do đó, tôi đề nghị thay thế các giá trị bằng việc thực hiện các biến ngẫu nhiên; sau đó bạn sẽ có sự phân đôi mà bạn đang nhắm đến.
Richard Hardy

-3

Tôi tìm thấy các định nghĩa dưới đây giải thích nhiều hơn:

Ước tính là xấp xỉ tính toán của một kết quả. Kết quả này có thể là một dự báo nhưng không nhất thiết. Ví dụ, tôi có thể ước tính số lượng ô tô trên Cầu Cổng Vàng vào lúc 5 giờ chiều ngày hôm qua là 900 bằng cách giả sử ba làn đường đi về phía Marin có sức chứa, mỗi ô tô mất 30 feet và cây cầu dài 9000 feet ( 9000/30 x 3 = 900).

Phép ngoại suy là ước tính giá trị của một biến nằm ngoài phạm vi giá trị đã biết bằng cách giả sử rằng giá trị ước tính tuân theo một số mẫu từ các biến đã biết. Hình thức ngoại suy đơn giản và phổ biến nhất là ước tính xu hướng tuyến tính dựa trên dữ liệu đã biết. Các lựa chọn thay thế cho phép ngoại suy tuyến tính bao gồm phép ngoại suy đa thức và hình nón. Giống như ước tính, phép ngoại suy có thể được sử dụng để dự báo nhưng nó không giới hạn trong dự báo.

Dự đoán chỉ đơn giản là nói một cái gì đó về tương lai. Dự đoán thường tập trung vào kết quả và không phải là con đường dẫn đến kết quả đó. Ví dụ, tôi có thể dự đoán rằng vào năm 2050, tất cả các phương tiện sẽ được cung cấp động cơ điện mà không giải thích cách chúng tôi nhận được từ việc áp dụng thấp vào năm 2011 đến việc áp dụng đầy đủ vào năm 2050. Như bạn có thể thấy từ ví dụ trước, dự đoán không nhất thiết phải dựa trên dữ liệu.

Dự báo là quá trình thực hiện dự báo hoặc dự đoán. Các thuật ngữ dự báo và dự đoán thường được sử dụng thay thế cho nhau nhưng đôi khi dự báo được phân biệt với dự đoán trong đó dự báo thường cung cấp giải thích về các con đường dẫn đến kết quả. Ví dụ, dự báo áp dụng phương tiện điện có thể bao gồm con đường áp dụng phương tiện điện hoàn toàn theo mô hình áp dụng hình chữ S trong đó có ít ô tô chạy điện trước năm 2025, điểm uốn xảy ra vào năm 2030 với việc áp dụng nhanh chóng và phần lớn ô tô là điện 2040.

Ước tính, ngoại suy, dự đoán và dự báo không phải là các thuật ngữ toàn diện lẫn nhau và toàn diện. Dự báo dài hạn tốt cho các vấn đề phức tạp thường cần sử dụng các kỹ thuật khác ngoài ngoại suy để tạo ra kết quả chính đáng. Dự báo và dự đoán cũng có thể xảy ra mà không có bất kỳ loại ước tính tính toán nào.

xem liên kết định nghĩa1 định nghĩa2


2
Dự đoán không nhất thiết phải là về tương lai.
miura

đọc nó hoàn thành: Dự đoán chỉ đơn giản là nói điều gì đó về tương lai. Dự đoán thường tập trung vào kết quả và không phải là con đường dẫn đến kết quả đó.
sso

Có, nhưng kết quả không cần phải có trong tương lai. Bạn có thể, ví dụ, cũng dự đoán kết quả chưa biết trong quá khứ.
miura

1
Đây là một tài khoản hợp lý về cách các từ "ước tính" và "dự đoán" được sử dụng theo nghĩa phi kỹ thuật, phi thống kê . Như @miura đang đề xuất, rõ ràng từ các câu trả lời khác ở đây là những giác quan thông tục khác với các thống kê thông thường. Tôi thấy một đối số hợp lệ có lợi cho việc diễn giải câu hỏi ban đầu theo cách không thống kê. Tuy nhiên, cách giải thích đó đưa ra một giới hạn không thoải mái và không cần thiết bằng cách không cho phép "dự đoán" áp dụng cho các sự kiện trong quá khứ (đã hoàn thành) với kết quả không xác định.
whuber

Nếu bạn áp dụng nó cho bộ lọc Kalman phương sai tối thiểu qua ega và độ mịn phương sai tối thiểu có thể được sử dụng để khôi phục dữ liệu quan tâm từ các phép đo nhiễu. Các kỹ thuật được đề cập ở trên dựa vào các dự đoán trước một bước ... vì vậy, vẫn dự đoán trước một bước (tương lai) :)
sso
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.