"Dự đoán" và "ước tính" đôi khi thực sự được sử dụng thay thế cho nhau trong văn bản phi kỹ thuật và chúng dường như hoạt động tương tự nhau, nhưng có một sự khác biệt rõ ràng giữa chúng trong mô hình chuẩn của một vấn đề thống kê. Công cụ ước tính sử dụng dữ liệu để đoán tham số trong khi người dự đoán sử dụng dữ liệu để đoán ở một giá trị ngẫu nhiên không phải là một phần của tập dữ liệu. Đối với những người không quen thuộc với "tham số" và "giá trị ngẫu nhiên" nghĩa là gì trong thống kê, phần sau đây cung cấp giải thích chi tiết.
Trong mô hình chuẩn này, dữ liệu được giả sử để tạo thành một quan sát (có thể là đa biến) của một biến ngẫu nhiên có phân phối chỉ được biết là nằm trong một tập hợp phân phối có thể có, "trạng thái tự nhiên". Công cụ ước tính là một thủ tục toán học gán cho từng giá trị có thể của một số thuộc tính của trạng thái tự nhiên , chẳng hạn như trung bình . Do đó, một ước tính là một phỏng đoán về trạng thái thực sự của tự nhiên. Chúng ta có thể cho biết mức độ ước tính tốt như thế nào bằng cách so sánh với . X t x t ( x ) θ μ ( θ ) t ( x ) μ ( θ )xX txt ( x )θμ(θ)t(x)μ(θ)
Một công cụ dự đoán liên quan đến việc quan sát độc lập một biến ngẫu nhiên có phân phối liên quan đến trạng thái thực của tự nhiên. Một dự đoán là một dự đoán về một giá trị ngẫu nhiên khác. Chúng ta có thể nói như thế nào tốt một dự đoán cụ thể là chỉ bằng cách so sánh với giá trị thực hiện bởi . Chúng tôi hy vọng rằng trung bình thỏa thuận sẽ tốt (theo nghĩa là tính trung bình trên tất cả các kết quả có thể và đồng thời trên tất cả các giá trị có thể có của ).Z p ( x ) Z x Zp(x)Zp(x)Zx Z
Bình phương tối thiểu bình thường gắn liền với ví dụ tiêu chuẩn. Dữ liệu bao gồm các cặp liên kết các giá trị của biến phụ thuộc với giá trị của biến độc lập. Trạng thái tự nhiên được chỉ định bởi ba tham số , và : nó nói rằng mỗi giống như một bản vẽ độc lập từ một phân phối bình thường với trung bình và độ lệch chuẩn . , và là các tham số (số) được cho là cố định và không có giá trị. Quan tâm tập trung vàoy i x i α β σ y i α + β x i σ α β σ α β ( α , β ) α α β β α β(xi,yi)yTôixTôiαβσyTôiα+βxTôiσαβσα (đánh chặn) và (độ dốc). Ước tính OLS, được viết , theo nghĩa là có xu hướng gần với và có xu hướng gần với , bất kể giá trị thật (nhưng chưa biết) của và có thể là gì .β( α^, β^)α^αβ^βαβ
Dự đoán OLS bao gồm quan sát một giá trị mới của biến phụ thuộc được liên kết với một số giá trị của biến độc lập. có thể hoặc không thể nằm trong số trong tập dữ liệu; đó là phi vật chất. Một dự đoán trực giác tốt là giá trị mới này có thể gần với . Dự đoán tốt hơn cho biết mức độ gần của giá trị mới có thể (chúng được gọi là khoảng dự đoán ). Chúng giải thích cho việc và không chắc chắn (vì chúng phụ thuộc về mặt toán học vào các giá trị ngẫu nhiênx x x i α + β x α β ( y i ) σ Y ( x ) σ α + β xZ= Y( x )xxxTôiα^+ β^xα^β^(yi) ), không được biết đến nhất định (và do đó phải được ước tính), cũng như giả định rằng có phân phối bình thường với độ lệch chuẩn và có nghĩa là ( lưu ý sự vắng mặt của bất kỳ chiếc mũ!).σY(x)σα+βx
Đặc biệt lưu ý rằng dự đoán này có hai nguồn không chắc chắn riêng biệt : độ không đảm bảo trong dữ liệu dẫn đến độ không đảm bảo về độ dốc ước tính, đánh chặn và độ lệch chuẩn còn lại ( σ ); Ngoài ra, có sự không chắc chắn về giá trị của Y ( x ) sẽ xảy ra. Sự không chắc chắn bổ sung này - bởi vì Y ( x ) là ngẫu nhiên - đặc trưng cho các dự đoán. Một dự đoán có thể trông giống như một ước tính (sau khi tất cả, α + β x ước tính α(xi,yi)σY(x)Y(x)α^+β^x :-) và thậm chí có thể có cùng một công thức toán học ( p ( x ) đôi khi có thể giống với t ( x ) ), nhưngnó sẽ đi kèm với độ không chắc chắn lớn hơn ước tính.α+βxp(x)t(x)
Ở đây, trong ví dụ về OLS, chúng ta thấy rõ sự khác biệt: ước tính đoán các tham số (là các số cố định nhưng không xác định), trong khi dự đoán đoán giá trị của một đại lượng ngẫu nhiên. Nguồn gốc của sự nhầm lẫn tiềm năng là dự đoán thường được xây dựng dựa trên các tham số ước tính và thậm chí có thể có cùng công thức như một công cụ ước tính.
Trong thực tế, bạn có thể phân biệt các công cụ ước tính với các yếu tố dự đoán theo hai cách:
mục đích : một người ước tính tìm cách biết một tính chất của trạng thái tự nhiên thực sự, trong khi một dự đoán tìm cách đoán kết quả của một biến ngẫu nhiên; và
độ không đảm bảo : một yếu tố dự đoán thường có độ không đảm bảo lớn hơn so với ước lượng liên quan, do độ không đảm bảo được thêm vào trong kết quả của biến ngẫu nhiên đó. Do đó, các công cụ dự đoán được chứng minh bằng tài liệu tốt và thường được đi kèm với các dải không chắc chắn - khoảng dự đoán - rộng hơn các dải không chắc chắn của các công cụ ước tính, được gọi là khoảng tin cậy. Một đặc điểm đặc trưng của các khoảng dự đoán là chúng có thể (theo giả thuyết) co lại khi tập dữ liệu tăng lên, nhưng chúng sẽ không co lại về độ rộng bằng không - sự không chắc chắn trong kết quả ngẫu nhiên là "không thể giảm được" - trong khi độ rộng của khoảng tin cậy sẽ có xu hướng thu nhỏ về 0, tương ứng với trực giác của chúng tôi rằng độ chính xác của ước tính có thể trở nên tốt tùy ý với lượng dữ liệu đủ.
Khi áp dụng điều này để đánh giá khoản lỗ đầu tư tiềm năng, trước tiên hãy xem xét mục đích: bạn có muốn biết bạn thực sự có thể mất bao nhiêu cho khoản đầu tư này (hoặc rổ đầu tư cụ thể này ) trong một khoảng thời gian nhất định hay bạn thực sự chỉ đoán là gì tổn thất dự kiến (có lẽ trong một vũ trụ đầu tư lớn, có lẽ)? Cái trước là dự đoán, cái sau là ước tính. Sau đó xem xét sự không chắc chắn. Câu trả lời của bạn sẽ thay đổi như thế nào nếu bạn có nguồn lực gần như vô hạn để thu thập dữ liệu và thực hiện phân tích? Nếu nó trở nên rất chính xác, có lẽ bạn đang ước tính lợi tức dự kiến của khoản đầu tư, trong khi nếu bạn vẫn không chắc chắn về câu trả lời, bạn đang đưa ra dự đoán.
Do đó, nếu bạn vẫn không chắc chắn mình đang đối phó với loài động vật nào, hãy hỏi người ước tính / người dự đoán của bạn: nó có khả năng sai đến mức nào và tại sao? Bằng cả hai tiêu chí (1) và (2) bạn sẽ biết bạn có gì.