Các thanh lỗi về xác suất có ý nghĩa gì không?


25

Mọi người thường nói một số sự kiện có 50-60% cơ hội xảy ra. Đôi khi tôi thậm chí sẽ thấy mọi người đưa ra các thanh lỗi rõ ràng về các bài tập xác suất. Những tuyên bố này có bất kỳ ý nghĩa hay chúng chỉ là một sự châm biếm ngôn ngữ của sự khó chịu khi chọn một số cụ thể cho một cái gì đó vốn không thể biết được?


1
Không phải khung Có lẽ gần đúng trong lý thuyết học tính toán đã làm điều đó, thường đưa ra một ràng buộc về tỷ lệ lỗi của một bộ phân loại có xác suất 1δ ? Nếu đó là một khái niệm vô nghĩa, tôi nghi ngờ những người CoLT (cực kỳ thông minh) đó đã không phát hiện ra nó!
Dikran Marsupial

5
@DikranMarsupial Các lỗi trong học tập PAC không nằm ở chính xác suất (mà câu hỏi này hỏi về), mà là về dữ liệu. Nghĩa là, chúng ta gọi là đầu ra của một thuật toán Có lẽ Khoảng đúng nếu chúng ta có thể chứng minh rằng với một probablity của 1δ , câu trả lời là trong một khoảng cách của ε giá trị đích thực.
Thằn lằn rời rạc

@Discretelizard nhưng trong cài đặt phân loại, không phải là bị ràng buộc về tỷ lệ lỗi (đó là xác suất xảy ra lỗi)? Lâu rồi tôi mới xem CoLT!
Dikran Marsupial

1
@DikranMarsupial Trong cài đặt chung cho PAC-learning, phần 'gần đúng' đo 'độ lớn' của lỗi, không phải là 'khả năng'. Một động lực cho giới hạn PAC là để có được phân tích chi tiết hơn so với rủi ro dự kiến. Tôi không nghĩ điều này thay đổi trong cài đặt phân loại, mặc dù để PAC có ý nghĩa, phải có một "khoảng cách" (hoặc hàm mất) được xác định giữa các lớp. (trong trường hợp đặc biệt hơn của phân loại nhị phân, chỉ có một cách để gây ra lỗi, vì vậy phần gần đúng không có ý nghĩa trong trường hợp đó)
Thằn lằn rời rạc

Câu trả lời:


36

Sẽ không có nghĩa gì nếu bạn nói về xác suất đã biết , ví dụ với đồng xu công bằng, xác suất ném đầu là 0,5 theo định nghĩa. Tuy nhiên, trừ khi bạn đang nói về ví dụ trong sách giáo khoa, xác suất chính xác không bao giờ được biết, chúng tôi chỉ biết nó xấp xỉ.

Câu chuyện khác nhau là khi bạn ước tính xác suất từ ​​dữ liệu, ví dụ: bạn quan sát thấy 13 vé trúng trong số 12563 vé bạn đã mua, vì vậy từ dữ liệu này, bạn ước tính xác suất là 13/12563. Đây là điều bạn ước tính từ mẫu, vì vậy không chắc chắn, vì với mẫu khác nhau, bạn có thể quan sát giá trị khác nhau. Ước tính không chắc chắn không phải là về xác suất, mà là xung quanh ước tính của nó.

Một ví dụ khác là khi xác suất không cố định, mà phụ thuộc vào các yếu tố khác. Nói rằng chúng ta đang nói về xác suất chết trong tai nạn xe hơi. Chúng ta có thể xem xét xác suất "toàn cầu", một giá trị duy nhất bị gạt ra ngoài tất cả các yếu tố trực tiếp và gián tiếp dẫn đến tai nạn xe hơi. Mặt khác, bạn có thể xem xét xác suất khác nhau như thế nào trong dân số do các yếu tố rủi ro.

Bạn có thể tìm thấy nhiều ví dụ khác trong đó bản thân xác suất được coi là biến ngẫu nhiên , vì vậy chúng thay đổi sau đó được cố định.


1
Nếu việc tính toán ước tính xác suất được thực hiện thông qua một cái gì đó như hồi quy logistic cũng sẽ không tự nhiên khi cho rằng các "thanh lỗi" này đề cập đến các khoảng dự đoán? (Tôi đang hỏi chủ yếu như là một sự làm rõ cho điểm đầu tiên bạn nêu ra, rõ ràng là +1)
usεr11852 nói Phục hồi Monic

1
@ usεr11852 khoảng tin cậy, khoảng dự đoán, vùng mật độ cao nhất, v.v., tùy thuộc vào trường hợp thực tế. Tôi đã đưa ra câu trả lời rất rộng, vì chúng tôi có xác suất "khác nhau" trong nhiều tình huống và chúng khác nhau theo những cách khác nhau. Ngoài ra, bạn có thể giải thích chúng khác nhau trong các kịch bản khác nhau.
Tim

1
Ngay cả xác suất "đã biết" cũng có thể là tốc ký cho các thanh lỗi rất nhỏ. Người ta có thể chỉ ra rằng một lần lật đồng xu có lẽ là 50.00001% - 49.99999% với các thử nghiệm đủ để có được các thanh lỗi đủ nhỏ loại trừ 50.00000%. Không có luật vật lý nào đề xuất tỷ lệ cược phải chính xác ngay cả đối với một đồng tiền bất đối xứng, nhưng các thanh lỗi quá nhỏ đối với bất kỳ ai quan tâm.
Hạt nhân Wang

5
@NucleWang điều này được tính bởi việc OP sử dụng cụm từ "đồng tiền công bằng". Theo định nghĩa, P (ĐẦU) cho một đồng tiền công bằng là 0,5. Một đồng tiền công bằng là một cấu trúc toán học. Tôi sẽ đề nghị chỉnh sửa thay thế "theo định luật vật lý" bằng "theo định nghĩa" để nhấn mạnh điểm này.
De Novo hỗ trợ GoFundMonica

2
@DeNovo cũng áp dụng tương tự với đồng tiền vật lý stat.columbia.edu/~gelman/research/published/diceRev2.pdf , nhưng vâng tôi đã nói "công bằng" không bắt đầu cuộc thảo luận này
Tim

23

Một minh họa có liên quan nhất từ ​​xkcd :

enter image description here

với chú thích liên quan:

... kích thước hiệu ứng là 1,68 (KTC 95%: 1,56 (KTC 95%: 1,52 (KTC 95%: 1,504 (KTC 95%: 1,494 (KTC 95%: 1,488 (KTC 95%: 1,485 (KTC 95%: 1,482 (KTC 95%: 1.481 (KTC 95%: 1.4799 (KTC 95%: 1.4791 (KTC 95%: 1.4784 ...


Điều này có nghĩa là các thanh lỗi về xác suất là dư thừa?
BalinKingOfMoria

12
Nói đùa, điều này có nghĩa là độ chính xác của các thanh lỗi là không chắc chắn và việc đánh giá độ không đảm bảo là không chắc chắn, trong một hồi quy vô hạn.
Tây An

7
Đó là lý do tại sao tôi cho rằng bức tranh có liên quan và kết nối sâu sắc với khó khăn cơ bản (và thách thức đẹp) trong việc đánh giá lỗi trong thống kê.
Tây An

14
Con số đó minh họa độ không đảm bảo meta , có thể liên quan đến độ không đảm bảo về xác suất do chính độ không đảm bảo là thước đo độ rộng của phân phối xác suất, nhưng bài đăng của bạn không giải thích điều này theo bất kỳ cách nào; trong thực tế, truyện tranh XKCD cho thấy nó có liên quan đến việc truyền lỗi (đó là sai), điều mà câu hỏi không có.
gerrit

6

Tôi biết về hai cách giải thích. Là người đầu tiên đã được nói bởi Tim: Chúng tôi có quan sát X thành công ra khỏi Y thử nghiệm, vì vậy nếu chúng tôi tin rằng các thử nghiệm được IID chúng ta có thể ước tính xác suất của quá trình này ở X/Y với một số quán bar lỗi, ví dụ như về trật tự 1/Y .

Thứ hai liên quan đến "xác suất bậc cao" hoặc không chắc chắn về quy trình tạo. Ví dụ: giả sử tôi có một đồng xu trong tay được sản xuất bởi một người chơi cờ bạc, người có xác suất 0.5 đã tạo ra một đồng tiền 60%, và với xác suất 0.5 đã tạo ra một đồng xu 40%. Dự đoán tốt nhất của tôi là 50% cơ hội mà đồng xu xuất hiện, nhưng với các thanh lỗi lớn: cơ hội "thật" là 40% hoặc 60%.

Nói cách khác, bạn có thể tưởng tượng việc chạy thử nghiệm một tỷ lần và lấy phần thành công X/Y (thực tế là phần giới hạn). Điều này có ý nghĩa, ít nhất là từ góc độ Bayes, ví dụ như khoảng tin cậy 95% xung quanh con số đó. Trong ví dụ trên, với kiến ​​thức hiện tại, đây là [0.4,0.6] . Đối với một đồng tiền thật, có thể đó là [0.47,0.53] hoặc một cái gì đó. Để biết thêm, xem:

Chúng ta có cần xác suất bậc cao hơn và, nếu vậy, chúng có nghĩa là gì? Ngọc trai Judea. UAI 1987. https://arxiv.org/abs/1304.2716


4

Tất cả các phép đo là không chắc chắn.

Do đó, bất kỳ phép đo xác suất cũng không chắc chắn.

Độ không đảm bảo này trong phép đo xác suất có thể được biểu thị trực quan bằng thanh không chắc chắn. Lưu ý rằng thanh không chắc chắn thường được gọi là thanh lỗi. Điều này là không chính xác hoặc ít nhất là sai lệch, bởi vì nó cho thấy sự không chắc chắn và không có lỗi (lỗi là sự khác biệt giữa phép đo và sự thật chưa biết, vì vậy lỗi không xác định được; độ không đảm bảo là thước đo độ rộng của mật độ xác suất sau khi lấy đo lường).

Một chủ đề liên quan là siêu không chắc chắn . Độ không đảm bảo mô tả độ rộng của hàm phân phối xác suất posteriori và trong trường hợp độ không đảm bảo Loại A (độ không đảm bảo được ước tính bằng các phép đo lặp lại), không thể tránh khỏi độ không đảm bảo về độ không đảm bảo; Các nhà đo lường đã nói với tôi rằng thực tiễn đo lường ra lệnh mở rộng độ không đảm bảo trong trường hợp này (IIRC, nếu độ không đảm bảo được ước tính bằng độ lệch chuẩn của N phép đo lặp lại, người ta nên nhân độ lệch chuẩn kết quả với NN2 ), về cơ bản là một siêu không chắc chắn.


3

Làm thế nào một thanh lỗi trên một xác suất phát sinh? Giả sử chúng ta có thể gán prob(A|Θ=θ,I) . Nếu I ngụ ý Θ=θ0 , sau đó prob(Θ=θ|I)=δθθ0

prob(A|I)=θprob(A|Θ=θ,I)δθθ0=prob(A|Θ=θ0,I)

ΘIprob(Θ=θ|I)prob(A|I)AΘ=θΘA

prob(A,Θ=θ|I)=prob(A|Θ=θ,I)prob(Θ=θ|I)prob(A|I)=θprob(A|Θ=θ,I)prob(Θ=θ|I)

Do đó, việc thêm các thanh lỗi vào một xác suất cũng giống như thêm độ không đảm bảo cho các tham số phiền toái, có thể sửa đổi xác suất, nhưng không thể làm cho nó không chắc chắn.


1

Có rất nhiều dịp bạn muốn có xác suất xác suất. Ví dụ, bạn đã làm việc trong lĩnh vực an toàn thực phẩm và sử dụng mô hình phân tích sinh tồn để ước tính khả năng bào tử botulinum sẽ nảy mầm (và do đó tạo ra độc tố chết người) như là một chức năng của các bước chuẩn bị thực phẩm (ví dụ như nấu) và thời gian ủ / nhiệt độ (cf giấy). Các nhà sản xuất thực phẩm sau đó có thể muốn sử dụng mô hình đó để đặt ngày "sử dụng" an toàn để rủi ro ngộ độc của người tiêu dùng là nhỏ. Tuy nhiên, mô hình phù hợp với mẫu đào tạo hữu hạn, vì vậy thay vì chọn ngày sử dụng mà xác suất nảy mầm nhỏ hơn, giả sử 0,001, bạn có thể muốn chọn ngày sớm hơn (với giả định mô hình hóa) bạn có thể chắc chắn 95% xác suất nảy mầm nhỏ hơn 0,001. Đây có vẻ là một điều khá tự nhiên để làm trong một khung cảnh Bayes.


0

tl; dr - Bất kỳ dự đoán một lần nào từ một người đoán cụ thể đều có thể được giảm xuống một xác suất duy nhất. Tuy nhiên, đó chỉ là trường hợp tầm thường; cấu trúc xác suất có thể có ý nghĩa bất cứ khi nào có một số liên quan theo ngữ cảnh ngoài chỉ một xác suất duy nhất.


Cơ hội để một đồng xu ngẫu nhiên hạ cánh trên Heads là 50%.

Không quan trọng nếu đó là một đồng tiền công bằng hay không; Ít nhất là không phải với tôi. Bởi vì trong khi đồng xu có thể có thành kiến ​​mà một người quan sát có kiến ​​thức có thể sử dụng để đưa ra dự đoán sáng suốt hơn, tôi phải đoán tỷ lệ cược 50%.

Bảng xác suất của tôi là:

Thủ trưởngĐuôi50%50%.
But what if I tell someone that the coin has 50% odds, and then they have to make a decision about what happens on two coin flips? Lacking further information, they'd have to default to guessing that coin flips are independent events, arriving at:
First flipSecondflipHeadsTailsHeads25%25%Tails25%25%,
from which they might conclude
Same sidetwiceHeadsand Tails50%50%.
However, the coin flips aren't independent events; they're connected by a common causal agent, describable as the coin's bias.

If we assume a model in which a coin has a constant probability of Heads, PHeads, then it might be more precise to say

HeadsTailsPHeads1PHeads.
From this, someone might think
First flipSecondflipHeadsTailsHeadsPHeads2PHeads(1PHeads)TailsPHeads(1PHeads)(1PHeads)2,
from which they might conclude
Same sidetwiceHeadsand Tails12PHeads(1PHeads)2PHeads(1PHeads).
If I had to guess PHeads, then I'd still go with 50%, so it'd seem like this would reduce to the prior tables.

So it's the same thing, right?

Turns out that the odds of getting two-Heads-or-Tails is always greater than getting one-of-each, except in the special case of a perfectly fair coin. So if you do reduce the table, assuming that the probability itself captures the uncertainty, your predictions would be absurd when extended.

That said, there's no "true" coin flip. We could have all sorts of different flipping methodologies that could yield very different results and apparent biases. So, the idea that there's a consistent value of PHeads would also tend to lead to errors when we construct arguments based on that premise.

So if someone asks me the odds of a coin flip, I wouldn't say 50%", despite it being my best guess. Instead, I'd probably say probably about 50%".

And what I'd be trying to say is roughly:

If I had to make a one-off guess, I'd probably go with about 50%. However, there's further context that you should probably ask me to clarify if it's important.


People often say some event has a 50-60% chance of happening.

If you sat down with them and worked out all of their data, models, etc., you might be able to generate a better number, or, ideally, a better model that'd more robustly capture their predictive ability.

But if you split the difference and just call it 55%, that'd be like assuming PHeads=50% in that you'd basically be running with a quick estimate after having truncated the higher-order aspects of it. Not necessarily a bad tactic for a one-off quick estimate, but it does lose something.


0

I would argue that only the error bars matter, but in the given example, the whole thing is probably almost meaningless.
The example lends itself to interpretaton as a confidence interval, in which the upper and lower bounds of some degree of certainty are the range of probability. This proposed answer will deal with that interpretation. Majority source -- https://www.amazon.com/How-Measure-Anything-Intangibles-Business-ebook/dp/B00INUYS2U


The example says that to a given level of confidence, the answer is unlikely to be above 60% and equally unlikely to be below 50%. This is so convenient a set of numbers that it resembles "binning", in which a swag of 55% is further swagged to a +/- 5% range. Familiarly round numbers are immediately suspect.
One way to arrive at a confidence interval is to decide upon a chosen level of confidence -- let's say 90% -- and we allow that the thing could be either lower or higher than our estimate, but that there is only a 10% chance the "correct" answer lies outside of our interval. So we estimate a higher bound such that "there is only a 1/20 chance of the proper answer being greater than this upper bound", and do similar for the lower bound. This can be done through "calibrated estimation", which is one form of measurement, or though other forms of measurement.
Regardless, the point is to A) admit from the beginning that there is an uncertainty associated with our uncertainty, and B) avoid throwing up our hands at the thing, calling it a mess, and simply tacking on 5% above and below. The benefit is that an approach rigorous to a chosen degree can yield results which are still mathematically relevant, to a degree which can be stated mathematically: "There is a 90% chance that the correct answer lies between these two bounds..." This is a properly formed confidence interval (CI), anmd it can be used in further calculations.
What's more, by assiging it a confidence, we can calibrate the method used to arrive at the estimate, by comparing predictions vs results and acting on what we find to improve the estimation method. Nothing can be made perfect, but many things can be made 90% effective.
Note that the 90% CI has nothing to do with the fact that the example given in the OP contains 10% of the field and omits 90%.
What is the wingspan of a Boeing 747-100, to a 90% CI? Well, I'm 95% sure that it is not more than 300 ft, and I am equally sure that it is not less than 200 ft. So off the top of my head, I'll give you a 90% CI of 200-235 feet.
NOTE that there is no "central" estimate. CIs are not formed by guesses plus fudge factors. This is why I say that the error bars probably matter more than a given estimate.


That said, an interval estimate (everything above) is not necessarily better than a point estimate with a properly calulated error (which is beyond my recall at this point -- I recall only that it's frequently done incorrectly). I am just saying that many estimates expressed as ranges -- and I'll hazard that most ranges with round numbers -- are point+fudge rather than either interval or point+error estimates.


One proper use of point+error:

"A machine fills cups with a liquid, and is supposed to be adjusted so that the content of the cups is 250 g of liquid. As the machine cannot fill every cup with exactly 250.0 g, the content added to individual cups shows some variation, and is considered a random variable X. This variation is assumed to be normally distributed around the desired average of 250 g, with a standard deviation, σ, of 2.5 g. To determine if the machine is adequately calibrated, a sample of n = 25 cups of liquid is chosen at random and the cups are weighed. The resulting measured masses of liquid are X1, ..., X25, a random sample from X."

Key point: in this example, both the mean and the error are specified/assumed, rather than estimated/measured.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.