Giá trị phân phối xác suất vượt quá 1 có thể ổn không?


149

Trên trang Wikipedia về các trình phân loại Bayes ngây thơ , có dòng này:

p(height|male)=1.5789 (Phân phối xác suất trên 1 là OK. Đây là khu vực dưới đường cong chuông bằng 1.)

Làm thế nào một giá trị có thể ổn? Tôi nghĩ rằng tất cả các giá trị xác suất được thể hiện trong phạm vi . Hơn nữa, cho rằng có thể có một giá trị như vậy, làm thế nào giá trị đó thu được trong ví dụ hiển thị trên trang?0 p 1>10p1


2
Khi tôi thấy rằng tôi nghĩ nó có thể là chiều cao của hàm mật độ xác suất có thể là bất kỳ số dương nào miễn là khi nó được tích hợp trên bất kỳ khoảng nào, tích phân nhỏ hơn hoặc bằng 1. Wikipedia nên sửa mục đó.
Michael Chernick

16
Bởi vì điều này có thể giúp người đọc trong tương lai, tôi cung cấp một bản dịch hình học của phần chung của câu hỏi này: "Làm thế nào một hình có diện tích không vượt quá có thể kéo dài hơn theo bất kỳ hướng nào?" Cụ thể, hình dạng là một phần của nửa mặt phẳng phía trên giới hạn ở trên bởi biểu đồ của PDF và hướng trong câu hỏi là dọc. Trong cài đặt hình học (từ giải thích xác suất), thật dễ dàng để nghĩ ra các ví dụ, chẳng hạn như một hình chữ nhật của cơ sở không lớn hơn và chiều cao . 1 1 / 2 2111/22
whuber

bài viết Wikipedia bây giờ sử dụng chữ thường pcho mật độ xác suất và chữ hoa Pcho xác suất
Aprillion

Tôi sẽ để lại đây cho chàng trai tiếp theo: en.wikipedia.org/wiki/Dirac_delta_feft
Joshua

Đáng lưu ý rằng Hàm phân phối tích lũy (tích phân của PDF) không thể vượt lên trên 1. CDF trực quan hơn rất nhiều để sử dụng trong nhiều trường hợp.
hư hỏng 101

Câu trả lời:


167

Trang Wiki đó đang lạm dụng ngôn ngữ bằng cách coi con số này là một xác suất. Bạn đúng là không phải. Nó thực sự là một xác suất trên mỗi chân . Cụ thể, giá trị 1,5789 (đối với chiều cao 6 feet) ngụ ý rằng xác suất chiều cao giữa, giả sử, 5,99 và 6,01 feet gần với giá trị đơn vị sau:

1.5789[1/foot]×(6.015.99)[feet]=0.0316

d(height)

Mật độ xác suất của Bona fide có thể có các giá trị lớn tùy ý, thậm chí là vô hạn.

Phân phối gamma

3/21/5111

Phân phối Beta

1/2,1/10011


Giá trị 1,5789 / feet có được trong ví dụ đó bằng cách ước tính rằng chiều cao của con đực có phân phối bình thường với trung bình 5,855 feet và phương sai 3,50e-2 feet vuông. (Điều này có thể được tìm thấy trong một bảng trước.) Căn bậc hai của phương sai đó là độ lệch chuẩn, 0.18717 feet. Chúng tôi biểu thị lại 6 feet là số lượng SD từ trung bình:

z=(65.855)/0.18717=0.7747

Sự phân chia theo độ lệch chuẩn tạo ra một mối quan hệ

dz=d(height)/0.18717

Mật độ xác suất bình thường, theo định nghĩa, bằng

12πexp(z2/2)dz=0.29544 d(height)/0.18717=1.5789 d(height).

d(height)1.5789


Tôi lưu ý rằng ví dụ được đưa ra trên trang wiki đó sử dụng mật độ xác suất thay cho xác suất thực tế để tính toán cho hậu thế, có lẽ vì khía cạnh trên mỗi đơn vị là không cần thiết cho các mục đích so sánh nếu các đơn vị được so sánh là như nhau. Mở rộng điều này, nếu người ta không muốn giả sử tính quy tắc mà thay vào đó, người ta có dữ liệu theo kinh nghiệm có thể ước tính được mật độ, ví dụ ước tính mật độ hạt nhân, thì việc sử dụng đọc ở một giá trị nhất định trên trục x từ đó có hợp lệ không kde là đầu vào để tính toán hậu thế trong một phân loại vịnh ngây thơ, giả sử bằng nhau trên mỗi đơn vị?
babelproofreader

1
@babelproofreader Tôi tin rằng các hậu thế là những cập nhật của Bayes, thông qua dữ liệu đào tạo của các linh mục. Không rõ làm thế nào một kde có thể được hiểu tương tự, nhưng tôi không phải là chuyên gia trong lĩnh vực này. Câu hỏi của bạn đủ thú vị để bạn có thể xem xét đăng nó một cách riêng biệt.
whuber

Làm thế nào để bạn xác định được một sự khác biệt tốt là gì? Nếu bạn đã chọn chênh lệch 1 thay thế thì sao? xác suất sau đó sẽ lớn hơn 1? Xin lỗi vì sự nhầm lẫn của tôi ở đây. Bạn có thể giải thích?
fiacobelli

3
@tree Diện tích của một hình tam giác là một nửa tích của chiều dài cơ sở và chiều cao của nó.
whuber

1
@ user929304 Bạn có thể tham khảo bất kỳ sách giáo khoa lý thuyết nào hấp dẫn bạn: đây là một phần của các nguyên tắc cơ bản của xác suất và thống kê. Khái niệm đặc biệt này về mật độ xác suất được thảo luận độc đáo trong sách giáo khoa giới thiệu tốt hơn, như Freedman, Pisani, & Purves .
whuber

43

Đây là một lỗi phổ biến từ việc không hiểu sự khác biệt giữa các hàm khối lượng xác suất, trong đó biến là rời rạc và hàm mật độ xác suất, trong đó biến là liên tục. Xem phân phối xác suất là gì :

các hàm xác suất liên tục được xác định cho một số lượng điểm vô hạn trong một khoảng thời gian liên tục, xác suất tại một điểm luôn luôn bằng không. Xác suất được đo theo các khoảng, không phải điểm đơn lẻ. Nghĩa là, khu vực dưới đường cong giữa hai điểm khác biệt xác định xác suất cho khoảng đó. Điều này có nghĩa là chiều cao của hàm xác suất trên thực tế có thể lớn hơn một. Thuộc tính mà tích phân phải bằng một tương đương với thuộc tính cho các phân phối rời rạc rằng tổng của tất cả các xác suất phải bằng một.


14
NIST thường có thẩm quyền, nhưng ở đây về mặt kỹ thuật không chính xác (và không theo quy tắc để khởi động): có xác suất được xác định tại "số điểm vô hạn" không có nghĩa là "xác suất tại một điểm luôn luôn bằng không". Tất nhiên họ chỉ né tránh một sự xao lãng về các hồng y vô hạn, nhưng lý do ở đây là sai lệch. Sẽ tốt hơn cho họ chỉ cần bỏ qua câu đầu tiên trong trích dẫn.
whuber

23

[a,b]1/(ba)ba11/(ba)

[0,0.5]1/(0.50)=2[0,0.1]10


4

Tôi không biết liệu bài viết Wikipedia đã được chỉnh sửa sau các bài viết ban đầu trong chủ đề này hay chưa, nhưng hiện tại nó nói "Lưu ý rằng giá trị lớn hơn 1 ở đây có ổn không - đó là mật độ xác suất thay vì xác suất, bởi vì chiều cao là một biến liên tục. ", và ít nhất trong bối cảnh trước mắt này, P được sử dụng cho xác suất và p được sử dụng cho mật độ xác suất. Có, rất cẩu thả vì bài viết sử dụng p ở một số nơi có nghĩa là xác suất và ở những nơi khác là mật độ xác suất.

Quay lại câu hỏi ban đầu "Giá trị phân phối xác suất vượt quá 1 có được không?" Không, nhưng tôi đã thấy nó được thực hiện (xem đoạn cuối của tôi bên dưới).

Dưới đây là cách diễn giải xác suất> 1. Trước hết, lưu ý rằng mọi người có thể và thực hiện nỗ lực 150%, như chúng ta thường nghe trong thể thao và đôi khi làm việc https://www.youtube.com/watch?v=br_vSdAOHQQ . Nếu bạn chắc chắn điều gì đó sẽ xảy ra, đó là xác suất 1. Xác suất 1,5 có thể được hiểu là bạn chắc chắn 150% sự kiện sẽ xảy ra - giống như đưa ra nỗ lực 150%.

Và nếu bạn có thể có xác suất> 1, tôi cho rằng bạn có thể có xác suất <0. Xác suất âm có thể được hiểu như sau. Xác suất 0,001 có nghĩa là gần như không có cơ hội sự kiện nào xảy ra. Xác suất = 0 có nghĩa là "không có cách nào". Một xác suất âm, chẳng hạn như -1.2, tương ứng với "Bạn đang đùa".

PyPyPyPyPyPyPyPyđể tăng lên khoảng 1,8. Và đó là cách rào cản đoàn kết bị phá vỡ trong xác suất. Nhưng anh chàng không biết mình đã hoàn thành được kỳ tích tiên phong này cho đến khi tôi chỉ cho anh ta, anh ta vừa thực hiện các phép tính nhanh trên máy tính khoa học Casio kích thước thẻ tín dụng chạy bằng pin trong phòng hội nghị tối (không thể thực hiện được một máy tính chạy bằng năng lượng mặt trời). Điều đó sẽ giống như Chuck Yeager đi ra ngoài vào chủ nhật trong máy bay của anh ấy, và chỉ được thông báo nhiều tháng sau đó rằng anh ấy đã phá vỡ rào cản âm thanh.


Câu chuyện tuyệt vời. Bạn có thêm một số thông tin về điều này, như một trích dẫn?
Jay Schyler Raadt

1
@ Jay Schyler Raadt Điều này được ghi nhận tại stats.stackexchange.com/questions/4220/ ích , ha ha.
Mark L. Stone

0

Xf(x)f(x)dxf(x)f(height|male)f(height|male)dheight

XP(X[x,x+dx))=f(x)dxP(X[a,b])=abf(x)dxP(X=x)=P(X[x,x])=0


-1

Giá trị điểm tại một giá trị tham số cụ thể của biểu đồ mật độ xác suất sẽ là một khả năng, phải không? Nếu vậy, câu lệnh có thể được sửa bằng cách thay đổi P (chiều cao | nam) thành L (chiều cao | nam).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.