Tổng diện tích bên dưới hàm mật độ xác suất là 1 - - so với cái gì?


20

Về mặt khái niệm, tôi nắm được ý nghĩa của cụm từ "tổng diện tích bên dưới tệp PDF là 1". Điều đó có nghĩa là cơ hội của kết quả trong tổng số khả năng là 100%.

Nhưng tôi không thể thực sự hiểu nó từ quan điểm "hình học". Ví dụ, nếu trong PDF, trục x biểu thị chiều dài, thì tổng diện tích bên dưới đường cong sẽ không lớn hơn nếu x được đo bằng mm thay vì km?

Tôi luôn cố gắng hình dung khu vực bên dưới đường cong sẽ trông như thế nào nếu hàm được làm phẳng thành một đường thẳng. Chiều cao (vị trí trên trục y) của dòng đó có giống với bất kỳ tệp PDF nào không, hoặc nó sẽ có giá trị phụ thuộc vào khoảng trên trục x mà hàm được xác định?


Bạn có thể thay đổi tỷ lệ trục x từ km sang mm nhưng số tiền đó sẽ là bao nhiêu? Bạn vẫn sẽ có cùng một hình ảnh chính xác và thêm sáu số không cho các đơn vị ở trục x . Bạn có thể phóng to hoặc thu nhỏ nếu muốn, nhưng điều đó sẽ không thay đổi hình ảnh. Trong khi đó, nếu đường cong pdf là một đường thẳng nằm ngang (ngụ ý phân phối đồng đều), vị trí của nó trên trục y không phụ thuộc vào các đơn vị của trục x mà chỉ phụ thuộc vào độ dài của khoảng trên trục x . Không chắc nó hữu ích như thế nào đối với bạn, nhưng đối với tôi ý tưởng phóng to và thu nhỏ giúp dễ hiểu hơn.
Richard Hardy

2
Điều đó dường như là đúng. Nhưng đó là loại sử dụng kính lúp (thừa nhận là kỳ lạ) phóng đại theo hướng ngang 1000 và đồng thời co lại theo tỷ lệ dọc. Nhưng bản chất của bức tranh sẽ không thay đổi nếu bạn chỉ thay đổi tỷ lệ.
Richard Hardy

2
Câu hỏi này đối với tôi có vẻ giống như câu hỏi (theo một cách khác) và được trả lời tại stats.stackexchange.com/questions/4220/ Lỗi .
whuber

1
.... Công bằng mà nói, tôi sẽ nói câu trả lời của Silverfish cũng có ích và sẽ đến vào lúc thứ hai.
TheChymera

2
@amoeba Một hướng trả lời hoàn toàn khác có thể tập trung vào thực tế rằng các tệp PDF là dẫn xuất của CDF, do đó, khu vực dưới bản PDF chỉ đơn giản là giá trị giới hạn của CDF - rõ ràng là một đơn vị, bất kể đơn vị được sử dụng. Tôi đã cố gắng đưa vào một phần ngắn về vấn đề này nhưng cảm thấy câu trả lời của tôi đã đủ dài (và bên cạnh đó, chìa khóa cho vấn đề của OP dường như là vấn đề đơn vị, mà cách tiếp cận CDF thay vì xoay quanh).
Cá bạc

Câu trả lời:


14

Hàm mật độ xác suất được đo bằng tỷ lệ phần trăm trên mỗi đơn vị đo trục x của bạn. Giả sử tại một điểm nhất định x0 PDF của bạn bằng 1000. Điều này có nghĩa là xác suất của x0<x<x0+dx1000dx trong đódx bằng mét. Nếu bạn thay đổi đơn vị thành cm, thì xác suất không nên thay đổi trong cùng một khoảng thời gian, nhưng cùng một khoảng thời gian có hơn 100 cm so với mét, vì vậy1000dx=PDF(x0)100dx và giải quyết chúng tôi nhậnPDF(x0)=PDF(x0)100 . Có đơn vị xác suất (phần trăm) ít hơn 100 lần so với mỗi mét.


46

Nó có thể giúp bạn nhận ra rằng trục dọc được đo là mật độ xác suất . Vì vậy, nếu trục ngang được đo bằng km, thì trục tung được đo là mật độ xác suất "trên km". Giả sử chúng ta vẽ một phần tử hình chữ nhật trên một lưới như vậy, rộng 5 "km" và cao 0,1 "mỗi km" (mà bạn có thể thích viết là "km - 1 "). Diện tích của hình chữ nhật này là 5 km x 0,1 km - 1 = 0,5. Các đơn vị hủy bỏ và chúng tôi chỉ còn lại xác suất một nửa.11

Nếu bạn thay đổi đơn vị ngang thành "mét", bạn sẽ phải thay đổi đơn vị dọc thành "mỗi mét". Hình chữ nhật bây giờ sẽ rộng 5000 mét và có mật độ (chiều cao) là 0,0001 mỗi mét. Bạn vẫn còn xác suất một nửa. Bạn có thể bị nhiễu loạn bởi sự kỳ lạ của hai biểu đồ này trên trang so với nhau (không phải rộng hơn và ngắn hơn nhiều so với cái kia?), Nhưng khi bạn vẽ các ô, bạn có thể sử dụng bất cứ thứ gì quy mô bạn thích. Nhìn bên dưới để thấy sự kỳ lạ cần được tham gia.

Bạn có thể thấy hữu ích khi xem xét biểu đồ trước khi bạn chuyển sang các đường cong mật độ xác suất. Theo nhiều cách, chúng là tương tự nhau. Trục dọc của biểu đồ là mật độ tần số [trên mỗi đơn vị ]x và các khu vực đại diện cho tần số, một lần nữa bởi vì các đơn vị ngang và dọc hủy bỏ khi nhân. Đường cong PDF là một loại phiên bản liên tục của biểu đồ, với tổng tần số bằng một.

Một sự tương tự gần hơn nữa là biểu đồ tần số tương đối - chúng tôi nói rằng biểu đồ như vậy đã được "chuẩn hóa", do đó các phần tử khu vực hiện đại diện cho tỷ lệ của tập dữ liệu gốc của bạn thay vì tần số thô và tổng diện tích của tất cả các thanh là một. Độ cao hiện tại là mật độ tần số tương đối [trên mỗi đơn vị ]x . Nếu biểu đồ tần số tương đối có một thanh chạy dọc xcác giá trị từ 20 km đến 25 km (vì vậy chiều rộng của thanh là 5 km) và có mật độ tần số tương đối là 0,1 trên mỗi km, sau đó thanh đó chứa 0,5 phần trăm dữ liệu. Điều này tương ứng chính xác với ý tưởng rằng một mục được chọn ngẫu nhiên từ bộ dữ liệu của bạn có xác suất 50% nằm trong thanh đó. Lập luận trước đây về tác động của các thay đổi trong các đơn vị vẫn được áp dụng: so sánh tỷ lệ dữ liệu nằm trong thanh 20 km đến 25 km với tỷ lệ trong thanh 20.000 mét đến 25.000 mét cho hai ô này. Bạn cũng có thể xác nhận một cách hợp lý rằng các khu vực của tất cả các thanh tổng hợp thành một trong cả hai trường hợp.

Relative frequency histograms with different units

Tôi có thể có ý gì khi tuyên bố rằng PDF là "phiên bản liên tục của biểu đồ"? Chúng ta hãy xem một dải nhỏ dưới một đường cong mật độ xác suất, cùng giá trị trong khoảng [ x , x + δ x ] , vì vậy dải là δ x rộng và chiều cao của đường cong là một khoảng không đổi f ( x ) . Chúng ta có thể vẽ một thanh có chiều cao đó, có diện tích f ( x )x[x,x+δx]δxf(x) đại diện cho xác suất gần đúng của việc nằm trong dải đó.f(x)δx

Làm thế nào chúng ta có thể tìm thấy khu vực dưới đường cong giữa x = b ? Chúng ta có thể chia nhỏ khoảng đó thành các dải nhỏ và lấy tổng diện tích của các thanh, f ( x )x=ax=b , tương ứng với xác suất xấp xỉ nằm trong khoảng [ a , b ] . Chúng tôi thấy rằng đường cong và các thanh không thẳng hàng chính xác, do đó có một lỗi trong xấp xỉ của chúng tôi. Bằng cách làm cho δ x nhỏ hơn và nhỏ hơn cho mỗi thanh, chúng tôi lấp đầy khoảng bằng các thanh hẹp hơn và hẹp hơn, cóf ( x )f(x)δx[a,b]δx cung cấp ước tính tốt hơn về diện tích.f(x)δx

Để tính diện tích chính xác, thay vì giả sử không đổi trên mỗi dải, chúng tôi đánh giá tích phân b a f ( x ) d x , và điều này tương ứng với xác suất thực sự nằm trong khoảng [ a , b ] . Tích hợp trên toàn bộ đường cong cho tổng diện tích (nghĩa là tổng xác suất), vì cùng một lý do là tổng các diện tích của tất cả các thanh của biểu đồ tần số tương đối cho tổng diện tích (tức là tổng tỷ lệ) của một. Tích hợp tự nó là một loại phiên bản liên tục của việc lấy một khoản tiền.f(x)abf(x)dx[a,b]

enter image description here

Mã R cho các ô

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

bạn đóng đinh nó với hai dòng đầu tiên, nhưng phần còn lại cũng tốt như vậy.
PatrickT

2
@PatrickT Cảm ơn - kinh nghiệm giảng dạy cho thấy rằng đôi khi bạn phải thử một vài điều trước khi đồng xu giảm, bởi vì những người học khác nhau (hoặc người đọc) đến với các cấp độ kiến ​​thức khác nhau. Hai dòng đầu tiên sẽ thuyết phục bất kỳ độc giả nào biết phân tích thứ nguyên (ví dụ nếu nghiên cứu về khoa học vật lý hoặc kỹ thuật) nhưng tôi hy vọng các lô sắp xếp phần còn lại! Theo kinh nghiệm của tôi, phương pháp biểu đồ hoạt động tốt cho những sinh viên đã gặp họ trước đây; khoảng cách giữa "mật độ tần số tương đối" và "mật độ xác suất" là dễ dàng hơn để cầu hơn . f(x)=F(x)
Cá bạc

1
@Silverfish: Đây là lần đầu tiên tôi thấy ai đó sử dụng thuật ngữ "penny giọt" trong tiếng Anh!
Mehrdad

1
Biểu đồ đầu tiên trông giống như ai đó lật con chim :)
Aksakal

1
@Aksakal Ooust. Tôi đã không nhận thấy điều đó. Phải nhớ không sử dụng ví dụ đó trong lớp mà không có một vài sửa đổi. (Trên cùng một dòng, khi tạo ra một vấn đề cần giải quyết trên bảng, có một số con số nhất định như 69 tôi cố gắng tránh xuất hiện. Kinh nghiệm là khó thắng.)
Silverfish

7

Bạn đã có hai câu trả lời, với một câu trả lời xuất sắc của Silverfish , tuy nhiên tôi cảm thấy rằng một minh họa có thể hữu ích ở đây vì bạn đã hỏi về hình học và "tưởng tượng" cho mình những chức năng đó.

Hãy bắt đầu với một ví dụ đơn giản về phân phối Bernoulli :

f(x)={pif x=1,1pif x=0.

enter image description here

Vì các giá trị là rời rạc nên không có "đường cong" mà chỉ có hai điểm, tuy nhiên ý tưởng là tương tự nhau: nếu bạn muốn biết tổng xác suất (khu vực dưới đường cong), bạn phải tổng hợp xác suất của cả hai kết quả có thể xảy ra:

p+(1p)=1

p1p

xxf(x)x1x11#{xi}=N#{xi}/N=1N

enter image description here

xx. Vì vậy, nếu có những điểm bạn không thể nhìn thấy chúng cho dù bạn có "phóng to" bao nhiêu đi chăng nữa, vì luôn có thể có vô số điểm nhỏ hơn giữa bất kỳ điểm nào. Do đó, ở đây chúng ta thực sự có một đường cong - bạn có thể tưởng tượng rằng nó được tạo thành từ vô số "điểm". Bạn có thể tự hỏi: làm thế nào để tính tổng số xác suất vô hạn ..? Trên biểu đồ bên dưới đường cong màu đỏ là một tệp PDF bình thường và các hộp đen là biểu đồ của một số giá trị được rút ra từ bản phân phối. Vì vậy, biểu đồ biểu đồ đã đơn giản hóa phân phối của chúng tôi với số lượng "hộp" hữu hạn với chiều rộng nhất địnhvà nếu bạn tính tổng chiều cao của các ô nhân với chiều rộng của chúng, bạn sẽ kết thúc với một khu vực dưới đường cong - hoặc diện tích của tất cả các hộp. Chúng tôi sử dụng các khu vực thay vì các điểm ở đây vì mỗi hộp là một bản tóm tắt về vô số "điểm" được đóng gói trong hộp.

enter image description here

f(x)2.53=0.5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0.511

11f(x).

ab33

abf(x)dx

f(x)dx

Bạn cũng hỏi về phân phối "phẳng" (đồng phục) :

enter image description here

<a<b<11εnhỏ ... Vì vậy, đây là một trường hợp phức tạp và bạn có thể tưởng tượng nó theo nghĩa trừu tượng. Lưu ý rằng, như Ilmari Karonen nhận thấy trong bình luận, đây là một ý tưởng trừu tượng không thực sự có thể trong thực tế (xem bình luận bên dưới). Nếu sử dụng phân phối như vậy trước, nó sẽ là một ưu tiên không phù hợp .

1


1
1XY(-,)|X|<|Y|

Bạn nói đúng, "phức tạp" là quá không chính thức. Tôi sẽ sửa chữa sau này.
Tim

0

Ý tưởng chính sau đây đã được đề cập trong một bình luận, nhưng không phải trong một câu trả lời hiện có ...

Một cách để hiểu về các thuộc tính của PDF là xem xét rằng PDF và CDF có liên quan đến nhau bằng cách tích hợp (tính toán) - và CDF có đầu ra đơn điệu biểu thị giá trị xác suất từ ​​0 đến 1.

Các unitless tích hợp tổng diện tích dưới đường cong PDF không bị ảnh hưởng do các đơn vị trục X.

Nói một cách đơn giản là ...

Area = Width x Height

Nếu trục X trở nên lớn hơn, bằng số, do thay đổi đơn vị, thì trục Y phải trở nên nhỏ hơn bởi một yếu tố tuyến tính tương ứng .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.