Cách tính độ lệch chuẩn 2D, với giá trị trung bình 0, giới hạn bởi các giới hạn


10

Vấn đề của tôi là như sau: Tôi thả 40 quả bóng cùng một lúc từ một điểm nhất định, cách sàn nhà vài mét. Các quả bóng lăn, và đến phần còn lại. Sử dụng thị giác máy tính, tôi tính toán trọng tâm khối lượng trong mặt phẳng XY. Tôi chỉ quan tâm đến khoảng cách từ tâm khối lượng đến mỗi quả bóng, được tính bằng hình học đơn giản. Bây giờ, tôi muốn biết độ lệch chuẩn một phía từ trung tâm. Vì vậy, tôi có thể biết rằng một số lượng bóng nhất định nằm trong bán kính một tiêu chuẩn, nhiều bóng hơn trong bán kính 2 * std, v.v. Làm cách nào để tính độ lệch chuẩn một phía? Một cách tiếp cận thông thường sẽ nói rằng một nửa số quả bóng nằm ở "phía tiêu cực" có nghĩa là 0. Điều này tất nhiên không có ý nghĩa trong thí nghiệm này. Tôi có phải đảm bảo rằng các quả bóng phù hợp với phân phối tiêu chuẩn không? Cảm ơn bạn đã giúp đỡ.

Câu trả lời:


13

Để mô tả mức độ phân tán 2D xung quanh tâm, bạn chỉ muốn khoảng cách bình phương (gốc)

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

Trong công thức này, là tọa độ điểm và trọng tâm của chúng (điểm trung bình) là( ˉ x , ˉ y ) .(xi,yi),i=1,2,,n(x¯,y¯).


Câu hỏi yêu cầu phân phối khoảng cách. Khi các quả bóng có phân phối đẳng hướng đẳng hướng xung quanh tâm của chúng - đó là một giả định hợp lý và tiêu chuẩn - khoảng cách bình phương tỷ lệ thuận với phân bố chi bình phương với hai bậc tự do (một cho mỗi tọa độ). Đây là hệ quả trực tiếp của một định nghĩa về phân phối chi bình phương là tổng bình phương của các biến thông thường tiêu chuẩn độc lập, bởi vì là sự kết hợp tuyến tính của các biến thiên bình thường độc lập với kỳ vọng Viết phương sai chung củaE[xi- ˉ x ]=n-1

xix¯=n1nxiji1nxj
xiσ2E[(xi- ˉ x )2]=Var(xi- ˉ x )=( n - 1
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xinhư , Giả định của bất đẳng hướng là có cùng phân phối với và độc lập với chúng, do đó, một kết quả giống hệt nhau cho phân phối của . Điều này thiết lập hằng số tỷ lệ: bình phương của các khoảng cách có phân phối chi bình phương với hai bậc tự do, được chia tỷ lệ theo .σ2yjxi(yj- ˉ y )2n-1
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

Thử nghiệm nghiêm trọng nhất của các phương trình này là trường hợp , khi đó phân số khác nhiều nhất với . Bằng cách mô phỏng thử nghiệm, cả và , và ghi đè lên biểu đồ của khoảng cách bình phương với các phân phối chi bình phương tỷ lệ (màu đỏ), chúng tôi có thể xác minh lý thuyết này.n - 1n=2 1n=2n=40n1n1n=2n=40

Nhân vật

Mỗi hàng hiển thị cùng một dữ liệu: bên trái trục x là logarit; bên phải nó hiển thị khoảng cách bình phương thực tế. Giá trị thực của cho các mô phỏng này được đặt thành .1σ1

Các kết quả này dành cho 100.000 lần lặp với và 50.000 lần lặp với . Các thỏa thuận giữa biểu đồ và mật độ chi bình phương là tuyệt vời.n=2n=40


Mặc dù chưa được biết nhưng có thể ước tính theo nhiều cách khác nhau. Chẳng hạn, khoảng cách bình phương trung bình phải là lần giá trị trung bình của , là . Ví dụ, với , ước tính là lần khoảng cách bình phương trung bình. Do đó, ước tính sẽ là với khoảng cách RMS. Sử dụng các giá trị của phân phối sau đó chúng ta có thể nói rằng:σ2n1nσ2χ222n=40σ24039/2σ40/78χ22

  • Khoảng 39% khoảng cách sẽ nhỏ hơn , vì 39% phân phối nhỏ hơn .39/40σ^χ221

  • Khoảng 78% khoảng cách sẽ nhỏ hơn lần , vì 78% phân phối nhỏ hơn .339/40σ^χ223

Và như vậy, đối với bất kỳ nhiều bạn quan tâm để sử dụng thay cho hoặc . Để kiểm tra, trong các mô phỏng cho vẽ trước đó, tỷ lệ thực tế của khoảng cách bình phương nhỏ hơn lần là3 n = 40 1 , 2 , ... , 10 n - 113n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Tỷ lệ lý thuyết là

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

Thỏa thuận là tuyệt vời.


Đây là Rmã để tiến hành và phân tích các mô phỏng.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
Cảm ơn bạn đã trả lời rất toàn diện. Tôi hoàn toàn không thể hiểu làm thế nào công thức RMS có thể mô tả độ lệch chuẩn mà không chia cho số lượng bóng. Nếu bạn so sánh nó với http://en.wikipedia.org/wiki/Root-mean-sapes_deviation_(bioinformatics họ đã chia tổng cho N. Nếu tổng này được chia cho N hoặc N-1 (vì 40 quả bóng chỉ là một lựa chọn từ một quần thể bóng?)
K_scheduler

Sau khi thực hiện các tính toán một lần nữa, có vẻ như sqrt (SDx ^ 2 + SDy ^ 2) là những gì tôi đang theo đuổi. Điều này sẽ cho tôi một bán kính cho một vòng tròn chứa tất cả các quả bóng với xác suất 65%, phải không?
K_scheduler

Đó là một công thức tương đương cho RMS, nhưng giá trị 65% là không chính xác, như được giải thích trong câu trả lời này.
whuber

2
@nali Tất cả những điểm đó được thực hiện rõ ràng trong câu trả lời của tôi ở đây.
whuber

4
@nali Bài viết của bạn ở đây vượt ra ngoài giới hạn về sự thô lỗ và các cuộc tấn công hominem quảng cáo của họ . Mặc dù tôi không lo lắng về việc bị coi là không biết gì hoặc ngu ngốc, nhưng với tư cách là người điều hành trang web này, tôi phải lo lắng về việc giữ cho bài diễn văn được công khai và do đó không thể chịu đựng được sức sống mà bạn đang đăng. Theo đó, tôi đã xóa bình luận mới nhất của bạn. Nếu tôi thấy những bình luận từ bạn là thô lỗ tương tự, đối với bất kỳ ai, tôi sẽ xóa chúng mà không cần thông báo thêm và tôi (hoặc người kiểm duyệt khác) sẽ thực hiện các bước ngay lập tức để hạn chế tương tác của bạn trên trang web này.
whuber

4

Tôi nghĩ rằng bạn có một số điều một chút bối rối. Đúng là khoảng cách không thể âm, nhưng điều đó không ảnh hưởng đến việc tính toán độ lệch chuẩn. Mặc dù điều đó có nghĩa là phân phối khoảng cách không thể chính xác bình thường, nhưng nó vẫn có thể gần; nhưng ngay cả khi nó khác xa bình thường, vẫn có độ lệch chuẩn.

Ngoài ra, không có độ lệch chuẩn "một phía" - bạn có thể nghĩ đến các bài kiểm tra giả thuyết (có thể là một mặt hoặc hai mặt). Trong tiêu đề của bạn, bạn nói trung bình là 0, nhưng khoảng cách trung bình sẽ không là 0 (trừ khi các quả bóng nằm trong một chồng cao 40 quả bóng!) Và bạn nói có giới hạn - có thể có giới hạn, nếu các quả bóng được thả vào một căn phòng sau đó họ không thể ở xa trung tâm hơn khoảng cách đến bức tường gần nhất. Nhưng trừ khi một số quả bóng nảy vào tường, điều đó sẽ không ảnh hưởng đến mọi thứ.

Vì vậy, một khi bạn có 40 khoảng cách bạn tính độ lệch chuẩn (và trung bình, trung bình, phạm vi liên dải, v.v.) bằng các phương pháp tiêu chuẩn. Bạn cũng có thể tạo các ô khoảng cách (ví dụ: ô bình thường lượng tử, ô hình hộp) để xem nó có được phân phối bình thường không (nếu đó là điều đáng quan tâm).


Cảm ơn Peter, tôi đã không thể hiện chính xác. Hãy để tôi cố gắng làm rõ: Hãy tưởng tượng cảnh từ trên cao. Bạn tính khoảng cách trung bình, nó sẽ được minh họa như một vòng tròn quanh tâm khối lượng (khoảng cách trung bình = bán kính). Bây giờ, độ lệch +/- std từ điều này sẽ mang lại một vòng tròn nhỏ hơn và một vòng tròn lớn hơn. Tôi không muốn biết độ lệch chuẩn của khoảng cách trung bình đến tâm khối lượng, mà là độ lệch chuẩn từ tâm khối lượng ra bên ngoài. Nói cách khác, trong phạm vi bán kính từ tâm khối lượng là 68,2% (một độ lệch chuẩn) của các quả bóng nằm.
K_scheduler

Ồ được thôi. Sau đó, tôi nghĩ rằng đây không phải là một vấn đề thống kê mà là một vấn đề toán học; tìm thấy 68,2% sẽ rơi ở đâu ... Tôi quên câu trả lời nhưng nó liên quan đến . π
Peter Flom

Bạn có thể đúng trong câu trả lời đầu tiên của bạn. Từ những gì tôi đã tìm thấy, sử dụng độ lệch chuẩn xuyên tâm nên thực hiện thủ thuật. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler

1

Đã được một thời gian kể từ khi điều này được hỏi, nhưng câu trả lời cho câu hỏi là đây là bản phân phối 2D có tên là bản phân phối Rayleigh. Ở đây, giả định là hệ số hình dạng Rayleigh bằng cả độ lệch chuẩn của tọa độ X và Y. Trong thực tế, giá trị của hệ số hình dạng sẽ được tính từ trung bình gộp của độ lệch chuẩn của X và Y.

bắt đầu bằng và

XN(μx,σx2)
YN(μy,σy2)

sử dụng phân phối bivariant bình thường.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

dịch sang điểm và giả sử .

(μx,μy)
ρ=0

Đồng thời giả sử rằng vì vậy hãy thay thế cả hai bằng

σx2=σy2
σ2

sau đó phân phối 2 chiều được biểu thị bằng bán kính quanh điểm được gọi là phân phối Rayleigh .

(μx,μy)

PDF(r;σ)=rσ2exp(r22σ2)
trong đó và
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Tất nhiên điều này là để phân phối liên tục. Đối với một mẫu chỉ 40 quả bóng, không có giải pháp chính xác. Bạn cần thực hiện Phân tích Monte Carlo với mẫu 40 quả bóng. Taylor, MS & Grubbs, Frank E. (1975). "Các phân phối xác suất gần đúng cho mức chênh lệch cực lớn" đã tìm thấy các ước tính cho phân phối Chi và log-normal cho phù hợp với phân phối của một mẫu.


Chỉnh sửa - Mặc dù nghi ngờ của Wuber, tỷ lệ lý thuyết mà anh ta tính toán là:

0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,969 0,9817 0,9889 0,9933

Từ hàm CDF, các giá trị Sigma tích lũy cho r (tính bằng sigmas) bằng với phạm vi từ:

0-1, 0-2, 0-3, ..., 0-10

Chúng tôi:

0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933


Cảm ơn bạn đã đặt tên cho phân phối. Tuy nhiên, do (1) không phân biệt giữa tham số của phân phối và ước tính của tham số đó xuất phát từ dữ liệu, (2) không nêu các giả định (mạnh) cần thiết về phân phối bóng và (3) do mơ hồ, bạn có nguy cơ độc giả đánh lạc hướng. Thật vậy, không rõ tham chiếu của "cái này" của bạn là gì: nó có phải là sự phân phối vị trí của các quả bóng không? (Số) Sự phân bố của trung tâm đại chúng? (Có, nhưng với thông số tỷ lệ khác với độ lệch chuẩn của các quả bóng.) Bạn có muốn làm rõ câu trả lời của mình không?
whuber

điền vào các khoảng trống ....
MaxW

Cảm ơn bạn đã làm rõ, Max. Như một kiểm tra đơn giản về tính chính xác của câu trả lời của bạn, hãy xem xét một quả bóng thay vì . Câu trả lời của bạn dường như khẳng định sự phân bố khoảng cách giữa quả bóng này và tâm khối lượng của tất cả các quả bóng là phân phối Rayleigh. Thật không may, trong trường hợp này khoảng cách luôn luôn bằng không. (Câu hỏi mô tả cụ thể nó là "khoảng cách từ tâm khối lượng đến mỗi quả bóng, được tính bằng hình học đơn giản.") Điều đó cho thấy câu trả lời của bạn có thể sai trong mọi trường hợp, kể cả đối với quả bóng. 404040
whuber

Sự phân phối là về trung tâm của khối lượng.
MaxW

CDF được thiết lập cho một quả bóng tất nhiên. Từ CDF, 39% các quả bóng sẽ rơi trong vòng tròn bán kính, 86% trong vòng 2σ và 99% trong vòng 3σ.
MaxW

-1

Phân phối bình thường, cả giá trị dương và âm, sẽ có ý nghĩa nếu bạn nhận ra rằng phân phối bình thường này là cho bán kính hoặc "khoảng cách từ centroid". Biến khác, góc, là ngẫu nhiên và được phân phối đồng đều từ 0-pi


Bán kính, không bao giờ có thể âm, chắc chắn sẽ không có phân phối Bình thường!
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.