Số tiền của các biến ngẫu nhiên bình thường


7

Xét một mẫu gồm n rvs bình thường độc lập. Tôi muốn xác định một cách có hệ thống để tính xác suất có tổng của một tập hợp con của chúng lớn hơn tổng của phần còn lại của rvs. Một ví dụ điển hình: Dân số cá. Trung bình: 10 kg, stv: 3 kg. Tôi cá lăm cá (n = 5). Xác suất có hai con cá nặng hơn ba con còn lại là bao nhiêu? Các bước có thể được thực hiện là tính toán đầu dò cho mọi tổ hợp cá và sau đó sử dụng công thức loại trừ bao gồm cho liên minh của chúng. Có gì thông minh hơn không? Lưu ý: nếu bốn con cá được coi là xác suất có hai con nặng hơn hai con kia thì nên là một con. Làm thế nào điều này có thể được tính toán ngay lập tức? Cảm ơn câu trả lời.


1
Bạn chắc chắn có thể làm mô phỏng.
Peter Flom

@whuber - Bạn đưa ra một câu trả lời tuyệt vời giả sử rằng chúng tôi có một ý tưởng cụ thể hai (hoặc chọn ngẫu nhiên hai). Vượt qua ban đầu của tôi khi đọc nghĩ rằng nó đã hỏi về việc có bất kỳ tập hợp con nào của 2 sao cho tổng đó lớn hơn số còn lại (bằng chứng là họ có 4 con cá thì xác suất sẽ là 1) trong trường hợp chúng tôi sẽ muốn xem xét sự phân phối của hai số lớn nhất so với phân phối của số còn lại và sẽ phải đi sâu vào thống kê đơn hàng. Mô phỏng cho thấy trong tình huống này xác suất là khoảng .464.
Dason

1
@Dason Cảm ơn bạn đã chỉ ra rằng: đó là một cách giải thích rất hợp lý và tôi đã không nghĩ ra. Nó cũng giải thích tại sao Peter đề xuất mô phỏng, bởi vì đó là một vấn đề phức tạp hơn nhiều. Tôi nghĩ bạn đã đúng về thống kê đơn hàng, bởi vì chúng ta có thể điều chỉnh lại vấn đề khi hỏi "cơ hội nào cho tổng giá trị lớn nhất của vượt quá tổng của nhỏ nhất?" Mặc dù chúng ta có thể viết ra giá trị dưới dạng tích phân, nhưng nói chung, nó đòi hỏi phải đánh giá bằng số và nhanh chóng trở nên phổ biến khi phát triển. k nnkn
whuber

1
@Manos - Nếu tổng 1 và 3 lớn hơn tổng 2, 4 và 5 ... thì tổng 1 và 2 sẽ lớn hơn tổng 3, 4 và 5 và cũng sẽ đáp ứng tiêu chí của bạn. Vì vậy, về mặt kiểm tra nếu có bất kỳ tập hợp con nào đáp ứng các tiêu chí, chúng ta chỉ cần kiểm tra xem k tổng trên có giá trị lớn hơn nk dưới cùng hay không.
Dason

1
Họ có thể. Nhưng là như whuber đề cập đến nó không phải là một vấn đề dễ dàng. Mô phỏng sẽ giúp bạn có được kết quả dễ dàng hơn nhiều cho bất kỳ tình huống cụ thể nào.
Dason

Câu trả lời:


7

Ví dụ của bạn cho thấy rằng không chỉ biến độc lập, chúng còn có cùng phân phối Bình thường. Đặt tham số của nó là (giá trị trung bình) và (phương sai) và giả sử tập hợp con bao gồm của các biến này. Chúng tôi cũng có thể lập chỉ mục các biến để là tập hợp con này.nX1,X2,,Xnμσ2kX1,,Xk

Câu hỏi yêu cầu tính toán cơ hội tổng của các biến đầu tiên bằng hoặc vượt quá tổng của phần còn lại:k

pn,k(μ,σ)=Pr(X1++XkXk+1++Xn)=Pr(Y0)

Ở đâu

Y=(X1++Xk)+(Xk+1++Xn).

Y là tổ hợp tuyến tính của các biến Bình thường độc lập và do đó có phân phối Bình thường - nhưng đó là biến nào? Quy luật của sự kỳ vọng và phương sai ngay lập tức cho chúng ta biết

E[Y]=kμ+(nk)μ=(n2k)μ

Var(Y)=kσ2+(nk)σ2=nσ2.

Do đó có phân phối chuẩn thông thường với chức năng phân phối từ đó câu trả lời là

Z=Y(n2k)μσn
Φ,

pn,k(μ,σ)=Pr(Y0)=Pr(Z(n2k)μσn)=Φ((n2k)μσn).

Trong câu hỏi, và từ đâun=5,k=2,μ=10,σ=3,

p5,2(10,3)=Φ((52(2))10310)0.0680186.


Sự khái quát

Ít cần thay đổi trong phân tích này ngay cả khi có các phân phối bình thường khác nhau hoặc thậm chí tương quan với nhau: bạn chỉ cần giả sử rằng chúng có phân phối Bình thường để đảm bảo kết hợp tuyến tính của chúng vẫn có phân phối Bình thường. Các tính toán được thực hiện theo cùng một cách và dẫn đến một công thức tương tự.Xin


Kiểm tra

Một bình luận đề nghị giải quyết điều này với mô phỏng. Mặc dù đó không phải là một giải pháp, nhưng đó là cách tốt để kiểm tra giải pháp một cách nhanh chóng. Do đó, Rchúng ta có thể thiết lập các đầu vào của mô phỏng theo một cách tùy ý như

n <- 5
k <- 2
mu <- 10
sigma <- 3
n.sim <- 1e6 # Simulation size
set.seed(17) # For reproducible results

và mô phỏng dữ liệu đó và so sánh các khoản tiền với hai dòng này:

x <- matrix(rnorm(n*n.sim, mu, sigma), ncol=n)
p.hat <- mean(rowSums(x[, 1:k]) >= rowSums(x[, -(1:k)]))

Các hậu xử lý bao gồm việc tìm kiếm phần của bộ dữ liệu mô phỏng trong đó một số tiền vượt quá khác và so sánh rằng với các giải pháp lý thuyết:

se <- sqrt(p.hat * (1-p.hat) / n.sim)
p <- pnorm(-(n-2*k)*mu / (sigma * sqrt(n)))
signif(c(Simulation=p.hat, Theory=p, `Z-score`=(p.hat-p)/se), 3)

Sản lượng trong trường hợp này là

Simulation     Theory    Z-score 
    0.0677     0.0680    -1.1900

Thỏa thuận này gần và điểm z tuyệt đối nhỏ cho phép chúng ta quy sự khác biệt cho các dao động ngẫu nhiên thay vì bất kỳ lỗi nào trong đạo hàm lý thuyết.


Chúng ta cũng có thể giả sử mà không mất tính tổng quát rằng ; Theo trực giác, chúng ta có thể tính toán mọi thứ theoσ=1μσ
Tích lũy

@Acccumulation Điều đó đúng và đó là một cách tốt để tiến hành. Thật vậy, thực tế này ngay lập tức từ việc quan sát rằng người ta có thể tùy ý đặt đơn vị đo lường sao cho mà không thay đổi vấn đề. Tôi thấy thuận tiện khi không phải giải thích điều này vì nó không đơn giản hóa việc phân tích. σ=1
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.