Khi dữ liệu có phân phối gaussian, có bao nhiêu mẫu sẽ đặc trưng cho nó?


12

Dữ liệu Gaussian được phân phối trong một chiều duy nhất yêu cầu hai tham số để mô tả nó (trung bình, phương sai) và có tin đồn rằng khoảng 30 mẫu được chọn ngẫu nhiên thường đủ để ước tính các tham số này với độ tin cậy cao. Nhưng điều gì xảy ra khi số lượng kích thước tăng lên?

Trong hai chiều (ví dụ: chiều cao, cân nặng), cần 5 tham số để chỉ định hình elip "phù hợp nhất". Trong ba chiều, giá trị này tăng lên 9 tham số để mô tả một ellipsoid và trong 4-D, nó cần 14 tham số. Tôi muốn biết liệu số lượng mẫu cần thiết để ước tính các tham số này cũng tăng với tốc độ tương đương, với tốc độ chậm hơn hay (xin vui lòng không!) Với tốc độ cao hơn. Vẫn tốt hơn, nếu có một quy tắc ngón tay cái được chấp nhận rộng rãi cho thấy có bao nhiêu mẫu được yêu cầu để mô tả phân phối gaussian trong một số kích thước nhất định, sẽ rất tốt để biết.

Nói chính xác hơn, giả sử chúng ta muốn xác định một ranh giới "phù hợp nhất" đối xứng tập trung tại điểm trung bình bên trong mà chúng ta có thể tin tưởng rằng 95% tất cả các mẫu sẽ rơi. Tôi muốn biết có bao nhiêu mẫu có thể tìm thấy các tham số để xấp xỉ ranh giới này (khoảng trong 1-D, hình elip trong 2-D, v.v.) với độ tin cậy cao (> 95%) và con số đó thay đổi như thế nào số lượng kích thước tăng.


3
Nếu không có một định nghĩa đủ chính xác về 'pin down', thực sự không thể trả lời câu hỏi này ngay cả đối với một Gaussian đơn biến.
Glen_b -Reinstate Monica

1
Làm thế nào về: có bao nhiêu mẫu để có ít nhất 95% tin tưởng rằng 95% tất cả các mẫu (nhưng chỉ 95% của tất cả các mẫu) sẽ nằm trong một khoảng xác định / ellipse / ellipsoid / hyperellipsoid?
omatai

1
Điều đó có nghĩa là ... 95% tất cả các mẫu sẽ nằm trong một khoảng cách xác định của giá trị trung bình. Có bao nhiêu mẫu được yêu cầu để xác định khoảng cách đó (khoảng thời gian / hình elip / hình elip / vv) với độ tin cậy 95% hoặc tốt hơn?
omatai

1
Ngay khi bạn có thêm một giá trị dữ liệu độc lập hơn các tham số (giá trị whence trong các kích thước ), bạn có thể tạo ra vùng tin cậy 95% xung quanh chúng. (Người ta có thể làm tốt hơn nữa bằng cách sử dụng các kỹ thuật phi truyền thống .) Đó là một câu trả lời - đó là một câu trả lời dứt khoát - nhưng có lẽ đó không phải là thứ bạn đang tìm kiếm. Vấn đề là bạn cần quy định một số thang đo tuyệt đối về độ chính xác mong muốn để có được câu trả lời cho câu hỏi này. d(d+22)d
whuber

1
Snedecor & Cochran [ Phương pháp thống kê , ấn bản lần thứ 8] là cơ quan thẩm quyền về lấy mẫu. Họ mô tả quá trình này trong chương 4 và 6: "ban đầu chúng tôi giả định rằng độ lệch chuẩn dân số ... đã được biết đến." Sau đó, họ viết: "Phương pháp này hữu ích nhất trong giai đoạn đầu của công việc. ... Ví dụ, các thí nghiệm nhỏ trước đây đã chỉ ra rằng một phương pháp điều trị mới giúp tăng khoảng 20% ​​và là khoảng 7% . Điều tra viên ... [muốn có] SE là 2% và do đó đặt , cho ... Điều này ... thường hữu ích trong công việc sau này. σ ± σDσ±n=252(7)/n=2n=25
whuber

Câu trả lời:


7

Lượng dữ liệu cần thiết để ước tính các tham số của phân phối Bình thường nhiều biến số trong độ chính xác được chỉ định với độ tin cậy nhất định không thay đổi theo thứ nguyên, tất cả những thứ khác đều giống nhau. Do đó, bạn có thể áp dụng bất kỳ quy tắc nào cho hai chiều cho các vấn đề về chiều cao hơn mà không có bất kỳ thay đổi nào.

Tại sao nên làm thế? Chỉ có ba loại tham số: phương tiện, phương sai và hiệp phương sai. Lỗi ước tính trong một giá trị trung bình chỉ phụ thuộc vào phương sai và lượng dữ liệu, . Do đó, khi có phân phối Bình thường đa biến và có phương sai , thì các ước tính của chỉ phụ thuộc vào và . Từ đâu, để đạt được độ chính xác đầy đủ trong việc ước tính tất cả các , chúng tôi chỉ cần phải xem xét số lượng dữ liệu cần thiết cho việc có lớn nhất của( X 1 , X 2 , ... , X d ) X i σ 2 i E [ X i ] σ i n E [ X i ] X i σ i d σ in(X1,X2,,Xd)Xiσi2E[Xi]σinE[Xi]Xiσi. Do đó, khi chúng ta suy nghĩ về một loạt các vấn đề ước tính để tăng kích thước , tất cả những gì chúng ta cần xem xét là lớn nhất sẽ tăng bao nhiêu . Khi các tham số này được giới hạn ở trên, chúng tôi kết luận rằng lượng dữ liệu cần thiết không phụ thuộc vào kích thước.dσi

Các cân nhắc tương tự được áp dụng để ước tính phương sai và hiệp phương sai : nếu một lượng dữ liệu nhất định đủ để ước tính một hiệp phương sai (hoặc hệ số tương quan) với độ chính xác mong muốn, thì - với điều kiện phân phối chuẩn bên dưới có tương tự các giá trị tham số - cùng một lượng dữ liệu sẽ đủ để ước tính bất kỳ hệ số hiệp phương sai hoặc tương quan. σ i jσi2σij


Để minh họa và cung cấp hỗ trợ theo kinh nghiệm cho lập luận này, chúng ta hãy nghiên cứu một số mô phỏng. Sau đây tạo các tham số cho phân phối đa chiều của các kích thước được chỉ định, rút ​​ra nhiều tập vectơ độc lập, phân phối giống hệt từ phân phối đó, ước tính các tham số từ mỗi mẫu đó và tóm tắt kết quả của các ước tính tham số đó theo (1) trung bình của chúng- -để chứng minh rằng chúng không thiên vị (và mã đang hoạt động chính xác - và (2) độ lệch chuẩn của chúng, định lượng độ chính xác của các ước tính. (Đừng nhầm lẫn các độ lệch chuẩn này, định lượng lượng biến thiên giữa các ước tính thu được trên nhiều ước tính lặp lại của mô phỏng, với độ lệch chuẩn được sử dụng để xác định phân phối đa thường cơ bản!dd thay đổi, với điều kiện là khi thay đổi, chúng tôi không đưa các phương sai lớn hơn vào bản phân phối đa thường cơ bản.d

Các kích thước của phương sai của phân phối cơ bản được kiểm soát trong mô phỏng này bằng cách tạo giá trị riêng lớn nhất của ma trận hiệp phương sai bằng . Điều này giữ cho mật độ xác suất "đám mây" trong giới hạn khi kích thước tăng lên, bất kể hình dạng của đám mây này có thể là gì. Mô phỏng các mô hình hành vi khác của hệ thống khi tăng kích thước có thể được tạo ra đơn giản bằng cách thay đổi cách tạo giá trị bản địa; một ví dụ (sử dụng phân phối Gamma) được hiển thị nhận xét trong mã bên dưới.1R

Những gì chúng tôi đang tìm kiếm là để xác minh rằng độ lệch chuẩn của các ước tính tham số không thay đổi đáng kể khi kích thước được thay đổi. Do đó, tôi hiển thị kết quả cho hai thái cực, và , sử dụng cùng một lượng dữ liệu ( ) trong cả hai trường hợp. Đáng chú ý là số lượng tham số ước tính khi , bằng , vượt xa số lượng vectơ ( ) và vượt quá cả các số riêng lẻ ( ) trong toàn bộ tập dữ liệu.d = 2 d = 60 30 d = 60 1890dd=2d=6030d=60189030303060=1800

Hãy bắt đầu với hai chiều, . Có năm tham số: hai phương sai (với độ lệch chuẩn là và trong mô phỏng này), hiệp phương sai (SD = ) và hai phương tiện (SD = và ). Với các mô phỏng khác nhau (có thể đạt được bằng cách thay đổi giá trị bắt đầu của hạt ngẫu nhiên), chúng sẽ thay đổi một chút, nhưng chúng sẽ luôn có kích thước tương đương khi kích thước mẫu là . Ví dụ, trong mô phỏng tiếp theo SD là , , , và0,097 0,182 0,126 0,11 0,15 n = 30 0,014 0,263 0,043 0,04 0,18d=20.0970.1820.1260.110.15n=300.0140.2630.0430.040.18, tương ứng: tất cả chúng đều thay đổi nhưng có độ lớn tương đương.

(Những tuyên bố này có thể được hỗ trợ về mặt lý thuyết nhưng vấn đề ở đây là cung cấp một minh chứng thực nghiệm thuần túy.)

Bây giờ chúng tôi chuyển đến , giữ kích thước mẫu ở mức . Cụ thể, điều này có nghĩa là mỗi mẫu bao gồm vectơ, mỗi vectơ có thành phần. Thay vì liệt kê tất cả các độ lệch chuẩn , chúng ta hãy nhìn vào hình ảnh của chúng bằng biểu đồ để mô tả phạm vi của chúng.n = 30 30 60 1890d=60n=3030601890

Nhân vật

Các biểu đồ phân tán ở hàng trên cùng so sánh các tham số thực tế sigma( ) và ( ) với các ước tính trung bình được thực hiện trong các lần lặp trong mô phỏng này. Các đường tham chiếu màu xám đánh dấu quỹ tích của sự bình đẳng hoàn hảo: rõ ràng các ước tính đang hoạt động như dự định và không thiên vị.L 10 4σmuμ104

Các biểu đồ xuất hiện ở hàng dưới cùng, riêng cho tất cả các mục trong ma trận hiệp phương sai (trái) và cho phương tiện (phải). SD của các phương sai riêng lẻ có xu hướng nằm trong khoảng đến trong khi SD của hiệp phương sai giữa các thành phần riêng biệt có xu hướng nằm trong khoảng đến : chính xác trong phạm vi đạt được khi . Tương tự, SD của các ước tính trung bình có xu hướng nằm trong khoảng đến , tương đương với những gì đã thấy khi . Chắc chắn không có dấu hiệu cho thấy SD đã tăng lên khi0,12 0,04 0,08 d = 2 0,08 0,13 d = 2 d 2 600.080.120.040.08d=20.080.13d=2dtăng từ lên .260

Các mã sau.

#
# Create iid multivariate data and do it `n.iter` times.
#
sim <- function(n.data, mu, sigma, n.iter=1) {
  #
  # Returns arrays of parmeter estimates (distinguished by the last index).
  #
  library(MASS) #mvrnorm()
  x <- mvrnorm(n.iter * n.data, mu, sigma)
  s <- array(sapply(1:n.iter, function(i) cov(x[(n.data*(i-1)+1):(n.data*i),])), 
        dim=c(n.dim, n.dim, n.iter))
  m <-array(sapply(1:n.iter, function(i) colMeans(x[(n.data*(i-1)+1):(n.data*i),])), 
            dim=c(n.dim, n.iter))
  return(list(m=m, s=s))
}
#
# Control the study.
#
set.seed(17)
n.dim <- 60
n.data <- 30    # Amount of data per iteration
n.iter <- 10^4  # Number of iterations
#n.parms <- choose(n.dim+2, 2) - 1
#
# Create a random mean vector.
#
mu <- rnorm(n.dim)
#
# Create a random covariance matrix.
#
#eigenvalues <- rgamma(n.dim, 1)
eigenvalues <- exp(-seq(from=0, to=3, length.out=n.dim)) # For comparability
u <- svd(matrix(rnorm(n.dim^2), n.dim))$u
sigma <- u %*% diag(eigenvalues) %*% t(u)
#
# Perform the simulation.
# (Timing is about 5 seconds for n.dim=60, n.data=30, and n.iter=10000.)
#
system.time(sim.data <- sim(n.data, mu, sigma, n.iter))
#
# Optional: plot the simulation results.
#
if (n.dim <= 6) {
  par(mfcol=c(n.dim, n.dim+1))
  tmp <- apply(sim.data$s, 1:2, hist)
  tmp <- apply(sim.data$m, 1, hist)
}
#
# Compare the mean simulation results to the parameters.
#
par(mfrow=c(2,2))
plot(sigma, apply(sim.data$s, 1:2, mean), main="Average covariances")
abline(c(0,1), col="Gray")
plot(mu, apply(sim.data$m, 1, mean), main="Average means")
abline(c(0,1), col="Gray")
#
# Quantify the variability.
#
i <- lower.tri(matrix(1, n.dim, n.dim), diag=TRUE)
hist(sd.cov <- apply(sim.data$s, 1:2, sd)[i], main="SD covariances")
hist(sd.mean <- apply(sim.data$m, 1, sd), main="SD means")
#
# Display the simulation standard deviations for inspection.
#
sd.cov
sd.mean

1

Một số số ngắn đưa ra các phân phối lỗi sau cho sự phù hợp của 30 mẫu được tạo từ phân phối chuẩn thông thường sau đó phù hợp với Gaussian đơn biến.

nhập mô tả hình ảnh ở đây

Các tứ phân được chỉ định. Giả định rằng mức độ biến đổi này là mong muốn trong trường hợp đa chiều.

Tôi không có thời gian để đánh bại MatLab để có được kết quả tổng thể, vì vậy tôi sẽ chia sẻ "quy tắc ngón tay cái" của mình. 30 được cung cấp như là một quy tắc của ngón tay cái, hoặc heuristic vì vậy người ta cho rằng heuristic không phải là không thể chấp nhận.

Kinh nghiệm của tôi là sử dụng tam giác của Pascal nhân với trường hợp đơn biến. nhập mô tả hình ảnh ở đây

Nếu tôi đang sử dụng dữ liệu 2d thì tôi đi đến hàng thứ 2 và tính tổng để nhận được gấp đôi số lượng mẫu, hoặc 60 mẫu. Đối với dữ liệu 3d, tôi chuyển đến hàng thứ 3 và tính tổng để nhận được gấp 4 số lượng mẫu hoặc 120 mẫu. Đối với dữ liệu 5d, tôi chuyển đến hàng thứ 5 và tổng hợp để lấy 16x số lượng mẫu, hoặc 480 mẫu.

May mắn nhất.

BIÊN TẬP:

Đó là trực giác, nhưng mọi thứ phải được bảo vệ trong toán học. Tôi không thể có những bước nhảy vọt từ việc xây dựng các dạng đa thức từ các phần tử hữu hạn có kinh nghiệm để có được một sân bóng.

Phương trình tổng của hàng của tam giác Pascal là . kth2k

Ý tưởng của tôi cho cách tiếp cận ở đây là đánh đồng AIC của phân phối chiều cao hơn với nhiều mẫu hơn với phân phối chiều giảm với ít mẫu hơn.

Tiêu chí thông tin Akaike (AIC) được định nghĩa là trong đó là tổng bình phương còn lại, là số mẫu và là số tham số cho mô hình . RSSAIC=nlog(RSSn)+2kRSSknk

AIC1=AIC2

n1log(RSS1n1)+2k1=n2log(RSS2n2)+2k2

Đối với mỗi thứ nguyên mà chúng tôi loại bỏ điều này có nghĩa là giá trị trung bình mất một hàng và hiệp phương sai mất cả một hàng và một cột. Chúng ta có thể nói điều này như là

k(d)=d2+d .

của

k(d+1)k(d)=2d+2

Giả sử sai số trên mỗi điểm mẫu là không đổi liên quan đến tổng bình phương còn lại với số lượng mẫu và thuật ngữ trong logarit không đổi. Sự khác biệt về số lượng mẫu trở thành một hằng số tỷ lệ.

vì vậy chúng tôi có:

n1A+2(k2+2d+2)=n2A+2k2

giải quyết sự gia tăng của các mẫu với kích thước cho:

n2n1=(2(k2+2d+2)2k2)A1=(4d+4)A1

Vậy chức năng mở rộng là gì? Giả sử rằng đối với Gaussian đa biến 2 chiều, số lượng mẫu được yêu cầu là 15 trên mỗi tham số. Có 2 phương tiện và 4 phần tử của hiệp phương sai do đó 6 tham số hoặc 90 mẫu. Sự khác biệt là 60 mẫu, giá trị của . A1=5

nhập mô tả hình ảnh ở đây

Tại thời điểm này tôi sẽ nói rằng heuristic bắt đầu hơi thấp nhưng kết thúc là khoảng gấp đôi số lượng mẫu cần thiết. Theo ý kiến ​​cá nhân của tôi, phạm vi tiện ích tốt nhất của nó là khoảng 4 chiều.

BIÊN TẬP:

Vì vậy, tôi đã đọc câu trả lời của @whuber và tôi thích nó. Đó là kinh nghiệm, và trong trường hợp này là có thẩm quyền. Tôi đã bỏ phiếu cho câu trả lời của anh ấy.

Sau đây tôi đang cố gắng thảo luận và hy vọng có thể sử dụng hơn ~ 300 ký tự và tôi hy vọng có thể nhúng hình ảnh. Do đó tôi đang thảo luận trong giới hạn của câu trả lời. Tôi hy vọng điều này là ổn.

Tại thời điểm này tôi không tin rằng việc sử dụng AIC cho việc này, hoặc cách sử dụng kích thước mẫu và kích thước tham số là không chính xác.

Bước tiếp theo:

  • nhân rộng kết quả của @ whuber, xác nhận chúng theo kinh nghiệm
  • Kiểm tra AIC, ít nhất là theo nghĩa nào đó, để xác nhận xem nó có phù hợp không
  • Nếu AIC là phù hợp, sau đó cố gắng sử dụng các phương pháp thực nghiệm để đuổi theo lỗ hổng trong lý luận.

Bình luận và đề nghị chào mừng.


4
Bạn có thể cung cấp một số biện minh cho heuristic của bạn?
whuber

1
Và bạn có thể xác nhận rằng tổng của hàng thứ 5 thực tế là 16 không?
omatai

1 + 4 + 6 + 4 + 1 = 1 + 10 + 5 = 16. Xin lỗi về điều đó. 16 22. Tôi phải ngủ nửa giấc khi tôi thêm vào.
EngrStudent - Phục hồi Monica

1
2d+1-2d=9549936

1
@whuber, tôi thấy rằng tôi học được nhiều hơn bởi các lỗi của mình (sau khi tôi biết về chúng) hơn là do tôi đúng. Đáng ngạc nhiên là đủ, sai lầm cảm thấy chính xác như là đúng cho đến khi tôi biết rằng tôi sai. Cảm ơn bạn. ted.com/talks/kathryn_schulz_on_being_wrong.html
EngrStudent - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.