Độ lệch chuẩn của các quan sát đã được đánh dấu

Tôi có một bộ dữ liệu quan sát mẫu, được lưu trữ dưới dạng đếm trong các thùng phạm vi. ví dụ:

min/max  count
40/44    1
45/49    2
50/54    3
55/59    4
70/74    1

Bây giờ, việc tìm kiếm một ước tính trung bình từ điều này là khá dễ dàng. Chỉ cần sử dụng giá trị trung bình (hoặc trung bình) của mỗi thùng phạm vi làm quan sát và tính là trọng số và tìm trung bình có trọng số:

{\bar{x}}^{*} = \frac{1}{\sum_{i = 1}^{N} w_{i}} \sum_{i = 1}^{N} w_{i} x_{tôi}

$\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i$

Đối với trường hợp thử nghiệm của tôi, điều này mang lại cho tôi 53,82.

Câu hỏi của tôi bây giờ là, phương pháp chính xác để tìm độ lệch chuẩn (hay phương sai) là gì?

Qua tìm kiếm, tôi đã tìm thấy một số câu trả lời, nhưng tôi không chắc là, nếu có, thực sự phù hợp với tập dữ liệu của tôi. Tôi đã có thể tìm thấy công thức sau đây cho cả một câu hỏi khác ở đây và một tài liệu NIST ngẫu nhiên .

S^{2 *} = = \frac{Σ_{tôi = = 1}^{N} w_{tôi} (x_{tôi} - {\bar{x}}^{*})^{2}}{\frac{(M - 1)}{M} Σ_{tôi = = 1}^{N} w_{tôi}}

$s^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i }$

Điều này cho độ lệch chuẩn là 8,35 cho trường hợp thử nghiệm của tôi. Tuy nhiên, bài viết Wikipedia về phương tiện có trọng số đưa ra cả hai công thức:

s^{2 *} = \frac{\sum_{i = 1}^{N} w_{i}}{(\sum_{i = 1}^{N} w_{i})^{2} - \sum_{i = 1}^{N} w_{i}^{2}} \sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}

$s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2$

và

s^{2 *} = \frac{1}{(\sum_{i = 1}^{N} w_{i}) - 1} \sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}

$s^{2*} = \frac{1}{(\sum_{i=1}^N w_i) - 1} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2$

Cung cấp độ lệch chuẩn tương ứng là 8,66 và 7,83 cho trường hợp thử nghiệm của tôi.

Cập nhật

Cảm ơn @whuber đã đề nghị xem xét Sửa chữa của Sheppard và những bình luận hữu ích của bạn liên quan đến chúng. Thật không may, tôi đang gặp khó khăn trong việc hiểu các tài nguyên tôi có thể tìm thấy về nó (và tôi không thể tìm thấy bất kỳ ví dụ hay nào). Tóm lại, tôi hiểu rằng sau đây là một ước tính sai lệch:

s^{2 *} = \frac{1}{\sum_{i = 1}^{N} w_{i}} \sum_{i = 1}^{N} w_{i} (x_{i} - {\bar{x}}^{*})^{2}

$s^{2*} = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2$

Tôi cũng hiểu rằng hầu hết các hiệu chỉnh tiêu chuẩn cho sai lệch là dành cho các mẫu ngẫu nhiên trực tiếp của phân phối bình thường. Do đó, tôi thấy hai vấn đề tiềm ẩn đối với tôi:

Đây là những mẫu ngẫu nhiên được đánh dấu (mà tôi khá chắc chắn là nơi sửa chữa của Sheppard.)
Không biết liệu dữ liệu có dành cho phân phối bình thường hay không (do đó tôi cho rằng không, điều này, tôi khá chắc chắn, làm mất hiệu lực Sửa chữa của Sheppard.)

Vì vậy, câu hỏi cập nhật của tôi là; Phương pháp thích hợp để xử lý sai lệch được áp đặt bởi công thức độ lệch / phương sai tiêu chuẩn có trọng số "đơn giản" trên phân phối không bình thường là gì? Đặc biệt nhất là liên quan đến dữ liệu binned.

Lưu ý: Tôi đang sử dụng các thuật ngữ sau:

$s^{2*}$ là phương sai trọng số
$N$ là số lượng quan sát. (tức là số thùng)
$M$ là số lượng trọng lượng khác không. (tức là số thùng có số lượng)
$w_i$ là các trọng số (tức là số lượng)
$x_i$ là những quan sát. (nghĩa là thùng có nghĩa là)
$\bar{x}^*$ là giá trị trung bình có trọng số.

variance standard-deviation weighted-sampling

— chezy525
nguồn

Google "Sheppard's chỉnh sửa" cho các giải pháp tiêu chuẩn cho vấn đề này.

— whuber

@whuber, tôi sợ google-foo của tôi làm tôi thất vọng ... Tôi không tìm thấy nhiều về cách sử dụng các chỉnh sửa của Sheppard. Theo như tôi có thể nói, đó là một sự điều chỉnh cho bản chất binned của dữ liệu, và trong trường hợp thử nghiệm của tôi sẽ được sử dụng như

, trong đó

là kích thước của các thùng (trong trường hợp thử nghiệm của tôi, 4). Điều này có đúng không? Trong mọi trường hợp, những gì tôi đang tìm kiếm vẫn dường như không giúp tôi với máy tính

s^{2 *} - \frac{c^{2}}{12}

$s^{2*} - \frac{c^2}{12}$

c

$c$

s^{2 *}

$s^{2*}$

— chezy525

Lần truy cập thứ hai trong tìm kiếm Google của tôi cung cấp một công thức rõ ràng (phương trình 9).

— whuber

@whuber, đã được một vài tháng và tôi đã thử đọc tài liệu mà bạn đã liên kết một vài lần. Tôi nghĩ rằng tôi vẫn còn thiếu một cái gì đó, nhưng điều tốt nhất tôi nghĩ ra là phương trình cuối cùng tôi liệt kê là chính xác như công cụ ước lượng không thiên vị. Thê nay đung không?

— chezy525

Sửa chữa của Sheppard không giả định tính bình thường.

— Glen_b -Reinstate Monica

Câu trả lời này trình bày hai giải pháp: sửa chữa của Sheppard và ước tính khả năng tối đa. Cả hai đều đồng ý chặt chẽ về ước tính độ lệch chuẩn: cho lần đầu tiên và cho lần thứ hai (khi được điều chỉnh để có thể so sánh với công cụ ước tính "không thiên vị" thông thường). $7.70$ $7.69$

Sửa chữa của Sheppard

"Sửa lỗi của Sheppard" là các công thức điều chỉnh các khoảnh khắc được tính toán từ dữ liệu đã được đánh dấu (như thế này) trong đó

dữ liệu được coi là bị chi phối bởi một phân phối được hỗ trợ trên một khoảng hữu hạn $[a,b]$
rằng khoảng thời gian được chia tuần tự vào thùng tương đương chiều rộng chung đó là tương đối nhỏ (không bin chứa một tỷ lệ lớn của tất cả các dữ liệu) $h$
phân phối có chức năng mật độ liên tục.

Chúng có nguồn gốc từ công thức tổng Euler-Maclaurin, gần đúng các tích phân theo các tổ hợp tuyến tính của các giá trị của tích phân tại các điểm cách đều nhau, và do đó thường áp dụng (và không chỉ cho các phân phối Bình thường).

Mặc dù nói đúng ra một phân phối Bình thường không được hỗ trợ trong một khoảng hữu hạn, nhưng nó gần đúng với nó. Về cơ bản, tất cả xác suất của nó được chứa trong bảy độ lệch chuẩn của giá trị trung bình. Do đó, hiệu chỉnh của Sheppard có thể áp dụng cho dữ liệu được giả định là từ phân phối Bình thường.

Hai chỉnh sửa đầu tiên của Sheppard là

Sử dụng giá trị trung bình của dữ liệu đã đánh dấu cho giá trị trung bình của dữ liệu (nghĩa là không cần hiệu chỉnh cho giá trị trung bình).
Subtract từ phương sai của dữ liệu binned để có được (gần đúng) phương sai của dữ liệu. $h^2/12$

Nơi nào đến từ đâu? Điều này bằng với phương sai của một phương sai đồng nhất được phân phối trong một khoảng thời gian . Theo trực giác, sau đó, việc hiệu chỉnh của Sheppard cho lần thứ hai cho thấy rằng việc xử lý dữ liệu - thay thế chúng một cách hiệu quả bằng điểm giữa của mỗi thùng - dường như thêm một giá trị phân bố đồng đều trong khoảng từ đến , khi nó tăng cao phương sai bằng . $h^2/12$ $h$ $-h/2$ $h/2$ $h^2/12$

Hãy làm các phép tính. Tôi sử dụng Rđể minh họa chúng, bắt đầu bằng cách chỉ định số lượng và thùng:

counts <- c(1,2,3,4,1)
bin.lower <- c(40, 45, 50, 55, 70)
bin.upper <- c(45, 50, 55, 60, 75)

Công thức thích hợp để sử dụng cho các số đếm xuất phát từ việc sao chép độ rộng của thùng theo số lượng được cho bởi số lượng; đó là, dữ liệu được đánh dấu là tương đương với

42.5, 47.5, 47.5, 52.5, 52.5, 57.5, 57.5, 57.5, 57.5, 72.5

$x$ $k$ $kx^2$

bin.mid <- (bin.upper + bin.lower)/2
n <- sum(counts)
mu <- sum(bin.mid * counts) / n
sigma2 <- (sum(bin.mid^2 * counts) - n * mu^2) / (n-1)

mu $1195/22 \approx 54.32$ sigma2 $675/11 \approx 61.36$ $7.83$ $h=5$ $h^2/12 = 25/12 \approx 2.08$ $\sqrt{675/11 - 5^2/12} \approx 7.70$

Ước tính khả năng tối đa

$F_\theta$ $\theta$ $(x_0, x_1]$ $k$ $F_\theta$

\log \prod_{i = 1}^{k} (F_{θ} (x_{1}) - F_{θ} (x_{0})) = k \log (F_{θ} (x_{1}) - F_{θ} (x_{0}))

$\log \prod_{i=1}^k \left(F_\theta(x_1) - F_\theta(x_0)\right) = k\log\left(F_\theta(x_1) - F_\theta(x_0)\right)$

(xem MLE / Khả năng của khoảng thời gian phân phối lognormally ).

$\Lambda(\theta)$ $\hat\theta$ $-\Lambda(\theta)$ $\theta$ R

sigma <- sqrt(sigma2) # Crude starting estimate for the SD
likelihood.log <- function(theta, counts, bin.lower, bin.upper) {
  mu <- theta[1]; sigma <- theta[2]
  -sum(sapply(1:length(counts), function(i) {
    counts[i] * 
      log(pnorm(bin.upper[i], mu, sigma) - pnorm(bin.lower[i], mu, sigma))
  }))
}
coefficients <- optim(c(mu, sigma), function(theta) 
  likelihood.log(theta, counts, bin.lower, bin.upper))$par

$(\hat\mu, \hat\sigma) = (54.32, 7.33)$

$\sigma$ $n/(n-1)$ $\sigma$ $\sqrt{n/(n-1)} \hat\sigma = \sqrt{11/10}\times 7.33 = 7.69$ $7.70$

Xác minh các giả định

Để hình dung những kết quả này, chúng ta có thể vẽ mật độ Bình thường được trang bị trên biểu đồ:

hist(unlist(mapply(function(x,y) rep(x,y), bin.mid, counts)),
     breaks = breaks, xlab="Values", main="Data and Normal Fit")
curve(dnorm(x, coefficients[1], coefficients[2]), 
      from=min(bin.lower), to=max(bin.upper), 
      add=TRUE, col="Blue", lwd=2)

Nhân vật

$11$

$\chi^2$ $\chi^2$ R

breaks <- sort(unique(c(bin.lower, bin.upper)))
fit <- mapply(function(l, u) exp(-likelihood.log(coefficients, 1, l, u)),
              c(-Inf, breaks), c(breaks, Inf))
observed <- sapply(breaks[-length(breaks)], function(x) sum((counts)[bin.lower <= x])) -
  sapply(breaks[-1], function(x) sum((counts)[bin.upper < x]))
chisq.test(c(0, observed, 0), p=fit, simulate.p.value=TRUE)

Đầu ra là

Chi-squared test for given probabilities with simulated p-value (based on 2000 replicates)

data:  c(0, observed, 0) 
X-squared = 7.9581, df = NA, p-value = 0.2449

$0.245$

— whuber
nguồn