Tính toán lỗi tiêu chuẩn sau khi chuyển đổi log


19

Hãy xem xét một tập hợp số ngẫu nhiên thường được phân phối:

x <- rnorm(n=1000, mean=10)

Chúng tôi muốn biết giá trị trung bình và sai số chuẩn trên giá trị trung bình để chúng tôi thực hiện như sau:

se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x)   # something near 0.03 units

Tuyệt quá!

Tuy nhiên, giả sử chúng ta không nhất thiết phải biết rằng phân phối ban đầu của chúng tôi tuân theo phân phối bình thường. Chúng tôi chuyển đổi dữ liệu và thực hiện tính toán lỗi tiêu chuẩn tương tự.

z <- log(x, base=10)
mean(z) # something near 1 log units
se(z)   # something near 0.001 log units

Thật tuyệt, nhưng bây giờ chúng ta cần chuyển đổi ngược lại để có câu trả lời của chúng tôi trong các đơn vị KHÔNG đăng nhập đơn vị.

10^mean(z) # something near 10.0 units
10^se(z)   # something near 1.00 units

Câu hỏi của tôi: Tại sao, đối với phân phối bình thường, lỗi tiêu chuẩn khác nhau tùy thuộc vào việc nó được tính từ chính phân phối đó hay nếu nó được chuyển đổi, tính toán và chuyển đổi ngược? Lưu ý: các phương tiện đi ra như nhau bất kể sự biến đổi.

EDIT # 1: Cuối cùng, tôi quan tâm đến việc tính toán trung bình và khoảng tin cậy cho dữ liệu không được phân phối thông thường, vì vậy nếu bạn có thể đưa ra một số hướng dẫn về cách tính 95% CI trên dữ liệu được chuyển đổi, bao gồm cách chuyển đổi ngược lại cho đơn vị gốc của chúng , Tôi sẽ đánh giá cao nó!
KẾT THÚC SỐ 1

EDIT # 2: Tôi đã thử sử dụng hàm lượng tử để có được khoảng tin cậy 95%:

quantile(x, probs = c(0.05, 0.95))     # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95))  # around [8.3, 11.6]

Vì vậy, điều đó hội tụ cùng một câu trả lời, đó là tốt. Tuy nhiên, sử dụng phương pháp này không cung cấp khoảng thời gian chính xác bằng cách sử dụng dữ liệu không bình thường với kích thước mẫu "nhỏ":

t <- rlnorm(10)
mean(t)                            # around 1.46 units
10^mean(log(t, base=10))           # around 0.92 units
quantile(t, probs = c(0.05, 0.95))                     # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95)))  # around [0.209, 4.28]

Phương pháp nào sẽ được coi là "chính xác hơn". Tôi giả sử người ta sẽ chọn ước tính bảo thủ nhất?

Ví dụ: bạn có báo cáo kết quả này cho dữ liệu không bình thường (t) là trung bình 0,92 đơn vị với khoảng tin cậy 95% là [0,211, 4,79] không?
KẾT THÚC SỐ 2

Cảm ơn vì đã dành thời gian cho tôi!


1
SE là SD chia cho căn bậc hai của N. Không chỉ là N.
Penguin_Knight

3
Cảm ơn! Tôi đã khắc phục vấn đề đó. Vấn đề tôi đang có vẫn còn mặc dù.
bối rối

Câu trả lời:


12

Vấn đề chính của bạn với tính toán ban đầu là không có lý do chính đáng tại sao nên giống như . Nó thường khá khác nhau. sd ( Y )esd(đăng nhập(Y))sd(Y)

Trong một số trường hợp, bạn có thể tính xấp xỉ thô từ thông qua mở rộng Taylor .sd ( log ( Y ) )sd(Y)sd(đăng nhập(Y))

Var(g(X))(g'(μX))2σX2.

Nếu chúng ta coi là biến ngẫu nhiên trên thang đo log, thì ở đây,g ( X ) = exp ( X )Xg(X)= =điểm kinh nghiệm(X)

NếuVar(điểm kinh nghiệm(X))điểm kinh nghiệm(μX)2σX2

sau đósd(điểm kinh nghiệm(X))điểm kinh nghiệm(μX)σX

Những khái niệm này mang theo để phân phối mẫu.

Điều này có xu hướng hoạt động hợp lý tốt nếu độ lệch chuẩn thực sự nhỏ so với giá trị trung bình, như trong ví dụ của bạn.

> mean(y)
[1] 10
> sd(y)
[1] 0.03
> lm=mean(log(y))
> ls=sd(log(y))
> exp(lm)*ls
[1] 0.0300104 

Nếu bạn muốn chuyển đổi CI cho một tham số , nó hoạt động bằng cách chuyển đổi các điểm cuối.

Nếu bạn đang cố gắng chuyển đổi trở lại để lấy ước tính điểm và khoảng cho giá trị trung bình trên thang đo ban đầu (chưa được đăng ký), bạn cũng sẽ muốn hủy bỏ ước tính của giá trị trung bình (xem liên kết ở trên): , do đó, một khoảng mẫu lớn ( rất ) thô cho giá trị trung bình có thể là , trong đó là giới hạn trên và dưới của khoảng quy mô log và là ước tính nhất quán của .E(điểm kinh nghiệm(X))điểm kinh nghiệm(μX)(1+σX2/2)(c.điểm kinh nghiệm(L),c.điểm kinh nghiệm(Bạn))L,Bạnc1+σX2/2

Nếu dữ liệu của bạn xấp xỉ bình thường trên thang đo nhật ký, bạn có thể muốn coi đó là vấn đề tạo ra một khoảng cho trung bình logic.


1
Cảm ơn Glen_b. Tôi chưa bao giờ học được điều đó trong lớp thống kê.
bối rối

2
Tôi không có tiếng tăm để bình luận, nhưng chỉ trong trường hợp một linh hồn tò mò khác xảy ra trên bài đăng này, từ việc nhìn vào liên kết mở rộng Taylor trên Wikipedia, ước tính chính xác cho giá trị trung bình sẽ là Nếu không thì như , bạn có thể đánh giá thấp
E[f(X)]f(μX)+f''(μX)2σX2= =điểm kinh nghiệm(μX)(1+σX22)
điểm kinh nghiệm(μx)»σX2E[điểm kinh nghiệm(X)]
deasmhumnha

Cảm ơn @Dezmond. Vâng đúng rồi. Tôi sẽ thêm vào một điều chỉnh cho câu trả lời của tôi, rằng một phần của nó gần cuối là khá sai lệch.
Glen_b -Reinstate Monica

0

Có vẻ như bạn thực sự muốn lỗi tiêu chuẩn hình học, gần giống với ý nghĩa hình học exp(mean(log(x))).

Trong khi nó có vẻ hợp lý để tính toán như:

exp(sd(log(x)/sqrt(n-1)))

Bạn và những người khác đã chỉ ra rằng điều đó không đúng vì một vài lý do. Thay vào đó, sử dụng:

exp(mean(log(x))) * (sd(log(x))/sqrt(n-1))

Đó là giá trị trung bình hình học nhân với lỗi tiêu chuẩn log. Điều này sẽ xấp xỉ lỗi tiêu chuẩn "tự nhiên" khá tốt.

Nguồn: https://www.jstor.org/ sóng / pdf / 2235723.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.