Hãy xem xét một tập hợp số ngẫu nhiên thường được phân phối:
x <- rnorm(n=1000, mean=10)
Chúng tôi muốn biết giá trị trung bình và sai số chuẩn trên giá trị trung bình để chúng tôi thực hiện như sau:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
Tuyệt quá!
Tuy nhiên, giả sử chúng ta không nhất thiết phải biết rằng phân phối ban đầu của chúng tôi tuân theo phân phối bình thường. Chúng tôi chuyển đổi dữ liệu và thực hiện tính toán lỗi tiêu chuẩn tương tự.
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
Thật tuyệt, nhưng bây giờ chúng ta cần chuyển đổi ngược lại để có câu trả lời của chúng tôi trong các đơn vị KHÔNG đăng nhập đơn vị.
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
Câu hỏi của tôi: Tại sao, đối với phân phối bình thường, lỗi tiêu chuẩn khác nhau tùy thuộc vào việc nó được tính từ chính phân phối đó hay nếu nó được chuyển đổi, tính toán và chuyển đổi ngược? Lưu ý: các phương tiện đi ra như nhau bất kể sự biến đổi.
EDIT # 1: Cuối cùng, tôi quan tâm đến việc tính toán trung bình và khoảng tin cậy cho dữ liệu không được phân phối thông thường, vì vậy nếu bạn có thể đưa ra một số hướng dẫn về cách tính 95% CI trên dữ liệu được chuyển đổi, bao gồm cách chuyển đổi ngược lại cho đơn vị gốc của chúng , Tôi sẽ đánh giá cao nó!
KẾT THÚC SỐ 1
EDIT # 2: Tôi đã thử sử dụng hàm lượng tử để có được khoảng tin cậy 95%:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
Vì vậy, điều đó hội tụ cùng một câu trả lời, đó là tốt. Tuy nhiên, sử dụng phương pháp này không cung cấp khoảng thời gian chính xác bằng cách sử dụng dữ liệu không bình thường với kích thước mẫu "nhỏ":
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
Phương pháp nào sẽ được coi là "chính xác hơn". Tôi giả sử người ta sẽ chọn ước tính bảo thủ nhất?
Ví dụ: bạn có báo cáo kết quả này cho dữ liệu không bình thường (t) là trung bình 0,92 đơn vị với khoảng tin cậy 95% là [0,211, 4,79] không?
KẾT THÚC SỐ 2
Cảm ơn vì đã dành thời gian cho tôi!