Điều này nên được giải quyết dễ dàng bằng cách sử dụng suy luận Bayes. Bạn biết các thuộc tính đo lường của các điểm riêng lẻ liên quan đến giá trị thực của chúng và muốn suy ra trung bình dân số và SD đã tạo ra các giá trị thực. Đây là một mô hình phân cấp.
Đọc lại vấn đề (cơ bản về Bayes)
Lưu ý rằng mặc dù số liệu thống kê chính thống cung cấp cho bạn một giá trị trung bình duy nhất, trong khung bayes bạn có được phân phối các giá trị đáng tin cậy của giá trị trung bình. Ví dụ: các quan sát (1, 2, 3) với SD (2, 2, 3) có thể được tạo ra bởi Ước tính khả năng tối đa là 2 nhưng cũng có nghĩa là 2.1 hoặc 1.8, mặc dù ít có khả năng (được cung cấp dữ liệu) hơn MLE. Vì vậy, ngoài SD, chúng tôi cũng suy ra giá trị trung bình .
Một khác biệt về khái niệm là bạn phải xác định trạng thái kiến thức của mình trước khi thực hiện các quan sát. Chúng tôi gọi đây là linh mục . Bạn có thể biết trước rằng một khu vực nhất định đã được quét và trong một phạm vi chiều cao nhất định. Sự thiếu vắng kiến thức hoàn toàn sẽ có độ đồng nhất (-90, 90) như trước và X và có thể đồng nhất (0, 10000) mét trên chiều cao (trên đại dương, dưới điểm cao nhất trên trái đất). Bạn phải xác định phân phối linh mục cho tất cả các tham số mà bạn muốn ước tính, tức là nhận phân phối sau . Điều này đúng cho độ lệch chuẩn là tốt.
Vì vậy, đánh giá lại vấn đề của bạn, tôi giả sử rằng bạn muốn suy ra các giá trị đáng tin cậy cho ba phương tiện (X.mean, Y.mean, X.mean) và ba độ lệch chuẩn (X.sd, Y.sd, X.sd) có thể có tạo dữ liệu của bạn.
Ngươi mâu
Sử dụng cú pháp BUGS tiêu chuẩn (sử dụng WinBUGS, OpenBUGS, JAGS, stan hoặc các gói khác để chạy này), mô hình của bạn sẽ trông giống như thế này:
model {
# Set priors on population parameters
X.mean ~ dunif(-90, 90)
Y.mean ~ dunif(-90, 90)
Z.mean ~ dunif(0, 10000)
X.sd ~ dunif(0, 10) # use something with better properties, i.e. Jeffreys prior.
Y.sd ~ dunif(0, 10)
Z.sd ~ dunif(0, 100)
# Loop through data (or: set up plates)
# assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
for(i in 1:n.obs) {
# The true value was generated from population parameters
X[i] ~ dnorm(X.mean, X.sd^-2) #^-2 converts from SD to precision
Y[i] ~ dnorm(Y.mean, Y.sd^-2)
Z[i] ~ dnorm(Z.mean, Z.sd^-2)
# The observation was generated from the true value and a known measurement error
d[i, 1] ~ dnorm(X[i], d[i, 2]^-2) #^-2 converts from SD to precision
d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
}
}
Đương nhiên, bạn theo dõi các tham số .mean và .sd và sử dụng các thông số sau của chúng để suy luận.
Mô phỏng
Tôi đã mô phỏng một số dữ liệu như thế này:
# Simulate 500 data points
x = rnorm(500, -10, 5) # mean -10, sd 5
y = rnorm(500, 20, 5) # mean 20, sd 4
z = rnorm(500, 2000, 10) # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3) # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]
Sau đó chạy mô hình bằng JAGS cho 2000 lần lặp sau khi ghi 500 lần lặp. Đây là kết quả cho X.sd.
Phạm vi màu xanh biểu thị khoảng Mật độ hoặc Độ tin cậy sau cao nhất 95% (trong đó bạn tin rằng tham số là sau khi quan sát dữ liệu. Lưu ý rằng khoảng tin cậy chính thống không cung cấp cho bạn điều này).
Đường thẳng đứng màu đỏ là ước tính MLE của dữ liệu thô. Thông thường, thông số có khả năng nhất trong ước lượng Bayes cũng là thông số có khả năng nhất (khả năng tối đa) trong các số liệu thống kê chính thống. Nhưng bạn không nên quan tâm quá nhiều về đỉnh của hậu thế. Giá trị trung bình hoặc trung bình là tốt hơn nếu bạn muốn đun sôi nó xuống một số duy nhất.
Lưu ý rằng MLE / top không ở mức 5 vì dữ liệu được tạo ngẫu nhiên, không phải do thống kê sai.
Giới hạn
Đây là một mô hình đơn giản có một số sai sót hiện nay.
- Nó không xử lý danh tính của -90 và 90 độ. Tuy nhiên, điều này có thể được thực hiện bằng cách tạo một số biến trung gian làm dịch chuyển các giá trị cực trị của các tham số ước tính thành phạm vi (-90, 90).
- X, Y và Z hiện được mô hình hóa là độc lập mặc dù chúng có thể tương quan với nhau và điều này cần được tính đến để tận dụng tối đa dữ liệu. Nó phụ thuộc vào việc thiết bị đo có di chuyển hay không (tương quan nối tiếp và phân phối chung của X, Y và Z sẽ cung cấp cho bạn nhiều thông tin) hoặc đứng yên (độc lập là ok). Tôi có thể mở rộng câu trả lời để tiếp cận điều này, nếu được yêu cầu.
Tôi nên đề cập rằng có rất nhiều tài liệu về các mô hình Bayes không gian mà tôi không am hiểu về nó.