Độ lệch chuẩn của một số phép đo với độ không đảm bảo


13

Tôi có hai 2 giờ dữ liệu GPS với tốc độ lấy mẫu là 1 Hz (7200 phép đo). Dữ liệu được cung cấp dưới dạng , trong đó là độ không đảm bảo đo.(X,Xσ,Y,Yσ,Z,Zσ)Nσ

Khi tôi lấy giá trị trung bình của tất cả các phép đo (ví dụ: giá trị Z trung bình của hai giờ đó), độ lệch chuẩn của nó là gì? Tất nhiên tôi có thể tính độ lệch chuẩn từ các giá trị Z, nhưng sau đó tôi bỏ qua thực tế là có độ không đảm bảo đo đã biết ...

Chỉnh sửa: Dữ liệu là tất cả từ cùng một trạm và tất cả các tọa độ được phục hồi mỗi giây. Do các chòm sao vệ tinh, vv, mỗi phép đo có độ không chắc chắn khác nhau. Mục đích phân tích của tôi là tìm ra sự dịch chuyển do một sự kiện bên ngoài, (tức là một trận động đất). Tôi muốn lấy giá trị trung bình cho 7200 lần đo (2h) trước trận động đất và một ý nghĩa khác trong 2h sau trận động đất, và sau đó tính toán chênh lệch kết quả (ví dụ về chiều cao). Để xác định độ lệch chuẩn của chênh lệch này, tôi cần biết độ lệch chuẩn của hai phương tiện.


3
Câu hỏi hay. Thậm chí quan trọng hơn, dữ liệu sẽ có mối tương quan tích cực theo thời gian: điều đó sẽ có tác động sâu sắc hơn đến câu trả lời so với sự thay đổi của độ không đảm bảo đo.
whuber

Chọn bình luận của người viết và câu trả lời của Deathkill14, bạn chưa cung cấp cho chúng tôi đủ thông tin để trả lời đúng. Điều quan trọng là phải biết các lỗi khi đo "hoạt động như thế nào ". Ví dụ: nếu lỗi đo là dương ở 3 giây, thì nó có khả năng dương hơn / ít hơn ở 4 giây --- tức là có tương quan nối tiếp không? Thứ hai, nếu lỗi trong là dương ở 3 giây, thì nhiều khả năng lỗi trong và / hoặc sẽ dương hơn 3 giây? Ở 2 giây? Ở 4 giây? X X Y ZX,Y,ZXXYZ
Bill

Một câu hỏi liên quan khác nhau một chút là: lỗi đo lường có hệ thống như thế nào? Giả sử tôi nói "Yeah, được đo một chút cao trên bãi cỏ phía trước của tôi. Xhầu như luôn luôn đo hơi cao trên bãi cỏ phía trước của tôi." Đó sẽ là một tuyên bố điên rồ? Có phải lỗi đo lường hoạt động theo cách mà một địa điểm cụ thể có thể rất thường xuyên quá cao trong khi một địa điểm cụ thể khác có thể rất thường xuyên quá thấp, v.v. "Hay là tất cả các lỗi tạm thời?XX
Bill

@Bill: Chắc chắn có mối tương quan nối tiếp. Các lỗi đo lường là khá nhiều hằng số trong hai giờ. Tuy nhiên, chúng thường lớn hơn độ lệch chuẩn được tính từ dữ liệu, điều này dẫn tôi đến câu hỏi này.
traindriver

Câu hỏi của bạn vẫn không nói rõ sự tồn tại của mối tương quan nối tiếp. Thật không may, bạn có ba câu trả lời được xây dựng cẩn thận không hữu ích cho bạn như chúng có thể có.
Glen_b -Reinstate Monica

Câu trả lời:


7

Tôi nghi ngờ rằng các câu trả lời trước cho câu hỏi này có thể là một chút sai lầm. Dường như với tôi rằng những gì các poster ban đầu thực sự là hỏi ở đây có thể được viết lại như sau: "cung cấp một loạt các phép đo vector: với i = 1 , 2 , 3 , . . . , 7200 , và đo lường hiệp phương sai : C i = ( X 2 σ , i 0 0 0 Y

θTôi= =(XTôiYTôiZTôi)
i=1,2,3,...,7200sẽ như thế nào tôi một cách chính xác tính toán giá trị trung bình hiệp phương sai-trọng cho loạt bài này của các phép đo vector, và sau đó, làm thế nào tôi có thể tính một cách chính xác độ lệch chuẩn của nó?" Câu trả lời cho câu hỏi này có thể được tìm thấy trong rất nhiều sách giáo khoa chuyên về thống kê cho các ngành khoa học vật lý. Một ví dụ mà tôi đặc biệt thích là Frederick James,"Phương pháp thống kê trong vật lý thực nghiệm"
CTôi= =(Xσ,Tôi2000Yσ,Tôi2000Zσ,Tôi2)
, Ấn bản lần 2, Thế giới khoa học, 2006, Mục 11.5.2, "Kết hợp các ước tính độc lập", pg. 323-324. Một văn bản khác rất hay, nhưng mang tính giới thiệu nhiều hơn, mô tả phép tính trung bình có trọng số phương sai cho các giá trị vô hướng (trái ngược với đại lượng vectơ đầy đủ như đã trình bày ở trên) là Philip R. Bevington và D. Keith Robinson, "Phân tích lỗi và giảm dữ liệu cho Khoa học Vật lý " , ấn bản thứ 3, McGraw-Hill, 2003, Phần 4.1.x," Trọng số dữ liệu - Những điều không chắc chắn không định dạng ". Bởi vì câu hỏi của người đăng đã xảy ra có một đường chéoMa trận hiệp phương sai trong trường hợp này (nghĩa là tất cả các phần tử nằm ngoài đường chéo đều bằng 0), vấn đề thực sự có thể phân tách thành ba vấn đề trung bình có trọng số vô hướng (ví dụ X, Y, Z), do đó phân tích Bevington và Robinson cũng áp dụng như nhau cũng ở đây.

Nói chung, khi trả lời các câu hỏi của stackexchange.com, tôi thường không thấy hữu ích khi đóng gói lại các dẫn xuất dài đã được trình bày trước đây trong nhiều sách giáo khoa - nếu bạn muốn thực sự hiểu tài liệu và hiểu lý do tại sao các câu trả lời theo cách họ làm, thì bạn thực sự chỉ nên đi và đọc những lời giải thích đã được xuất bản bởi các tác giả sách giáo khoa. Với ý nghĩ đó, tôi chỉ cần nhảy trực tiếp để nêu lại câu trả lời mà người khác đã cung cấp. Từ Frederick James, thiết lập , giá trị trung bình có trọng số là: q m e một n = ( N Σ i = 1 CN= =7200và hiệp phương sai của giá trị trung bình có trọng số là:Cmemộtn=( N Σ i=1C - 1 i )-1 Câu trả lời này là hoàn toàn chung và sẽ có giá trị cho dù dạngCi là gì, ngay cả đối với các ma trận hiệp phương sai đo đường chéo.

θmemộtn= =(ΣTôi= =1NCTôi-1)-1(ΣTôi= =1NCTôi-1θTôi)
Cmemộtn= =(ΣTôi= =1NCTôi-1)-1
CTôi

Vì thực tế là các hiệp phương sai đo đường chéo trong trường hợp cụ thể này, phân tích Bevington và Robinson cũng có thể được sử dụng để tính phương tiện có trọng số phương sai cho từng cá nhân , Y iZ i . Dạng của câu trả lời vô hướng giống với dạng của câu trả lời vectơ: X m e a n = N i = 1 X iXTôiYTôiZTôi và phương sai làX2σ,memộtn=1

Xmemộtn= =ΣTôi= =1NXTôiXσ,Tôi2ΣTôi= =1N1Xσ,Tôi2
hoặc tương đương,Xσ,memộtn=
Xσ,memộtn2= =1ΣTôi= =1N1Xσ,Tôi2
và tương tự choYmemộtn,Yσ,memộtnZmemộtn,Zσ,memộtn. Một mục wikipedia ngắn gọn cũng có cùng câu trả lời cho trường hợp có giá trị vô hướng có sẵnở đây.
Xσ,memộtn= =1ΣTôi= =1N1Xσ,Tôi2
Ymemộtn,Yσ,memộtnZmemộtn,Zσ,memộtn

Có lẽ tôi đã không rõ ràng một chút, vì vậy tôi đã thêm một số thông tin. Tôi không nghĩ rằng tôi cần phải đo trọng lượng của mình.
traindriver

1
Có bạn làm. Hãy xem xét một trường hợp cực đoan, giống như một thử nghiệm suy nghĩ: giả sử bạn chỉ có 2 phép đo GPS, thay vì 7200. Giả sử thêm rằng một trong các phép đo GPS có độ không chắc chắn là +/- 5 feet, trong khi cái kia có độ không chắc chắn là + / - 5 dặm. Con số không chắc chắn theo nghĩa đen cho bạn biết khả năng đo không chính xác đến mức nào. Điều đó có nghĩa giá trị +/- 5 dặm có khả năng là một vài dặm ngoài khơi, ít nhất. Bạn có thực sự muốn đưa con số này vào mức trung bình của bạn, theo bất kỳ cách có ý nghĩa nào không? Tính trung bình có trọng số cho phép bạn giảm giá trị không đáng tin cậy nhiều.
stachyra

1
BTW, câu trả lời của tôi có một điều khác dành cho nó: trong bài viết gốc của bạn, bạn đề cập rằng lý do bạn không muốn sử dụng độ lệch chuẩn mẫu, được tính trực tiếp từ các giá trị Z, là trong trường hợp đó, bạn sẽ, nói theo cách riêng của bạn, "bỏ qua thực tế là có sự không chắc chắn đo lường đã biết". Câu trả lời của tôi (tốt, thực sự, câu trả lời trong sách giáo khoa tối nghĩa, mà tôi chỉ đơn giản là chia sẻ với bạn) sử dụng các độ không đảm bảo đo đã biết, chính xác như bạn yêu cầu. Chỉ là nó sử dụng thông tin ở nhiều nơi hơn (kết quả trung bình cũng như độ lệch chuẩn) hơn bạn mong đợi.
stachyra

Bạn đã thuyết phục tôi.
traindriver

6

Điều này nên được giải quyết dễ dàng bằng cách sử dụng suy luận Bayes. Bạn biết các thuộc tính đo lường của các điểm riêng lẻ liên quan đến giá trị thực của chúng và muốn suy ra trung bình dân số và SD đã tạo ra các giá trị thực. Đây là một mô hình phân cấp.

Đọc lại vấn đề (cơ bản về Bayes)

Lưu ý rằng mặc dù số liệu thống kê chính thống cung cấp cho bạn một giá trị trung bình duy nhất, trong khung bayes bạn có được phân phối các giá trị đáng tin cậy của giá trị trung bình. Ví dụ: các quan sát (1, 2, 3) với SD (2, 2, 3) có thể được tạo ra bởi Ước tính khả năng tối đa là 2 nhưng cũng có nghĩa là 2.1 hoặc 1.8, mặc dù ít có khả năng (được cung cấp dữ liệu) hơn MLE. Vì vậy, ngoài SD, chúng tôi cũng suy ra giá trị trung bình .

Một khác biệt về khái niệm là bạn phải xác định trạng thái kiến ​​thức của mình trước khi thực hiện các quan sát. Chúng tôi gọi đây là linh mục . Bạn có thể biết trước rằng một khu vực nhất định đã được quét và trong một phạm vi chiều cao nhất định. Sự thiếu vắng kiến ​​thức hoàn toàn sẽ có độ đồng nhất (-90, 90) như trước và X và có thể đồng nhất (0, 10000) mét trên chiều cao (trên đại dương, dưới điểm cao nhất trên trái đất). Bạn phải xác định phân phối linh mục cho tất cả các tham số mà bạn muốn ước tính, tức là nhận phân phối sau . Điều này đúng cho độ lệch chuẩn là tốt.

Vì vậy, đánh giá lại vấn đề của bạn, tôi giả sử rằng bạn muốn suy ra các giá trị đáng tin cậy cho ba phương tiện (X.mean, Y.mean, X.mean) và ba độ lệch chuẩn (X.sd, Y.sd, X.sd) có thể có tạo dữ liệu của bạn.

Ngươi mâu

Sử dụng cú pháp BUGS tiêu chuẩn (sử dụng WinBUGS, OpenBUGS, JAGS, stan hoặc các gói khác để chạy này), mô hình của bạn sẽ trông giống như thế này:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Đương nhiên, bạn theo dõi các tham số .mean và .sd và sử dụng các thông số sau của chúng để suy luận.

Mô phỏng

Tôi đã mô phỏng một số dữ liệu như thế này:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Sau đó chạy mô hình bằng JAGS cho 2000 lần lặp sau khi ghi 500 lần lặp. Đây là kết quả cho X.sd.

hậu thế cho X.sd

Phạm vi màu xanh biểu thị khoảng Mật độ hoặc Độ tin cậy sau cao nhất 95% (trong đó bạn tin rằng tham số là sau khi quan sát dữ liệu. Lưu ý rằng khoảng tin cậy chính thống không cung cấp cho bạn điều này).

Đường thẳng đứng màu đỏ là ước tính MLE của dữ liệu thô. Thông thường, thông số có khả năng nhất trong ước lượng Bayes cũng là thông số có khả năng nhất (khả năng tối đa) trong các số liệu thống kê chính thống. Nhưng bạn không nên quan tâm quá nhiều về đỉnh của hậu thế. Giá trị trung bình hoặc trung bình là tốt hơn nếu bạn muốn đun sôi nó xuống một số duy nhất.

Lưu ý rằng MLE / top không ở mức 5 vì dữ liệu được tạo ngẫu nhiên, không phải do thống kê sai.

Giới hạn

Đây là một mô hình đơn giản có một số sai sót hiện nay.

  1. Nó không xử lý danh tính của -90 và 90 độ. Tuy nhiên, điều này có thể được thực hiện bằng cách tạo một số biến trung gian làm dịch chuyển các giá trị cực trị của các tham số ước tính thành phạm vi (-90, 90).
  2. X, Y và Z hiện được mô hình hóa là độc lập mặc dù chúng có thể tương quan với nhau và điều này cần được tính đến để tận dụng tối đa dữ liệu. Nó phụ thuộc vào việc thiết bị đo có di chuyển hay không (tương quan nối tiếp và phân phối chung của X, Y và Z sẽ cung cấp cho bạn nhiều thông tin) hoặc đứng yên (độc lập là ok). Tôi có thể mở rộng câu trả lời để tiếp cận điều này, nếu được yêu cầu.

Tôi nên đề cập rằng có rất nhiều tài liệu về các mô hình Bayes không gian mà tôi không am hiểu về nó.


Cảm ơn câu trả lời này. Đó là dữ liệu từ một trạm cố định, nhưng điều này có nghĩa là dữ liệu đó là độc lập?
traindriver

@traindriver Bạn cần cung cấp thêm một số thông tin về vấn đề suy luận mà bạn gặp phải để chúng tôi giúp bạn. Bạn có thể mở rộng câu hỏi của mình với phần "cập nhật" chỉ định ít nhất (1) đó có phải là cùng một số lượng được đo lặp lại không? Tức là phối hợp tương tự. Hoặc là một khu vực được quét hoặc ... (2) tại sao bạn muốn suy ra giá trị trung bình và sd? Nếu đó là một khu vực, có thể bạn muốn sử dụng SD như một ước tính về độ gập ghềnh hoặc một cái gì đó tương tự.
Jonas Lindeløv

Tôi đã thêm một số thông tin trong bài viết gốc.
traindriver

3

z

Z¯= =ΣTôi= =1nμZ+εTôinZ¯zμZεZ¯μZZZ¯σ^σ

z= =1β+ε1βZ¯μZεz

z= =1β+Qbạn+εbạnQzbạn. Như với bất kỳ hiệu ứng ngẫu nhiên nào, bạn sẽ cần phải đưa ra một giả định về việc phân phốibạn. Có đúng khôngZσ là phân phối của lỗi đo lường cho z? Nếu có, điều này có thể được sử dụng để cung cấp phân phối các hiệu ứng ngẫu nhiên. Thông thường, phần mềm để thực hiện mô hình hiệu ứng hỗn hợp cơ bản sẽ giả sử các hiệu ứng ngẫu nhiên có phân phối bình thường (với giá trị trung bình 0 ...) và ước tính phương sai cho bạn. Có lẽ bạn có thể thử điều này để kiểm tra khái niệm. Nếu bạn muốn sử dụng thông tin trước đó của mình về việc phân phối lỗi đo lường, mô hình hiệu ứng hỗn hợp Bayes được sắp xếp theo thứ tự. Bạn có thể sử dụng R2OpenBUGS.

Sau khi ước tính mô hình này, lỗi tiêu chuẩn bạn nhận được cho phần dư εlà lỗi tiêu chuẩn mà bạn thể hiện sự quan tâm. Theo trực giác, thành phần hiệu ứng ngẫu nhiên của mô hình đang đưa ra một số biến thể mà bạn có thể giải thích vì bạn biết có lỗi đo lường. Điều này cho phép bạn có được ước tính phù hợp hơn về biến thể củaε

Xem bài viết này để thảo luận sâu hơn về phương pháp tiếp cận hiệu ứng ngẫu nhiên này để tính đến lỗi đo lường. Tình huống của bạn tương tự như tình huống mà các tác giả giới thiệuD và phiên bản lỗi của nó bị lỗi W. Ví dụ trong Phần 4 có thể cung cấp một số hiểu biết về tình huống của bạn.

Như được đề cập bởi whuber, bạn có thể muốn tính toán tự động tương quan trong dữ liệu của mình. Sử dụng hiệu ứng ngẫu nhiên sẽ không giải quyết được vấn đề đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.