Tôi đang đấu tranh để hiểu sự khác biệt giữa lỗi tiêu chuẩn và độ lệch chuẩn. Chúng khác nhau như thế nào và tại sao bạn cần đo sai số chuẩn?
Tôi đang đấu tranh để hiểu sự khác biệt giữa lỗi tiêu chuẩn và độ lệch chuẩn. Chúng khác nhau như thế nào và tại sao bạn cần đo sai số chuẩn?
Câu trả lời:
Để hoàn thành câu trả lời cho câu hỏi, Ocram đã xử lý lỗi tiêu chuẩn độc đáo nhưng không tương phản với độ lệch chuẩn và không đề cập đến sự phụ thuộc vào kích thước mẫu. Như một trường hợp đặc biệt cho người ước tính xem xét ý nghĩa mẫu. Lỗi tiêu chuẩn cho giá trị trung bình là trong đó σlà độ lệch chuẩn dân số. Vì vậy, trong ví dụ này, chúng ta thấy rõ lỗi giảm tiêu chuẩn như thế nào khi tăng kích thước mẫu. Độ lệch chuẩn thường được sử dụng để chỉ các quan sát riêng lẻ. Vì vậy, độ lệch chuẩn mô tả sự thay đổi của các quan sát riêng lẻ trong khi sai số chuẩn cho thấy độ biến thiên của công cụ ước tính. Công cụ ước tính tốt là phù hợp có nghĩa là chúng hội tụ đến giá trị tham số thực. Khi sai số chuẩn của chúng giảm xuống 0 khi kích thước mẫu tăng thì các công cụ ước tính phù hợp, trong hầu hết các trường hợp xảy ra do lỗi tiêu chuẩn giảm về 0 như chúng ta thấy rõ ràng với trung bình mẫu.
Đây là một câu trả lời thực tế hơn (và không phải toán học):
Lưu ý rằng các lỗi tiêu chuẩn có thể được tính cho hầu hết mọi tham số bạn tính toán từ dữ liệu, không chỉ giá trị trung bình. Cụm từ "lỗi tiêu chuẩn" là một chút mơ hồ. Các điểm trên chỉ đề cập đến lỗi tiêu chuẩn của giá trị trung bình.
(Từ Hướng dẫn thống kê GraphPad mà tôi đã viết.)
Hãy để là thông số quan tâm của bạn mà bạn muốn suy luận. Để thực hiện điều này, bạn đã có sẵn cho bạn một mẫu quan sát cùng với một số kỹ thuật để có được ước tính , . Trong ký hiệu này, tôi đã nói rõ rằng phụ thuộc vào . Thật vậy, nếu bạn đã có một mẫu khác, , bạn sẽ kết thúc với một ước tính khác, . Điều này làm cho nhận ra một biến ngẫu nhiên mà tôi biểu thịx = { x 1 , ... , x n } θ θ ( x ) θ ( x ) x ~ x θ ( ~ x ) θ ( x ) θ θ ( x ) θ. Biến ngẫu nhiên này được gọi là một công cụ ước tính. Các sai số chuẩn của (= ước tính) là độ lệch chuẩn của (= biến ngẫu nhiên). Nó chứa thông tin về mức độ tự tin của bạn về ước tính của bạn. Nếu nó lớn, điều đó có nghĩa là bạn có thể có được một ước tính hoàn toàn khác nếu bạn đã vẽ một mẫu khác. Các lỗi tiêu chuẩn được sử dụng để xây dựng khoảng tin cậy.
(lưu ý rằng tôi đang tập trung vào lỗi tiêu chuẩn của giá trị trung bình, tôi tin rằng người hỏi cũng vậy, nhưng bạn có thể tạo ra một lỗi tiêu chuẩn cho bất kỳ thống kê mẫu nào)
Lỗi tiêu chuẩn có liên quan đến độ lệch chuẩn nhưng chúng không giống nhau và việc tăng kích thước mẫu không làm cho chúng gần nhau hơn. Thay vào đó, nó làm cho họ xa nhau hơn. Độ lệch chuẩn của mẫu trở nên gần hơn với độ lệch chuẩn dân số khi kích thước mẫu tăng nhưng không phải là sai số chuẩn.
Đôi khi thuật ngữ xung quanh này là một chút dày để vượt qua.
Khi bạn thu thập một mẫu và tính độ lệch chuẩn của mẫu đó, khi mẫu tăng kích thước, ước tính độ lệch chuẩn sẽ ngày càng chính xác hơn. Có vẻ như từ câu hỏi của bạn đó là những gì bạn đã suy nghĩ về. Nhưng cũng xem xét rằng trung bình của mẫu có xu hướng gần với trung bình dân số hơn. Điều đó rất quan trọng để hiểu lỗi tiêu chuẩn.
Lỗi tiêu chuẩn là về những gì sẽ xảy ra nếu bạn có nhiều mẫu có kích thước nhất định. Nếu bạn lấy một mẫu 10, bạn có thể có được một số ước tính về giá trị trung bình. Sau đó, bạn lấy một mẫu khác gồm 10 và ước tính trung bình mới, v.v. Độ lệch chuẩn của phương tiện của các mẫu đó là sai số chuẩn. Cho rằng bạn đã đặt ra câu hỏi của mình, bây giờ bạn có thể thấy rằng nếu N cao thì sai số chuẩn sẽ nhỏ hơn vì phương tiện mẫu sẽ ít có khả năng sai lệch nhiều so với giá trị thực.
Đối với một số người nghe có vẻ kỳ diệu khi bạn đã tính toán điều này từ một mẫu. Vì vậy, những gì bạn có thể làm là bootstrap một lỗi tiêu chuẩn thông qua mô phỏng để thể hiện mối quan hệ. Trong R trông giống như:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
Bạn sẽ thấy rằng hai lệnh cuối cùng tạo ra cùng một số (xấp xỉ). Bạn có thể thay đổi các giá trị n, m và s và chúng sẽ luôn xuất hiện khá gần nhau.