Phương pháp chung để lấy lỗi chuẩn


11

Tôi dường như không thể tìm thấy một phương pháp chung để phát sinh lỗi tiêu chuẩn ở bất cứ đâu. Tôi đã xem trên google, trang web này và thậm chí trong sách giáo khoa nhưng tất cả những gì tôi có thể tìm thấy là công thức cho các lỗi tiêu chuẩn cho giá trị trung bình, phương sai, tỷ lệ, tỷ lệ rủi ro, v.v ... và không phải là cách các công thức này được đưa ra.

Nếu bất kỳ cơ quan nào có thể giải thích nó bằng những thuật ngữ đơn giản hoặc thậm chí liên kết tôi với một nguồn tài nguyên tốt giải thích thì tôi sẽ biết ơn.


2
Tôi cung cấp một mô hình đơn giản chung và áp dụng nó, với tất cả các chi tiết được thực hiện, trong bài đăng tại stats.stackexchange.com/a/18609/919 . Có thể tìm thấy bài đăng này và nhiều bài viết khác về lỗi tiêu chuẩn (gần một nghìn ngày) bằng cách tìm kiếm trang web của chúng tôi để tìm "lỗi tiêu chuẩn"
whuber

Câu trả lời:


22

Những gì bạn muốn tìm là độ lệch chuẩn của phân phối lấy mẫu của giá trị trung bình. Tức là, bằng tiếng Anh, phân phối lấy mẫu là khi bạn chọn mục từ dân số của mình, cộng chúng lại với nhau và chia tổng cho . Chúng tôi hơn là tìm phương sai của đại lượng này và nhận được độ lệch chuẩn bằng cách lấy căn bậc hai của phương sai của nó.nn

Vì vậy, hãy để các mục mà bạn chọn được đại diện bởi các biến ngẫu nhiên , mỗi mục được phân phối giống hệt nhau với phương sai . Chúng được lấy mẫu độc lập, do đó phương sai của tổng chỉ là tổng của phương sai. Xi,1inσ2

Var(i=1nXi)=i=1nVar(Xi)=i=1nσ2=nσ2

Tiếp theo ta chia cho . Nói chung, chúng ta biết rằng , vì vậy, đặt chúng ta cónVar(kY)=k2Var(Y)k=1/n

Var(i=1nXin)=1n2Var(i=1nXi)=1n2nσ2=σ2n

Cuối cùng lấy căn bậc hai để có độ lệch chuẩn . Khi độ lệch chuẩn dân số không có sẵn độ lệch chuẩn mẫu được sử dụng như một ước tính, cho .σnssn

Tất cả những điều trên là đúng bất kể phân phối của là gì, nhưng nó đặt ra câu hỏi bạn thực sự muốn làm gì với lỗi tiêu chuẩn? Thông thường, bạn có thể muốn xây dựng các khoảng tin cậy và điều quan trọng là chỉ định xác suất để xây dựng một khoảng tin cậy có chứa giá trị trung bình.Xi

Nếu của bạn được phân phối bình thường, điều này thật dễ dàng, bởi vì sau đó phân phối lấy mẫu cũng được phân phối bình thường. Bạn có thể nói 68% mẫu trung bình sẽ nằm trong 1 lỗi tiêu chuẩn của giá trị trung bình thực, 95% sẽ nằm trong 2 lỗi tiêu chuẩn, v.v.Xi

Nếu bạn có một mẫu đủ lớn (hoặc một mẫu nhỏ và s không phải là quá bất thường) thì bạn có thể gọi định lý giới hạn trung tâm và nói rằng sự phân bố lấy mẫu được xấp xỉ thường được phân phối, và báo cáo khả năng của bạn cũng là tương đối.Xi

Một trường hợp cụ thể là ước tính tỷ lệ , trong đó bạn rút ra mục từ mỗi bản phân phối Bernouilli. Phương sai của mỗi phân phối là và do đó lỗi tiêu chuẩn là (tỷ lệ được ước tính bằng cách sử dụng dữ liệu). Để sau đó chuyển sang nói rằng khoảng một số% mẫu nằm trong rất nhiều độ lệch chuẩn của giá trị trung bình, bạn cần hiểu khi phân phối mẫu xấp xỉ bình thường. Lấy mẫu nhiều lần từ phân phối Bernouilli giống như lấy mẫu từ phân phối nhị thức và một quy tắc chung là chỉ xấp xỉ khi và làpnXip(1p)p(1p)/npnpn(1p)5. (Xem wikipedia để thảo luận sâu hơn về xấp xỉ nhị thức với bình thường. Xem ở đây để biết ví dụ hoạt động của các lỗi tiêu chuẩn với tỷ lệ.)

Mặt khác, nếu phân phối lấy mẫu của bạn không thể xấp xỉ bằng phân phối bình thường, thì lỗi tiêu chuẩn sẽ ít hữu ích hơn rất nhiều. Ví dụ: với phân phối không đối xứng, rất lệch, bạn không thể nói rằng cùng một% mẫu sẽ là độ lệch chuẩn hai bên của giá trị trung bình và bạn có thể muốn tìm một cách khác để liên kết xác suất với các mẫu.±1


Cảm ơn, cách tiếp cận này có ý nghĩa và tôi có thể thấy nó áp dụng như thế nào với giá trị trung bình nhưng tôi không thể thấy cách mở rộng nó sang các số liệu thống kê khác. Ví dụ, làm thế nào tôi tìm thấy lỗi tiêu chuẩn của một tỷ lệ? hay tỷ lệ?
Daniel Gardiner

Tôi đã cập nhật bài viết của mình. Điểm mấu chốt là số lượng như trung bình, phương sai, v.v. - và do đó stderr - có thể được tìm thấy cho bất kỳ phân phối nào . Nhưng để đưa ra các tuyên bố xác suất, bạn cần biết điều gì đó về phân phối, có thể là bình thường, nhị thức hoặc bất cứ điều gì. Vì vậy, stderr luôn có thể được tìm thấy, nhưng nó hữu ích như thế nào tùy thuộc vào tình huống.
TooTone

nếu n là cố định và chỉ đại diện cho một phần của toàn bộ dân số của bạn thì tại sao bạn lại viết ? và khôngvar(Xi)=σ2s2
Oleg

1
@Oleg là một biến ngẫu nhiên và nó có phương sai, ngay cả khi bạn không biết nó là gì. Không đúng khi viết phương sai ( ) = , vì là ước tính của phương sai, gần như chắc chắn không phải là phương sai dân số. Sử dụng phương sai dễ dàng hơn, mặc dù chúng thường không được biết, để lấy phương sai của tổng mẫu hoặc giá trị trung bình của mẫu, bởi vì bạn đang sử dụng quy tắc xác suất đơn giản. Bạn chỉ cần sử dụng tuyến tính, tức là phương sai của sum = tổng phương sai. Khi bạn đã nhận được phương sai, bạn "nhớ" bạn không biết phương sai ( ) vì vậy bạn sử dụngXiXis2s2Xis2
TooTone

4

Lỗi tiêu chuẩn là độ lệch chuẩn của thống kê (theo giả thuyết null, nếu bạn đang kiểm tra). Một phương pháp chung để tìm lỗi tiêu chuẩn sẽ là trước tiên tìm hàm phân phối hoặc hàm tạo khoảnh khắc của thống kê của bạn, tìm thời điểm trung tâm thứ hai và lấy căn bậc hai.

Ví dụ: nếu bạn đang lấy mẫu từ một bản phân phối bình thường với mean và variance , thì mẫu trung bình thường được phân phối với trung bình và phương sai . Điều này có thể được bắt nguồn từ ba thuộc tính:μσ2X¯=1ni=1nXiμσ2/n

  1. Tổng các biến ngẫu nhiên độc lập là bình thường,
  2. E[i=1naiXi]=i=1naiE[Xi] ,
  3. Nếu và độc lập, .X1X2Var(a1X1+a2X2)=a12Var(X1)+a22Var(X2)

Do đó, lỗi tiêu chuẩn của trung bình mẫu, là căn bậc hai của phương sai của nó, là .σ/n

Có những phím tắt, như bạn không nhất thiết phải tìm phân phối số liệu thống kê, nhưng tôi nghĩ về mặt khái niệm sẽ hữu ích khi có các bản phân phối trong tâm trí bạn nếu bạn biết chúng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.