Tôi có một bộ dữ liệu quan sát mẫu, được lưu trữ dưới dạng đếm trong các thùng phạm vi. ví dụ:
min/max count
40/44 1
45/49 2
50/54 3
55/59 4
70/74 1
Bây giờ, việc tìm kiếm một ước tính trung bình từ điều này là khá dễ dàng. Chỉ cần sử dụng giá trị trung bình (hoặc trung bình) của mỗi thùng phạm vi làm quan sát và tính là trọng số và tìm trung bình có trọng số:
Đối với trường hợp thử nghiệm của tôi, điều này mang lại cho tôi 53,82.
Câu hỏi của tôi bây giờ là, phương pháp chính xác để tìm độ lệch chuẩn (hay phương sai) là gì?
Qua tìm kiếm, tôi đã tìm thấy một số câu trả lời, nhưng tôi không chắc là, nếu có, thực sự phù hợp với tập dữ liệu của tôi. Tôi đã có thể tìm thấy công thức sau đây cho cả một câu hỏi khác ở đây và một tài liệu NIST ngẫu nhiên .
Điều này cho độ lệch chuẩn là 8,35 cho trường hợp thử nghiệm của tôi. Tuy nhiên, bài viết Wikipedia về phương tiện có trọng số đưa ra cả hai công thức:
và
Cung cấp độ lệch chuẩn tương ứng là 8,66 và 7,83 cho trường hợp thử nghiệm của tôi.
Cập nhật
Cảm ơn @whuber đã đề nghị xem xét Sửa chữa của Sheppard và những bình luận hữu ích của bạn liên quan đến chúng. Thật không may, tôi đang gặp khó khăn trong việc hiểu các tài nguyên tôi có thể tìm thấy về nó (và tôi không thể tìm thấy bất kỳ ví dụ hay nào). Tóm lại, tôi hiểu rằng sau đây là một ước tính sai lệch:
Tôi cũng hiểu rằng hầu hết các hiệu chỉnh tiêu chuẩn cho sai lệch là dành cho các mẫu ngẫu nhiên trực tiếp của phân phối bình thường. Do đó, tôi thấy hai vấn đề tiềm ẩn đối với tôi:
- Đây là những mẫu ngẫu nhiên được đánh dấu (mà tôi khá chắc chắn là nơi sửa chữa của Sheppard.)
- Không biết liệu dữ liệu có dành cho phân phối bình thường hay không (do đó tôi cho rằng không, điều này, tôi khá chắc chắn, làm mất hiệu lực Sửa chữa của Sheppard.)
Vì vậy, câu hỏi cập nhật của tôi là; Phương pháp thích hợp để xử lý sai lệch được áp đặt bởi công thức độ lệch / phương sai tiêu chuẩn có trọng số "đơn giản" trên phân phối không bình thường là gì? Đặc biệt nhất là liên quan đến dữ liệu binned.
Lưu ý: Tôi đang sử dụng các thuật ngữ sau:
- là phương sai trọng số
- là số lượng quan sát. (tức là số thùng)
- là số lượng trọng lượng khác không. (tức là số thùng có số lượng)
- là các trọng số (tức là số lượng)
- là những quan sát. (nghĩa là thùng có nghĩa là)
- là giá trị trung bình có trọng số.