Tôi là một người mới trong số liệu thống kê, vì vậy các bạn có thể vui lòng giúp tôi ra khỏi đây.
Câu hỏi của tôi là như sau: phương sai gộp thực sự có nghĩa là gì?
Khi tôi tìm kiếm một công thức cho phương sai gộp trong internet, tôi tìm thấy rất nhiều tài liệu sử dụng công thức sau (ví dụ: ở đây: http://math.tntech.edu/ISR/Mathologists_Statistic/Int sinhtion_to_Statologists_Tests / thepage / newnode19 ):
Nhưng nó thực sự tính toán cái gì? Bởi vì khi tôi sử dụng công thức này để tính toán phương sai gộp của mình, nó cho tôi câu trả lời sai.
Ví dụ: xem xét các "mẫu cha" này:
Phương sai của mẫu mẹ này là và giá trị trung bình của nó là ˉ x p = 5 .
Bây giờ, giả sử tôi chia mẫu cha mẹ này thành hai mẫu phụ:
- Mẫu phụ đầu tiên là 2,2,2,2,2 với trung bình và phương sai S 2 1 = 0 .
- Mẫu phụ thứ hai là 8,8,8,8,8 với trung bình và phương sai S 2 2 = 0 .
Bây giờ, rõ ràng, sử dụng công thức trên để tính phương sai gộp / cha của hai mẫu con này sẽ tạo ra 0, vì và S 2 = 0 . Vậy công thức này thực sự tính toán gì?
Mặt khác, sau một số dẫn xuất dài, tôi đã tìm thấy công thức tạo ra phương sai chính xác / gộp là:
Trong công thức trên, và d 2 = ¯ x 2 - ˉ x p .
Tôi đã tìm thấy một công thức tương tự với tôi, ví dụ ở đây: http://www.emathzone.com/tutorials/basic-statistic/combined-variance.html và cả trong Wikipedia. Mặc dù tôi phải thừa nhận rằng họ không giống hệt tôi.
Vì vậy, một lần nữa, phương sai gộp thực sự có nghĩa là gì? Không phải nó có nghĩa là phương sai của mẫu mẹ từ hai mẫu phụ sao? Hay tôi sai hoàn toàn ở đây?
Cảm ơn bạn trước.
EDIT 1: Có người nói rằng hai mẫu phụ của tôi ở trên là bệnh lý vì chúng có phương sai bằng không. Vâng, tôi có thể cho bạn một ví dụ khác. Xem xét mẫu cha mẹ này:
Phương sai của mẫu mẹ này là và giá trị trung bình của nó là.
Bây giờ, giả sử tôi chia mẫu cha mẹ này thành hai mẫu phụ:
- Mẫu phụ đầu tiên là 1,2,3,4,5 với trung bình và phương sai S 2 1 = 2,5 .
- Mẫu phụ thứ hai là 46,47,48,49,50 với trung bình và phương sai S 2 2 = 2,5 .
Bây giờ, nếu bạn sử dụng "công thức của tài liệu" để tính toán phương sai gộp, bạn sẽ nhận được 2,5, điều này hoàn toàn sai, bởi vì phương sai cha mẹ / gộp phải là 564.7. Thay vào đó, nếu bạn sử dụng "công thức của tôi", bạn sẽ có câu trả lời đúng.
Xin hãy hiểu, tôi sử dụng các ví dụ cực đoan ở đây để cho mọi người thấy rằng công thức thực sự sai. Nếu tôi sử dụng "dữ liệu bình thường" không có nhiều biến thể (trường hợp cực đoan), thì kết quả từ hai công thức đó sẽ rất giống nhau và mọi người có thể loại bỏ sự khác biệt do lỗi làm tròn, không phải vì chính công thức đó là Sai lầm.