Hôm nay tôi đã dạy một lớp thống kê giới thiệu và một sinh viên đã hỏi tôi một câu hỏi, mà tôi viết lại ở đây là: "Tại sao độ lệch chuẩn được định nghĩa là sqrt của phương sai và không phải là sqrt của tổng bình phương so với N?"
Chúng tôi xác định phương sai dân số:
Và độ lệch chuẩn: .
Việc giải thích chúng tôi có thể cung cấp cho là nó mang lại độ lệch trung bình của các đơn vị trong dân số từ giá trị trung bình dân của .
Tuy nhiên, trong định nghĩa của sd, chúng ta chia sqrt của tổng bình phương thông qua . Câu hỏi mà học sinh đặt ra là tại sao chúng ta không chia sqrt của sume bình phương cho thay vào đó. Do đó, chúng tôi đến với công thức cạnh tranh:Học sinh lập luận rằng công thức này trông giống như độ lệch "trung bình" so với giá trị trung bình so với khi chia qua như trong \ sigma .
Tôi nghĩ rằng câu hỏi này không phải là ngu ngốc. Tôi muốn đưa ra một câu trả lời cho sinh viên đi xa hơn là nói rằng sd được định nghĩa là sqrt của phương sai là độ lệch bình phương trung bình. Đặt khác nhau, tại sao học sinh nên sử dụng đúng công thức và không theo ý tưởng của cô?
Câu hỏi này liên quan đến một chủ đề cũ hơn và câu trả lời được cung cấp ở đây . Câu trả lời đi theo ba hướng:
- là độ lệch trung bình gốc (RMS), không phải độ lệch "điển hình" so với giá trị trung bình (nghĩa là ). Do đó, nó được định nghĩa khác nhau.
- Nó có tính chất toán học tốt đẹp.
- Hơn nữa, sqrt sẽ đưa "đơn vị" trở lại quy mô ban đầu của họ. Tuy nhiên, đây cũng là trường hợp của , chia cho thay vào đó.
Cả hai điểm 1 và 2 đều là các đối số có lợi cho sd là RMS, nhưng tôi không thấy một đối số chống lại việc sử dụng . Điều gì sẽ là lý lẽ tốt để thuyết phục học sinh cấp độ giới thiệu về việc sử dụng khoảng cách RMS trung bình từ trung bình?
"Why is the standard deviation defined as sqrt of variance and not as average of [the root of] sum of squares?"
Có thể là những gì bên trong ngoặc đã bị mất trong câu hỏi?