Độ lệch chuẩn là gì, nó được tính như thế nào và công dụng của nó trong thống kê là gì?
Độ lệch chuẩn là gì, nó được tính như thế nào và công dụng của nó trong thống kê là gì?
Câu trả lời:
Độ lệch chuẩn là một số đại diện cho "mức chênh lệch" hoặc "độ phân tán" của một tập hợp dữ liệu. Có các biện pháp khác để lây lan, chẳng hạn như phạm vi và phương sai.
Dưới đây là một số bộ dữ liệu mẫu và độ lệch chuẩn của chúng:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
Các bộ dữ liệu trên có cùng ý nghĩa.
Độ lệch có nghĩa là "khoảng cách từ trung bình".
"Tiêu chuẩn" ở đây có nghĩa là "tiêu chuẩn hóa", có nghĩa là độ lệch chuẩn và giá trị trung bình ở cùng một đơn vị, không giống như phương sai.
Ví dụ: nếu chiều cao trung bình là 2 mét , độ lệch chuẩn có thể là 0,3 mét , trong khi phương sai sẽ là bình phương 0,09 mét .
Thật thuận tiện khi biết rằng ít nhất 75% các điểm dữ liệu luôn nằm trong 2 độ lệch chuẩn của giá trị trung bình (hoặc khoảng 95% nếu phân phối là Bình thường).
Ví dụ: nếu giá trị trung bình là 100 và độ lệch chuẩn là 15, thì ít nhất 75% giá trị nằm trong khoảng từ 70 đến 130.
Nếu phân phối xảy ra là Bình thường, thì 95% giá trị nằm trong khoảng từ 70 đến 130.
Nói chung, điểm kiểm tra IQ thường được phân phối và trung bình là 100. Một người "rất sáng" là hai độ lệch chuẩn trên trung bình, nghĩa là điểm kiểm tra IQ là 130.
Một trích dẫn từ Wikipedia .
Nó cho thấy có bao nhiêu biến thể từ "giá trị trung bình" (giá trị trung bình hoặc dự kiến / ngân sách). Độ lệch chuẩn thấp cho thấy các điểm dữ liệu có xu hướng rất gần với giá trị trung bình, trong khi độ lệch chuẩn cao cho thấy dữ liệu được trải rộng trên một phạm vi giá trị lớn.
Khi mô tả một biến chúng ta thường tóm tắt nó bằng hai biện pháp: thước đo tâm và thước đo độ lây lan. Các biện pháp phổ biến của trung tâm bao gồm giá trị trung bình, trung vị và chế độ. Biện pháp phổ biến bao gồm phạm vi phương sai và liên dải.
Phương sai (được biểu thị bằng sigma chữ thường Hy Lạp được nâng lên thành lũy thừa hai) thường được sử dụng khi giá trị trung bình được báo cáo. Phương sai là độ lệch bình phương trung bình của biến. Độ lệch được tính bằng cách trừ giá trị trung bình từ mỗi quan sát. Đây là bình phương vì tổng sẽ bằng không và bình phương loại bỏ vấn đề này trong khi vẫn duy trì kích thước tương đối của độ lệch. Vấn đề với việc sử dụng biến thể làm thước đo độ lây lan là nó nằm trong các đơn vị bình phương. Ví dụ: nếu biến quan tâm của chúng ta là chiều cao được đo bằng inch thì phương sai sẽ được báo cáo theo bình phương, điều này rất ít có ý nghĩa. Độ lệch chuẩn (được biểu thị bằng sigma chữ thường của Hy Lạp) là căn bậc hai của phương sai và trả về số đo độ lây lan cho các đơn vị ban đầu.
Khi sử dụng độ lệch chuẩn, người ta phải cẩn thận với các ngoại lệ vì chúng sẽ làm lệch độ lệch chuẩn (và giá trị trung bình) vì chúng không phải là các biện pháp chống lây lan. Một ví dụ đơn giản sẽ minh họa tài sản này. Giá trị trung bình của các trận đấu cricket khủng khiếp của tôi là 13, 14, 16, 23, 26, 28, 33, 39 và 61 là 28.11. Nếu chúng ta coi 61 là ngoại lệ và xóa nó, giá trị trung bình sẽ là 24.
Đây là cách tôi sẽ trả lời câu hỏi này bằng sơ đồ.
Giả sử chúng ta nặng 30 con mèo và tính trọng lượng trung bình. Sau đó, chúng tôi tạo ra một biểu đồ phân tán, với trọng số trên trục y và nhận dạng con mèo trên trục x. Trọng lượng trung bình có thể được vẽ trong một đường ngang. Sau đó chúng ta có thể vẽ các đường thẳng đứng kết nối từng điểm dữ liệu với đường trung bình - đây là độ lệch của từng điểm dữ liệu so với giá trị trung bình và chúng ta gọi chúng là phần dư. Bây giờ, những phần dư này có thể hữu ích vì chúng có thể cho chúng ta biết điều gì đó về sự lan truyền của dữ liệu: nếu có nhiều phần dư lớn, thì mèo sẽ thay đổi rất nhiều về khối lượng. Ngược lại, nếu phần dư chủ yếu là nhỏ, thì mèo khá tập trung xung quanh trọng lượng trung bình. Vì vậy, nếu chúng ta có thể có một số liệu cho chúng ta biết trung bìnhđộ dài của phần dư trong tập dữ liệu này, đây sẽ là một cách thuận tiện để biểu thị mức độ lan truyền của dữ liệu. Độ lệch chuẩn là, hiệu quả, chiều dài của phần dư trung bình.
Tôi sẽ tiếp tục từ điều này bằng cách đưa ra phép tính cho sd, giải thích lý do tại sao chúng ta vuông và sau đó là căn bậc hai (tôi thích lời giải thích ngắn gọn và ngọt ngào của Vaibhav). Sau đó, tôi sẽ đề cập đến các vấn đề của các ngoại lệ, như Graham làm trong đoạn cuối của mình.
Nếu thông tin cần thiết là phân phối dữ liệu về giá trị trung bình, độ lệch chuẩn sẽ có ích.
Tổng chênh lệch của mỗi giá trị từ giá trị trung bình bằng 0 (rõ ràng, vì giá trị được trải đều xung quanh giá trị trung bình), do đó chúng ta bình phương mỗi khác biệt để chuyển đổi giá trị âm thành dương, tính tổng chúng trên dân số và lấy giá trị của chúng căn bậc hai. Giá trị này sau đó được chia cho số lượng mẫu (hoặc, kích thước của dân số). Điều này cho độ lệch chuẩn.
Độ lệch chuẩn là căn bậc hai của thời điểm trung tâm thứ hai của phân phối. Một thời điểm trung tâm là sự khác biệt dự kiến từ giá trị dự kiến của phân phối. Một khoảnh khắc trung tâm đầu tiên thường sẽ là 0, vì vậy chúng tôi xác định thời điểm trung tâm thứ hai là giá trị kỳ vọng của khoảng cách bình phương của một biến ngẫu nhiên từ giá trị dự kiến của nó.
Để đặt nó lên một tỷ lệ phù hợp hơn với các quan sát ban đầu, chúng tôi lấy căn bậc hai của thời điểm trung tâm thứ hai đó và gọi đó là độ lệch chuẩn.
Độ lệch chuẩn là một tài sản của dân số. Nó đo lường mức độ "phân tán" trung bình của dân số đó. Có phải tất cả các quan sát được tập hợp xung quanh ý nghĩa, hoặc chúng được lan truyền rộng rãi?
Để ước tính độ lệch chuẩn của dân số, chúng ta thường tính độ lệch chuẩn của một "mẫu" từ dân số đó. Để làm điều này, bạn lấy các quan sát từ quần thể đó, tính giá trị trung bình của các quan sát đó và sau đó tính căn bậc hai của độ lệch bình phương trung bình từ "giá trị trung bình mẫu" đó.
Để có được một ước lượng không thiên vị của phương sai, bạn không thực sự tính độ lệch bình phương trung bình so với trung bình mẫu, nhưng thay vào đó, bạn chia cho (N-1) trong đó N là số lượng quan sát trong mẫu của bạn. Lưu ý rằng "độ lệch chuẩn mẫu" này không phải là một ước lượng không thiên vị của độ lệch chuẩn, nhưng bình phương của "độ lệch chuẩn mẫu" là một ước lượng không thiên vị về phương sai của dân số.
Cách tốt nhất tôi đã hiểu độ lệch chuẩn là nghĩ về một thợ làm tóc! (Bạn cần thu thập dữ liệu từ thợ làm tóc và lấy trung bình tốc độ cắt tóc của cô ấy để ví dụ này hoạt động.)
Trung bình mất 30 phút để thợ cắt tóc cắt tóc.
Giả sử bạn thực hiện phép tính (hầu hết các gói phần mềm sẽ thực hiện việc này cho bạn) và bạn thấy rằng độ lệch chuẩn là 5 phút. Nó có nghĩa như sau:
Làm thế nào để tôi biết điều này? Bạn cần nhìn vào đường cong bình thường, trong đó 68% rơi vào 1 độ lệch chuẩn và 96% rơi vào 2 độ lệch chuẩn của giá trị trung bình (trong trường hợp này là 30 phút). Vì vậy, bạn thêm hoặc trừ độ lệch chuẩn từ giá trị trung bình.
Nếu tính nhất quán là mong muốn, như trong trường hợp này, thì độ lệch chuẩn càng nhỏ thì càng tốt. Trong trường hợp này, thợ làm tóc dành tối đa khoảng 40 phút với bất kỳ khách hàng nào. Bạn cần phải cắt tóc nhanh để chạy một quán rượu thành công!