Độ lệch chuẩn là gì?


31

Độ lệch chuẩn là gì, nó được tính như thế nào và công dụng của nó trong thống kê là gì?


7
Tôi không nghĩ mục đích của trang này là trả lời các câu hỏi của học sinh lớp 6. Và con tôi, khi đối mặt với một câu hỏi như vậy, sẽ google cho câu trả lời. Nếu có một phần cụ thể của định nghĩa bạn không hiểu, hãy hỏi đi. Nhưng một câu hỏi không tập trung như vậy về một chủ đề cơ bản như vậy chỉ ra (với tôi dù thế nào đi nữa) rằng người đăng thậm chí không cố gắng tìm câu trả lời. Điều gì sẽ xảy ra tiếp theo "Số là gì và chúng được sử dụng như thế nào?"
PeterR

9
Tôi nghĩ rằng câu hỏi này là ok. Trên thực tế, đó là ví dụ được đánh giá cao nhất về câu hỏi chủ đề trên Khu vực 51. Khái niệm cơ bản là ổn ở đây!
Peter Smit

6
Đồng ý, đó là một câu hỏi hợp lệ. Nó cũng được nêu rõ khi nó yêu cầu sử dụng và tính toán ví dụ. Chắc chắn mục đích của trang web là tạo ra một kho lưu trữ cho TẤT CẢ các câu hỏi thống kê.
Joel

5
Tôi đồng ý với Joel. Độ lệch chuẩn là một khái niệm quan trọng trong thống kê. Sẽ không vô lý nếu bạn không thể đặt câu hỏi về nó trên một trang web về việc đặt câu hỏi thống kê.
Parbury

4
Là một giáo viên trung học ở kiếp trước, tôi sẽ nói rằng không có câu hỏi ngớ ngẩn nào. Khoảnh khắc bạn gắn nhãn một câu hỏi là không xứng đáng, khoảnh khắc đó bạn lấy đi cách học hiệu quả nhất, đó là đặt câu hỏi! (Tôi sẽ trả lời câu hỏi này bên dưới.)
Adhesh Josh

Câu trả lời:


30

Độ lệch chuẩn là một số đại diện cho "mức chênh lệch" hoặc "độ phân tán" của một tập hợp dữ liệu. Có các biện pháp khác để lây lan, chẳng hạn như phạm vi và phương sai.

Dưới đây là một số bộ dữ liệu mẫu và độ lệch chuẩn của chúng:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

Các bộ dữ liệu trên có cùng ý nghĩa.

Độ lệch có nghĩa là "khoảng cách từ trung bình".

"Tiêu chuẩn" ở đây có nghĩa là "tiêu chuẩn hóa", có nghĩa là độ lệch chuẩn và giá trị trung bình ở cùng một đơn vị, không giống như phương sai.

Ví dụ: nếu chiều cao trung bình là 2 mét , độ lệch chuẩn có thể là 0,3 mét , trong khi phương sai sẽ là bình phương 0,09 mét .

Thật thuận tiện khi biết rằng ít nhất 75% các điểm dữ liệu luôn nằm trong 2 độ lệch chuẩn của giá trị trung bình (hoặc khoảng 95% nếu phân phối là Bình thường).

Ví dụ: nếu giá trị trung bình là 100 và độ lệch chuẩn là 15, thì ít nhất 75% giá trị nằm trong khoảng từ 70 đến 130.

Nếu phân phối xảy ra là Bình thường, thì 95% giá trị nằm trong khoảng từ 70 đến 130.

Nói chung, điểm kiểm tra IQ thường được phân phối và trung bình là 100. Một người "rất sáng" là hai độ lệch chuẩn trên trung bình, nghĩa là điểm kiểm tra IQ là 130.


Neil, cảm ơn bạn đã trả lời, bạn có thể vui lòng giải thích chi tiết hơn về phần "tiêu chuẩn" trong thuật ngữ "độ lệch chuẩn". Nếu nó phù hợp, bạn có thể vui lòng chạm vào cùng một "tiêu chuẩn" trong "lỗi tiêu chuẩn của trung bình". Cảm ơn bạn trước.
stan

Re các chỉnh sửa gần đây của bạn: SD được "chuẩn hóa" theo nghĩa nào? Thông thường, nó trở thành cơ sở cho tiêu chuẩn hóa, nhưng bản thân nó không được chuẩn hóa (chẳng hạn như thay đổi kích thước của nó bằng một số ước tính về biến thể lấy mẫu của nó).
whuber

Nó được chuẩn hóa để ở cùng đơn vị với giá trị trung bình
Neil McGuigan

Ví dụ với chiều cao trung bình là 2 mét là một ví dụ điển hình về việc cần phải chăm sóc việc sử dụng số thập phân. Ví dụ tương tự có thể được thực hiện bằng centimet trong đó độ lệch chuẩn 30 cm sẽ xuất phát hợp lý từ phương sai 900 cm.
Robert Jones

Ấn tượng của tôi là chúng nên được tránh trong các đơn vị đo lường chính. Hãy xem xét các kết quả nói về SD có 0,133 tính bằng mét được chuyển đổi thành số thập phân, centimet và milimét. Có ai quan tâm để làm sáng tỏ, xin vui lòng?
Robert Jones

9

Một trích dẫn từ Wikipedia .

Nó cho thấy có bao nhiêu biến thể từ "giá trị trung bình" (giá trị trung bình hoặc dự kiến ​​/ ngân sách). Độ lệch chuẩn thấp cho thấy các điểm dữ liệu có xu hướng rất gần với giá trị trung bình, trong khi độ lệch chuẩn cao cho thấy dữ liệu được trải rộng trên một phạm vi giá trị lớn.


5

Khi mô tả một biến chúng ta thường tóm tắt nó bằng hai biện pháp: thước đo tâm và thước đo độ lây lan. Các biện pháp phổ biến của trung tâm bao gồm giá trị trung bình, trung vị và chế độ. Biện pháp phổ biến bao gồm phạm vi phương sai và liên dải.

Phương sai (được biểu thị bằng sigma chữ thường Hy Lạp được nâng lên thành lũy thừa hai) thường được sử dụng khi giá trị trung bình được báo cáo. Phương sai là độ lệch bình phương trung bình của biến. Độ lệch được tính bằng cách trừ giá trị trung bình từ mỗi quan sát. Đây là bình phương vì tổng sẽ bằng không và bình phương loại bỏ vấn đề này trong khi vẫn duy trì kích thước tương đối của độ lệch. Vấn đề với việc sử dụng biến thể làm thước đo độ lây lan là nó nằm trong các đơn vị bình phương. Ví dụ: nếu biến quan tâm của chúng ta là chiều cao được đo bằng inch thì phương sai sẽ được báo cáo theo bình phương, điều này rất ít có ý nghĩa. Độ lệch chuẩn (được biểu thị bằng sigma chữ thường của Hy Lạp) là căn bậc hai của phương sai và trả về số đo độ lây lan cho các đơn vị ban đầu.

Khi sử dụng độ lệch chuẩn, người ta phải cẩn thận với các ngoại lệ vì chúng sẽ làm lệch độ lệch chuẩn (và giá trị trung bình) vì chúng không phải là các biện pháp chống lây lan. Một ví dụ đơn giản sẽ minh họa tài sản này. Giá trị trung bình của các trận đấu cricket khủng khiếp của tôi là 13, 14, 16, 23, 26, 28, 33, 39 và 61 là 28.11. Nếu chúng ta coi 61 là ngoại lệ và xóa nó, giá trị trung bình sẽ là 24.


1
Graham, tôi tự hỏi nếu có một số lỗi chính tả trong câu trả lời của bạn. Phương sai được đại diện bởi các sigma chữ thường Hy Lạp lũy thừa của 2 (tức là, ), và độ lệch chuẩn là vuông gốc của đó, hoặc chỉ sigma mà không có một số mũ (ví dụ, σ ). Bạn có thể muốn chỉnh sửa câu trả lời của bạn. σ2σ
gung - Tái lập Monica

2

Đây là cách tôi sẽ trả lời câu hỏi này bằng sơ đồ.

Giả sử chúng ta nặng 30 con mèo và tính trọng lượng trung bình. Sau đó, chúng tôi tạo ra một biểu đồ phân tán, với trọng số trên trục y và nhận dạng con mèo trên trục x. Trọng lượng trung bình có thể được vẽ trong một đường ngang. Sau đó chúng ta có thể vẽ các đường thẳng đứng kết nối từng điểm dữ liệu với đường trung bình - đây là độ lệch của từng điểm dữ liệu so với giá trị trung bình và chúng ta gọi chúng là phần dư. Bây giờ, những phần dư này có thể hữu ích vì chúng có thể cho chúng ta biết điều gì đó về sự lan truyền của dữ liệu: nếu có nhiều phần dư lớn, thì mèo sẽ thay đổi rất nhiều về khối lượng. Ngược lại, nếu phần dư chủ yếu là nhỏ, thì mèo khá tập trung xung quanh trọng lượng trung bình. Vì vậy, nếu chúng ta có thể có một số liệu cho chúng ta biết trung bìnhđộ dài của phần dư trong tập dữ liệu này, đây sẽ là một cách thuận tiện để biểu thị mức độ lan truyền của dữ liệu. Độ lệch chuẩn là, hiệu quả, chiều dài của phần dư trung bình.

Tôi sẽ tiếp tục từ điều này bằng cách đưa ra phép tính cho sd, giải thích lý do tại sao chúng ta vuông và sau đó là căn bậc hai (tôi thích lời giải thích ngắn gọn và ngọt ngào của Vaibhav). Sau đó, tôi sẽ đề cập đến các vấn đề của các ngoại lệ, như Graham làm trong đoạn cuối của mình.


1

Nếu thông tin cần thiết là phân phối dữ liệu về giá trị trung bình, độ lệch chuẩn sẽ có ích.

Tổng chênh lệch của mỗi giá trị từ giá trị trung bình bằng 0 (rõ ràng, vì giá trị được trải đều xung quanh giá trị trung bình), do đó chúng ta bình phương mỗi khác biệt để chuyển đổi giá trị âm thành dương, tính tổng chúng trên dân số và lấy giá trị của chúng căn bậc hai. Giá trị này sau đó được chia cho số lượng mẫu (hoặc, kích thước của dân số). Điều này cho độ lệch chuẩn.


".hence chúng ta bình phương mỗi khác biệt ...." Chúng ta có thể lấy giá trị tuyệt đối để loại bỏ các giá trị âm. Vậy tại sao bình phương là một phương pháp tốt hơn vì chúng ta phải lấy một căn bậc hai ở cuối? Tại sao không chỉ tổng các giá trị tuyệt đối của độ lệch?
Dilip Sarwate

Nhìn thấy cái này? liên kết
Vaibhav Garg

45

1
@DilipSarwate, với tất cả sự tôn trọng, Bằng chứng bởi chính quyền không gây ấn tượng với tôi. Giả sử "do đó" là "có thẩm quyền" là "Người rơm" mà tôi thà bỏ qua. Mức độ chi tiết trong bất kỳ tuyên bố nào là tương xứng với độ nghiêng và / hoặc ý nghĩa sư phạm của cùng một điều kiện trong một bối cảnh nhất định. Tôi cho rằng một người đang hỏi "Độ lệch chuẩn là gì, nó thế nào .... vậy sao?" có thể không muốn bị gánh nặng với các định nghĩa toán học nghiêm ngặt như nhau. Việc đơn giản hóa là có chủ ý và, để tôi đảm bảo với bạn, không phải là kết quả của việc không nhận thức được.
Vaibhav Garg

1
Và những gì, cầu nguyện nói, là .. "vì thế chúng ta vuông ..." ngoài một bằng chứng của chính quyền không gây ấn tượng với bạn? Không có lý do hợp lý tại sao bình phương tự động là giải pháp cho vấn đề như "do đó" của bạn ngụ ý.
Dilip Sarwate

1

Tôi thích nghĩ về nó như sau: độ lệch chuẩn là khoảng cách trung bình so với mức trung bình . Điều này có ích về mặt khái niệm hơn là hữu ích về mặt toán học, nhưng đó là một cách hay để giải thích nó cho người không quen biết.


0

Độ lệch chuẩn là căn bậc hai của thời điểm trung tâm thứ hai của phân phối. Một thời điểm trung tâm là sự khác biệt dự kiến ​​từ giá trị dự kiến ​​của phân phối. Một khoảnh khắc trung tâm đầu tiên thường sẽ là 0, vì vậy chúng tôi xác định thời điểm trung tâm thứ hai là giá trị kỳ vọng của khoảng cách bình phương của một biến ngẫu nhiên từ giá trị dự kiến ​​của nó.

Để đặt nó lên một tỷ lệ phù hợp hơn với các quan sát ban đầu, chúng tôi lấy căn bậc hai của thời điểm trung tâm thứ hai đó và gọi đó là độ lệch chuẩn.

Độ lệch chuẩn là một tài sản của dân số. Nó đo lường mức độ "phân tán" trung bình của dân số đó. Có phải tất cả các quan sát được tập hợp xung quanh ý nghĩa, hoặc chúng được lan truyền rộng rãi?

Để ước tính độ lệch chuẩn của dân số, chúng ta thường tính độ lệch chuẩn của một "mẫu" từ dân số đó. Để làm điều này, bạn lấy các quan sát từ quần thể đó, tính giá trị trung bình của các quan sát đó và sau đó tính căn bậc hai của độ lệch bình phương trung bình từ "giá trị trung bình mẫu" đó.

Để có được một ước lượng không thiên vị của phương sai, bạn không thực sự tính độ lệch bình phương trung bình so với trung bình mẫu, nhưng thay vào đó, bạn chia cho (N-1) trong đó N là số lượng quan sát trong mẫu của bạn. Lưu ý rằng "độ lệch chuẩn mẫu" này không phải là một ước lượng không thiên vị của độ lệch chuẩn, nhưng bình phương của "độ lệch chuẩn mẫu" là một ước lượng không thiên vị về phương sai của dân số.


6
đây là một phản ứng không rõ ràng Hãy cố gắng viết bằng tiếng Anh.
Neil McGuigan

1
co le vậy. là một người hỏi câu hỏi này một người đi bộ ngoài đường, hoặc một người ít nhất đã mở một cuốn sách thống kê. Nói với ai đó độ lệch chuẩn chỉ là căn bậc hai của phương sai hoàn toàn cầu xin câu hỏi.
Baltimark

-1

Cách tốt nhất tôi đã hiểu độ lệch chuẩn là nghĩ về một thợ làm tóc! (Bạn cần thu thập dữ liệu từ thợ làm tóc và lấy trung bình tốc độ cắt tóc của cô ấy để ví dụ này hoạt động.)

Trung bình mất 30 phút để thợ cắt tóc cắt tóc.

Giả sử bạn thực hiện phép tính (hầu hết các gói phần mềm sẽ thực hiện việc này cho bạn) và bạn thấy rằng độ lệch chuẩn là 5 phút. Nó có nghĩa như sau:

  • thợ làm tóc cắt tóc của 68% khách hàng của mình trong vòng 25 phút và 35 phút
  • thợ làm tóc cắt tóc của 96% khách hàng của mình trong vòng 20 và 40 phút

Làm thế nào để tôi biết điều này? Bạn cần nhìn vào đường cong bình thường, trong đó 68% rơi vào 1 độ lệch chuẩn và 96% rơi vào 2 độ lệch chuẩn của giá trị trung bình (trong trường hợp này là 30 phút). Vì vậy, bạn thêm hoặc trừ độ lệch chuẩn từ giá trị trung bình.

Nếu tính nhất quán là mong muốn, như trong trường hợp này, thì độ lệch chuẩn càng nhỏ thì càng tốt. Trong trường hợp này, thợ làm tóc dành tối đa khoảng 40 phút với bất kỳ khách hàng nào. Bạn cần phải cắt tóc nhanh để chạy một quán rượu thành công!


Tôi không nghĩ bạn đã đọc lại câu trả lời của mình, Adhesh. Bạn đã có một số thông tin mâu thuẫn ở đây. Xem bạn có đồng ý với các chỉnh sửa của tôi không?
rolando2

1
Bạn chỉ mô tả cách giải thích độ lệch chuẩn trong trường hợp phân phối bình thường. Quy tắc '68% 'và (và 95%) chỉ áp dụng cho dữ liệu được phân phối thông thường. Ít nhất nói rằng hai điểm đạn chỉ đúng nếu thời gian cắt tóc tuân theo phân phối bình thường.
Macro

Macro, tôi đã đề cập đến đường cong bình thường và một điều chắc chắn là nếu bạn sử dụng đường cong bình thường, dữ liệu sẽ tuân theo phân phối bình thường.
Adhesh Josh

@ rolando2 Tôi dường như không hiểu điều gì sai với lời giải thích của
Adhesh

@Amarald - bạn đã bấm vào "31 tháng 1 lúc 1:06" để xem các phiên bản trước và sau khi chỉnh sửa chưa? Tôi nghĩ rằng câu trả lời mạnh mẽ hơn sau đó, mặc dù Macro cũng tạo ra một điểm quan trọng.
rolando2
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.