Tại sao bình phương chênh lệch thay vì lấy giá trị tuyệt đối trong độ lệch chuẩn?
Chúng tôi bình phương sự khác biệt của x so với giá trị trung bình vì khoảng cách Euclide, tỷ lệ với căn bậc hai của bậc tự do (số x, trong một thước đo dân số), là thước đo phân tán tốt nhất.
Tính khoảng cách
Khoảng cách từ điểm 0 đến điểm 5 là bao nhiêu?
- 5−0=5 ,
- |0−5|=5 và
- 52−−√=5
Ok, đó là tầm thường bởi vì đó là một chiều duy nhất.
Làm thế nào về khoảng cách cho một điểm tại điểm 0, 0 đến điểm 3, 4?
Nếu chúng ta chỉ có thể đi theo 1 chiều tại một thời điểm (như trong các khối thành phố) thì chúng ta chỉ cần thêm các số lên. (Điều này đôi khi được gọi là khoảng cách Manhattan).
Nhưng những gì về đi trong hai chiều cùng một lúc? Sau đó (theo định lý Pythagore mà tất cả chúng ta đã học ở trường trung học), chúng ta bình phương khoảng cách theo từng chiều, tính tổng bình phương và sau đó lấy căn bậc hai để tìm khoảng cách từ điểm gốc đến điểm.
32+42−−−−−−√=25−−√=5
Làm thế nào về khoảng cách từ một điểm tại 0, 0, 0 đến điểm 1, 2, 2?
Đây chỉ là
12+22+22−−−−−−−−−−√=9–√=3
bởi vì khoảng cách cho hai x đầu tiên tạo thành chân để tính tổng khoảng cách với x cuối cùng.
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
Chúng ta có thể tiếp tục mở rộng quy tắc bình phương khoảng cách của mỗi chiều, điều này khái quát đến khoảng cách chúng ta gọi là khoảng cách Euclide, cho các phép đo trực giao trong không gian tăng chiều, như vậy:
distance=∑i=1nx2i−−−−−√
và do đó, tổng bình phương trực giao là khoảng cách bình phương:
distance2=∑i=1nx2i
Điều gì làm cho một phép đo trực giao (hoặc ở góc bên phải) với một số đo khác? Điều kiện là không có mối quan hệ giữa hai phép đo. Chúng tôi sẽ tìm kiếm các phép đo này là độc lập và phân phối riêng lẻ , ( iid ).
Phương sai
Bây giờ hãy nhớ lại công thức cho phương sai dân số (từ đó chúng ta sẽ có độ lệch chuẩn):
σ2=∑i=1n(xi−μ)2n
Nếu chúng ta đã tập trung dữ liệu ở mức 0 bằng cách trừ giá trị trung bình, chúng ta có:
σ2=∑i=1n(xi)2n
Vì vậy, chúng ta thấy phương sai chỉ là khoảng cách bình phương chia cho số bậc tự do (số thứ nguyên mà các biến số có thể tự do thay đổi). Đây cũng là đóng góp trung bình cho mỗi lần đo. "Phương sai bình phương trung bình" cũng sẽ là một thuật ngữ thích hợp.distance2
Độ lệch chuẩn
Sau đó, chúng ta có độ lệch chuẩn, chỉ là căn bậc hai của phương sai:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
Tương đương với khoảng cách , chia cho căn bậc hai của bậc tự do:
σ=∑i=1n(xi)2−−−−−−−√n−−√
Có nghĩa là độ lệch tuyệt đối
Độ lệch tuyệt đối trung bình (MAD), là thước đo độ phân tán sử dụng khoảng cách Manhattan hoặc tổng giá trị tuyệt đối của chênh lệch so với giá trị trung bình.
MAD=∑i=1n|xi−μ|n
Một lần nữa, giả sử dữ liệu được căn giữa (trung bình được trừ), chúng ta có khoảng cách Manhattan chia cho số lượng phép đo:
MAD=∑i=1n|xi|n
Thảo luận
- Độ lệch tuyệt đối trung bình là khoảng .8 lần ( thực tế là2/π−−−√ ) kích thước của độ lệch chuẩn cho một tập dữ liệu được phân phối bình thường.
- Bất kể phân phối, độ lệch tuyệt đối trung bình nhỏ hơn hoặc bằng độ lệch chuẩn. MAD nhấn mạnh sự phân tán của một tập dữ liệu với các giá trị cực trị, liên quan đến độ lệch chuẩn.
- Độ lệch tuyệt đối trung bình mạnh hơn đối với các ngoại lệ (nghĩa là các ngoại lệ không có ảnh hưởng lớn đến thống kê như chúng làm đối với độ lệch chuẩn.
- Nói về mặt hình học, nếu các phép đo không trực giao với nhau (iid) - ví dụ, nếu chúng có mối tương quan dương, độ lệch tuyệt đối sẽ là một thống kê mô tả tốt hơn độ lệch chuẩn, dựa trên khoảng cách Euclide (mặc dù điều này thường được coi là tốt ).
Bảng này phản ánh các thông tin trên một cách ngắn gọn hơn:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
Bình luận:
Bạn có tham chiếu cho "độ lệch tuyệt đối trung bình là khoảng .8 lần kích thước của độ lệch chuẩn cho một tập dữ liệu được phân phối bình thường" không? Các mô phỏng tôi đang chạy cho thấy điều này là không chính xác.
Dưới đây là 10 mô phỏng của một triệu mẫu từ phân phối chuẩn thông thường:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
Phần kết luận
Chúng tôi thích sự khác biệt bình phương khi tính toán độ phân tán vì chúng tôi có thể khai thác khoảng cách Euclide, điều này cho chúng tôi một thống kê mô tả rõ hơn về độ phân tán. Khi có các giá trị tương đối cực đoan hơn, khoảng cách Euclide chiếm tỷ lệ đó trong thống kê, trong khi khoảng cách Manhattan cho mỗi phép đo có trọng số bằng nhau.