Tại sao bình phương chênh lệch thay vì lấy giá trị tuyệt đối trong độ lệch chuẩn?


408

Trong định nghĩa của độ lệch chuẩn, tại sao chúng ta phải vuông chênh lệch từ giá trị trung bình để có được giá trị trung bình (E) và lấy căn bậc hai trở lại ở cuối? Thay vào đó, chúng ta có thể chỉ đơn giản là lấy giá trị tuyệt đối của chênh lệch và lấy giá trị (trung bình) mong đợi của chúng, và điều đó cũng không cho thấy sự biến đổi của dữ liệu? Số sẽ khác với phương pháp bình phương (phương pháp giá trị tuyệt đối sẽ nhỏ hơn), nhưng nó vẫn sẽ hiển thị sự lan truyền của dữ liệu. Bất cứ ai cũng biết tại sao chúng ta lấy phương pháp vuông này làm tiêu chuẩn?

Định nghĩa về độ lệch chuẩn:

σ=E[(Xμ)2].

Chúng ta không thể lấy giá trị tuyệt đối thay vào đó mà vẫn là một phép đo tốt?

σ=E[|Xμ|]


25
Theo một cách nào đó, phép đo mà bạn đề xuất được sử dụng rộng rãi trong trường hợp phân tích lỗi (chất lượng mô hình) - thì nó được gọi là MAE, "có nghĩa là lỗi tuyệt đối".

8
Khi chấp nhận một câu trả lời có vẻ quan trọng đối với tôi rằng chúng ta chú ý xem câu trả lời có phải là thông tư hay không. Phân phối bình thường dựa trên các phép đo phương sai này từ các thuật ngữ lỗi bình phương, nhưng đó không phải là lý do để sử dụng (XM) ^ 2 trên | XM |.
russellpierce

2
Bạn có nghĩ rằng thuật ngữ tiêu chuẩn có nghĩa đây là tiêu chuẩn ngày nay? Nó không giống như hỏi tại sao thành phần chính là "chính" chứ không phải thứ cấp?
cướp girard

51
Mỗi câu trả lời được cung cấp cho đến nay là thông tư. Họ tập trung vào việc dễ dàng tính toán toán học (điều này tốt nhưng không có nghĩa là cơ bản) hoặc vào các thuộc tính của phân phối Gaussian (Bình thường) và OLS. Khoảng 1800 Gauss bắt đầu với ít nhất hình vuông và phương sai và từ những nguồn gốc sự phân bố bình thường - có sự tuần hoàn. Một lý do thực sự cơ bản chưa được viện dẫn trong bất kỳ câu trả lời nào là vai trò duy nhất của phương sai trong Định lý giới hạn trung tâm . Một điều nữa là tầm quan trọng trong lý thuyết quyết định giảm thiểu tổn thất bậc hai.
whuber

2
Taleb đưa ra trường hợp tại Edge.org để rút lại độ lệch chuẩn và sử dụng độ lệch tuyệt đối trung bình.
Alex Holcombe

Câu trả lời:


188

Nếu mục tiêu của độ lệch chuẩn là tóm tắt sự lan truyền của một tập dữ liệu đối xứng (nghĩa là nói chung mỗi khoảng cách là bao xa so với giá trị trung bình), thì chúng ta cần một phương pháp tốt để xác định cách đo mức lan truyền đó.

Những lợi ích của bình phương bao gồm:

  • Bình phương luôn cho giá trị dương, vì vậy tổng sẽ không bằng không.
  • Squared nhấn mạnh sự khác biệt lớn hơn Một tính năng hóa ra cả tốt và xấu (nghĩ về các hiệu ứng ngoại lệ có).

Tuy nhiên, bình phương có một vấn đề như là một mức độ lây lan và đó là các đơn vị đều bình phương, trong khi chúng ta có thể thích sự lây lan ở cùng đơn vị với dữ liệu ban đầu (nghĩ về bình phương, đô la vuông hoặc táo bình phương) . Do đó căn bậc hai cho phép chúng ta trở về đơn vị ban đầu.

Tôi cho rằng bạn có thể nói rằng sự khác biệt tuyệt đối gán trọng số bằng nhau cho sự lan truyền dữ liệu trong khi bình phương nhấn mạnh đến các thái cực. Về mặt kỹ thuật, như những người khác đã chỉ ra, bình phương làm cho đại số dễ làm việc hơn và cung cấp các thuộc tính mà phương thức tuyệt đối không (ví dụ, phương sai bằng với giá trị mong đợi của bình phương phân phối trừ đi bình phương của giá trị trung bình của phân phối)

Tuy nhiên , điều quan trọng cần lưu ý là không có lý do gì bạn không thể có sự khác biệt tuyệt đối nếu đó là sở thích của bạn về cách bạn muốn xem 'lây lan' (cách mà một số người coi 5% là ngưỡng ma thuật cho giá trị, khi thực tế nó phụ thuộc vào tình huống). Thật vậy, trên thực tế có một số phương pháp cạnh tranh để đo lường sự lây lan.p

Quan điểm của tôi là sử dụng các giá trị bình phương vì tôi thích nghĩ về cách nó liên quan đến Định lý Thống kê Pythagore: . Điều này cũng giúp tôi nhớ rằng khi làm việc với các biến ngẫu nhiên độc lập , phương sai thêm, độ lệch chuẩn không. Nhưng đó chỉ là sở thích chủ quan cá nhân của tôi mà tôi chủ yếu chỉ sử dụng như một trợ giúp bộ nhớ, hãy thoải mái bỏ qua đoạn này.c=a2+b2

Một phân tích sâu hơn nhiều có thể được đọc ở đây .


72
"Bình phương luôn cho giá trị dương, vì vậy tổng sẽ không bằng không." và các giá trị tuyệt đối cũng vậy.
cướp girard

32
@robin girard: Điều đó là chính xác, do đó tại sao tôi đi trước điểm đó với "Lợi ích của bình phương bao gồm". Tôi đã không ngụ ý rằng bất cứ điều gì về giá trị tuyệt đối trong tuyên bố đó. Mặc dù vậy, tôi đưa ra quan điểm của bạn, tôi sẽ xem xét loại bỏ / đánh giá lại nếu người khác cảm thấy không rõ ràng.
Tony Breyal

15
Phần lớn lĩnh vực thống kê mạnh mẽ là một nỗ lực để đối phó với sự nhạy cảm quá mức đối với các ngoại lệ, đó là hậu quả của việc chọn phương sai làm thước đo lan truyền dữ liệu (quy mô kỹ thuật hoặc phân tán). vi.wikipedia.org/wiki/Robust_statistic
Thylacoleo

5
Bài viết liên kết đến trong câu trả lời là một vị thần gửi.
traggatmot 19/03/2015

1
Tôi nghĩ đoạn văn về Pythagoras là tại chỗ. Bạn có thể nghĩ lỗi là một vectơ trong chiều, với là số lượng mẫu. Kích thước trong mỗi kích thước là sự khác biệt so với giá trị trung bình của mẫu đó. Độ dài của vectơ đó (Pythagoras) là gốc của các hình vuông tổng, nghĩa là độ lệch chuẩn. n [ ( x 1 - μ ) , ( x 2 - μ ) , ( x 3 - μ ) , . . . ]nn[(x1μ),(x2μ),(x3μ),...]
Arne Brasseur

138

Sự khác biệt bình phương có tính chất toán học đẹp hơn; nó liên tục khác biệt (tốt đẹp khi bạn muốn giảm thiểu nó), đó là một thống kê đủ cho phân phối Gaussian, và đó là (một phiên bản) của chuẩn L2 có ích để chứng minh sự hội tụ, v.v.

Độ lệch tuyệt đối trung bình (ký hiệu giá trị tuyệt đối mà bạn đề xuất) cũng được sử dụng làm thước đo độ phân tán, nhưng nó không "hoạt động tốt" như lỗi bình phương.


2
cho biết "nó liên tục khác biệt (tốt đẹp khi bạn muốn giảm thiểu nó)" bạn có nghĩa là giá trị tuyệt đối khó tối ưu hóa?
cướp girard

29
@robin: trong khi hàm giá trị tuyệt đối liên tục ở mọi nơi, đạo hàm đầu tiên của nó không phải (tại x = 0). Điều này làm cho tối ưu hóa phân tích khó khăn hơn.
Vince

12
Có, nhưng việc tìm ra con số thực tế bạn muốn, thay vì chỉ là một mô tả của nó, sẽ dễ dàng hơn trong việc mất lỗi bình phương. Xem xét trường hợp 1 chiều; bạn có thể biểu thị bộ giảm thiểu lỗi bình phương bằng các phép toán O (n) và dạng đóng. Bạn có thể biểu thị giá trị của bộ giảm thiểu lỗi tuyệt đối theo trung vị, nhưng không có giải pháp dạng đóng cho bạn biết giá trị trung bình là gì; nó đòi hỏi một loại để tìm, đó là một cái gì đó giống như O (n log n). Các giải pháp bình phương tối thiểu có xu hướng là một hoạt động loại plug-and-chug đơn giản, các giải pháp giá trị tuyệt đối thường đòi hỏi nhiều công việc để tìm kiếm.
Giàu

5
@Rich: Cả phương sai và trung vị có thể được tìm thấy trong thời gian tuyến tính, và tất nhiên không nhanh hơn. Median không yêu cầu phân loại.
Neil G


84

Một cách bạn có thể nghĩ về điều này là độ lệch chuẩn tương tự như "khoảng cách từ giá trị trung bình".

So sánh điều này với khoảng cách trong không gian euclide - điều này mang lại cho bạn khoảng cách thực sự, trong đó những gì bạn đề xuất (mà, btw, là độ lệch tuyệt đối ) giống như một phép tính khoảng cách manhattan .


17
Tương tự tốt đẹp của không gian euclid!
c4il

2
Ngoại trừ trong một chiều các và chuẩn mực là những điều tương tự, không phải là họ? l 2l1l2
hư vô 101

5
@ naught101: Đây không phải là một chiều, mà là chiều trong đó là số lượng mẫu. Độ lệch chuẩn và độ lệch tuyệt đối lần lượt là (tỷ lệ) và , giữa hai điểm và trong đó là nghĩa là. n l 2 l 1 ( x 1 , x 2 , ... , x n ) ( μ , μ , ... , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
ShreevatsaR

1
Điều này nên được sửa đổi như khoảng cách tối thiểu từ giá trị trung bình. Nó thực chất là một phương trình Pythagore.
Giăng

56

Các lý do mà chúng tôi tính toán độ lệch chuẩn thay vì sai số tuyệt đối là chúng ta đang giả định lỗi để được phân phối bình thường . Đó là một phần của mô hình.

Giả sử bạn đã đo chiều dài rất nhỏ bằng thước kẻ, thì độ lệch chuẩn là một số liệu xấu cho lỗi vì bạn biết rằng bạn sẽ không bao giờ vô tình đo chiều dài âm. Một số liệu tốt hơn sẽ là một số liệu để phù hợp với phân phối Gamma cho các phép đo của bạn:

log(E(x))E(log(x))

Giống như độ lệch chuẩn, điều này cũng không âm và khác biệt, nhưng nó là một thống kê lỗi tốt hơn cho vấn đề này.


3
Tôi thích câu trả lời của bạn. Các sd không phải luôn luôn là thống kê tốt nhất.
RockScience

2
Ví dụ tuyệt vời như khi độ lệch chuẩn không phải là cách tốt nhất để nghĩ về kích thước dao động.
Hbar

Bạn không nên có một dấu hiệu trái ngược về số lượng để mang lại số đo dương - sử dụng lồi thay vì lõm ? log xlogxlogx
NHƯ

@AS Không, nó đã luôn luôn tích cực. Nó bằng 0 khi tất cả các mẫu đều bằng nhau, và nếu không thì độ lớn của nó đo được sự thay đổi. x
Neil G

Bạn đang nhầm. cho lõm . gE(g(X))g(E(X))g
NHƯ

25

Câu trả lời làm tôi hài lòng nhất là nó rơi ra một cách tự nhiên từ việc khái quát hóa một mẫu đến không gian euclid n chiều. Chắc chắn sẽ tranh cãi liệu đó có phải là điều nên làm hay không, nhưng trong mọi trường hợp:

Giả sử đo của bạn là mỗi trục trong . Sau đó, dữ liệu của bạn xác định một điểm trong không gian đó. Bây giờ bạn có thể nhận thấy rằng tất cả các dữ liệu rất giống nhau, vì vậy bạn có thể biểu thị chúng bằng một tham số vị trí duy nhất bị hạn chế nằm trên dòng được xác định bởi . Chiếu điểm dữ liệu của bạn lên dòng này sẽ giúp bạn và khoảng cách từ điểm được chiếu đến điểm dữ liệu thực tế là.nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

Cách tiếp cận này cũng giúp bạn có được một diễn giải hình học cho tương quan, .ρ^=cos(x~,y~)


7
Điều này là chính xác và hấp dẫn. Tuy nhiên, cuối cùng nó chỉ xuất hiện để viết lại câu hỏi mà không thực sự trả lời nó: cụ thể là tại sao chúng ta nên sử dụng khoảng cách Euclide (L2)?
whuber

20
@sesqu Độ lệch chuẩn không trở nên phổ biến cho đến khi Gauss năm 1809 rút ra độ lệch đồng nghĩa của mình bằng cách sử dụng lỗi bình phương, thay vì lỗi tuyệt đối, làm điểm bắt đầu. Tuy nhiên, điều khiến họ vượt lên trên đỉnh (tôi tin) là lý thuyết hồi quy của Galton (lúc đó bạn gợi ý) và khả năng ANOVA phân hủy các tổng bình phương - tương đương với Định lý Pythagore, một mối quan hệ chỉ được hưởng bởi Định mức L2. Do đó, SD đã trở thành một biện pháp omnibus tự nhiên về sự lây lan được ủng hộ trong "Phương pháp thống kê cho công nhân nghiên cứu" năm 1925 của Fisher và ở đây chúng ta, 85 năm sau.
whuber

13
(+1) Tiếp tục trong tĩnh mạch của @ whuber, tôi sẽ cá rằng Sinh viên đã xuất bản một bài báo vào năm 1908 với tựa đề: "Lỗi có thể có nghĩa - Này, các bạn, hãy xem MAE trong Mẫu số!" sau đó thống kê sẽ có một khuôn mặt hoàn toàn khác nhau bây giờ. Tất nhiên, anh ta đã không xuất bản một bài báo như thế, và tất nhiên anh ta không thể có, vì MAE không tự hào về tất cả các đặc tính tốt đẹp mà S ^ 2 có. Một trong số đó (liên quan đến Học sinh) là tính độc lập của giá trị trung bình (trong trường hợp thông thường), tất nhiên đó là sự phục hồi tính trực giao, giúp chúng ta quay lại L2 và sản phẩm bên trong.

3
Câu trả lời này rất kích thích tư duy và tôi nghĩ rằng cách ưa thích của tôi để xem nó. Trong 1-D thật khó hiểu tại sao bình phương sự khác biệt được xem là tốt hơn. Nhưng trong nhiều chiều (hoặc thậm chí chỉ 2), người ta có thể dễ dàng thấy rằng khoảng cách Euclide (bình phương) thích hợp hơn khoảng cách Manhattan (tổng giá trị tuyệt đối của sự khác biệt).
thecity2

1
@whuber Bạn có thể giải thích "dòng được xác định bởi Xᵢ =" nghĩa là gì không? Đây có phải là dòng đi qua gốc và điểm (μ, μ, ..., μ) không? Ngoài ra, tôi có thể đọc thêm về điều này ở đâu?
Arch Stanton

18

Bình phương sự khác biệt từ trung bình có một vài lý do.

  • Phương sai được định nghĩa là khoảnh khắc thứ 2 của độ lệch (RV ở đây là ) và do đó bình phương là khoảnh khắc chỉ đơn giản là kỳ vọng về sức mạnh cao hơn của biến ngẫu nhiên.(xμ)

  • Có một hình vuông trái ngược với hàm giá trị tuyệt đối sẽ cho hàm liên tục và khác biệt tốt (giá trị tuyệt đối không khác biệt ở 0) - điều này làm cho nó trở thành lựa chọn tự nhiên, đặc biệt là trong bối cảnh ước tính và phân tích hồi quy.

  • Công thức bình phương cũng tự nhiên rơi ra khỏi các tham số của Phân phối chuẩn.


17

Tuy nhiên, một lý do khác (ngoài những lý do xuất sắc ở trên) đến từ chính Fisher, người đã chỉ ra rằng độ lệch chuẩn là "hiệu quả" hơn độ lệch tuyệt đối. Ở đây, hiệu quả phải làm với bao nhiêu thống kê sẽ dao động về giá trị trên các cách lấy mẫu khác nhau từ dân số. Nếu dân số của bạn được phân phối bình thường, độ lệch chuẩn của các mẫu khác nhau từ dân số đó, trung bình, sẽ có xu hướng cung cấp cho bạn các giá trị khá giống nhau, trong khi độ lệch tuyệt đối sẽ cung cấp cho bạn các con số trải rộng hơn một chút. Bây giờ, rõ ràng đây là trong hoàn cảnh lý tưởng, nhưng lý do này đã thuyết phục rất nhiều người (cùng với toán học sạch hơn), vì vậy hầu hết mọi người làm việc với độ lệch chuẩn.


6
Đối số của bạn phụ thuộc vào dữ liệu được phân phối bình thường. Nếu chúng ta giả sử dân số có phân phối "hàm mũ đôi", thì độ lệch tuyệt đối sẽ hiệu quả hơn (thực tế nó là một thống kê đủ cho thang đo)
xác suất

7
Vâng, như tôi đã nói, "nếu dân số của bạn được phân phối bình thường."
Eric Suh

Bên cạnh giả định phân phối bình thường, bằng chứng Fisher giả định các phép đo không có lỗi. Với các lỗi nhỏ như 1%, tình huống đảo ngược và độ lệch tuyệt đối trung bình hiệu quả hơn độ lệch chuẩn
juanrga

14

Để mọi người biết, có một câu hỏi Toán học tràn về cùng một chủ đề.

Tại sao-nó-nó-rất-mát-to-vuông-số-trong-điều-của-tìm-các-tiêu chuẩn-độ lệch

Thông điệp mang đi là việc sử dụng căn bậc hai của phương sai dẫn đến toán học dễ dàng hơn. Một câu trả lời tương tự được đưa ra bởi Rich và Reed ở trên.


3
"Toán học dễ dàng hơn" không phải là một yêu cầu thiết yếu khi chúng ta muốn các công thức và giá trị của chúng ta phản ánh chân thực hơn một tập hợp dữ liệu nhất định. Máy tính làm tất cả các công việc khó khăn nào.
Dan W

Xác định pi là 3.14 giúp toán học dễ dàng hơn, nhưng điều đó không làm cho nó đúng.
James

13

Phương sai là phụ gia: cho các biến ngẫu nhiên độc lập , var ( X 1 + + X n ) = var ( X 1 ) + + var ( X n ) .X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

Lưu ý những gì điều này có thể xảy ra: Nói rằng tôi ném một đồng xu công bằng 900 lần. Xác suất mà số lượng đầu tôi nhận được là từ 440 đến 455 bao gồm những gì? Chỉ cần tìm số lượng đầu dự kiến ​​( ) và phương sai của số lượng đầu ( ), sau đó tìm xác suất có phân phối (hoặc Gaussian) bình thường với kỳ vọng và độ lệch chuẩn nằm trong khoảng và . Abraham de Moivre đã làm điều này với việc tung đồng xu vào thế kỷ 18, qua đó lần đầu tiên cho thấy đường cong hình chuông có giá trị gì đó.450 450 15 439,5 455,5225=15245015439.5455.5


Có phải độ lệch tuyệt đối không phải là phụ gia theo cùng một cách như phương sai?
russellpierce

6
Không, họ không phải.
Michael Hardy

10

Tôi nghĩ rằng sự tương phản giữa việc sử dụng độ lệch tuyệt đối và độ lệch bình phương trở nên rõ ràng hơn khi bạn vượt ra ngoài một biến số duy nhất và suy nghĩ về hồi quy tuyến tính. Có một cuộc thảo luận thú vị tại http://en.wikipedia.org/wiki/Least_absolute_devutions , đặc biệt là phần "Tương phản bình phương tối thiểu với độ lệch tuyệt đối nhỏ nhất", liên kết đến một số bài tập của học sinh với một bộ applet gọn gàng tại http: // www .math.wpi.edu / Course_M vật liệu / SAS / lablets / 7.3 / 73_choices.html .

Tóm lại, độ lệch nhỏ nhất tuyệt đối mạnh hơn so với bình phương tối thiểu thông thường, nhưng nó có thể không ổn định (thay đổi nhỏ trong một mốc dữ liệu có thể tạo ra thay đổi lớn trong đường được trang bị) và không phải lúc nào cũng có giải pháp duy nhất - có thể có một loạt các dòng trang bị. Ngoài ra độ lệch tuyệt đối ít nhất đòi hỏi các phương pháp lặp, trong khi bình phương tối thiểu thông thường có một giải pháp dạng đóng đơn giản, mặc dù đó không phải là vấn đề lớn như thời Gauss và Legendre, tất nhiên.


đối số "giải pháp duy nhất" khá yếu, điều đó thực sự có nghĩa là có nhiều hơn một giá trị được hỗ trợ bởi dữ liệu. Ngoài ra, việc xử phạt các hệ số, chẳng hạn như L2, sẽ giải quyết vấn đề duy nhất và vấn đề ổn định ở một mức độ nào đó.
xác suất

10

Có nhiều lý do; có lẽ chính là nó hoạt động tốt như tham số của phân phối bình thường.


4
Tôi đồng ý. Độ lệch chuẩn là cách đúng để đo độ phân tán nếu bạn giả sử phân phối bình thường. Và rất nhiều phân phối và dữ liệu thực tế là một bình thường.
Łukasz Lew

2
Tôi không nghĩ bạn nên nói "tham số tự nhiên": các tham số tự nhiên của phân phối chuẩn là độ chính xác trung bình và thời gian trung bình. ( vi.wikipedia.org/wiki/Natural_parameter )
Neil G

1
@NeilG Điểm tốt; Tôi đã suy nghĩ về ý nghĩa "bình thường" ở đây. Tôi sẽ nghĩ về một số từ tốt hơn.

8

Theo nhiều cách, việc sử dụng độ lệch chuẩn để tóm tắt sự phân tán đang đi đến kết luận. Bạn có thể nói rằng SD mặc nhiên giả định phân phối đối xứng vì cách xử lý bằng nhau của khoảng cách dưới giá trị trung bình so với khoảng cách trên giá trị trung bình. SD rất khó để giải thích cho những người không thống kê. Người ta có thể lập luận rằng sự khác biệt trung bình của Gini có ứng dụng rộng hơn và dễ hiểu hơn nhiều. Nó không yêu cầu người ta phải tuyên bố lựa chọn của họ về thước đo xu hướng trung tâm vì việc sử dụng SD có nghĩa là trung bình. Sự khác biệt trung bình của Gini là sự khác biệt tuyệt đối trung bình giữa bất kỳ hai quan sát khác nhau. Bên cạnh đó là mạnh mẽ và dễ dàng để giải thích, nó xảy ra là 0,98 hiệu quả như SD nếu phân phối thực sự là Gaussian.


2
Chỉ cần thêm vào gợi ý của @ Frank trên Gini, có một bài viết hay ở đây: projecteuclid.org/doad/pdf_1/euclid.ss/1028905831 Nó đi qua các biện pháp phân tán khác nhau và cũng đưa ra một viễn cảnh lịch sử thông tin.
Thomas Speidel

1
Tôi cũng thích những ý tưởng này, nhưng có một định nghĩa song song ít được biết đến về phương sai (và do đó là SD) không tham chiếu đến phương tiện như các tham số vị trí. Phương sai là một nửa bình phương trung bình trên tất cả các khác biệt theo cặp giữa các giá trị, giống như sự khác biệt trung bình của Gini dựa trên các giá trị tuyệt đối của tất cả các khác biệt theo cặp.
Nick Cox

7

Ước tính độ lệch chuẩn của phân phối đòi hỏi phải chọn khoảng cách.
Bất kỳ khoảng cách nào sau đây có thể được sử dụng:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

Chúng ta thường sử dụng khoảng cách euclide tự nhiên ( ), đó là khoảng cách mọi người sử dụng trong cuộc sống hàng ngày. Khoảng cách mà bạn đề xuất là khoảng cách với . Cả hai đều là ứng cử viên tốt nhưng họ khác nhau.n = 1n=2n=1

Người ta có thể quyết định sử dụng là tốt.n=3

Tôi không chắc chắn rằng bạn sẽ thích câu trả lời của tôi, quan điểm của tôi trái với người khác là không chứng minh rằng là tốt hơn. Tôi nghĩ rằng nếu bạn muốn ước tính độ lệch chuẩn của phân phối, bạn hoàn toàn có thể sử dụng một khoảng cách khác.n=2


6

Nó phụ thuộc vào những gì bạn đang nói về khi bạn nói "sự lan truyền của dữ liệu". Đối với tôi điều này có thể có nghĩa là hai điều:

  1. Chiều rộng của phân phối mẫu
  2. Độ chính xác của một ước tính nhất định

Đối với điểm 1) không có lý do cụ thể để sử dụng độ lệch chuẩn làm thước đo độ lây lan, ngoại trừ khi bạn có phân phối lấy mẫu bình thường. Biện pháp là một biện pháp thích hợp hơn trong trường hợp phân phối Lấy mẫu Laplace . Tôi đoán là độ lệch chuẩn được sử dụng ở đây vì trực giác được mang từ điểm 2). Có lẽ cũng do sự thành công của mô hình bình phương tối thiểu nói chung, mà độ lệch chuẩn là thước đo phù hợp. Có lẽ cũng bởi vì tính toán thường dễ hơn so với tính toán cho hầu hết các phân phối.E(|Xμ|)E(X2)E(|X|)

Bây giờ, đối với điểm 2) có một lý do rất chính đáng để sử dụng phương sai / độ lệch chuẩn làm thước đo độ lây lan, trong một trường hợp cụ thể, nhưng rất phổ biến. Bạn có thể thấy nó trong xấp xỉ Laplace đến một hậu thế. Với Dữ liệu và thông tin trước , hãy viết phần sau cho tham số là:DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

Tôi đã sử dụng như một biến giả để chỉ ra rằng mẫu số không phụ thuộc vào . Nếu hậu thế có một mức tối đa được làm tròn tốt (nghĩa là không quá gần với "ranh giới"), chúng ta có thể mở rộng xác suất đăng nhập về mức tối đa . Nếu chúng tôi thực hiện hai điều khoản đầu tiên của việc mở rộng taylor, chúng tôi sẽ nhận được (sử dụng số nguyên tố để phân biệt):q q maxtθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

Nhưng chúng tôi có ở đây bởi vì là "được làm tròn tốt", , vì vậy chúng tôi có:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

Nếu chúng ta cắm vào xấp xỉ này, chúng ta sẽ nhận được:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

Mà, nhưng đối với ký hiệu là phân phối bình thường, với giá trị trung bình bằng và phương sai bằngE(θDI)θmax

V(θDI)[h(θmax)]1

( luôn dương vì chúng tôi có mức tối đa được làm tròn tốt). Vì vậy, điều này có nghĩa là trong "các vấn đề thường xuyên" (phần lớn trong số đó), phương sai là đại lượng cơ bản quyết định độ chính xác của các ước tính cho . Vì vậy, đối với các ước tính dựa trên một lượng lớn dữ liệu, độ lệch chuẩn có ý nghĩa rất lớn về mặt lý thuyết - nó cho bạn biết về cơ bản mọi thứ bạn cần biết. Về cơ bản, cùng một đối số áp dụng (với cùng điều kiện bắt buộc) trong trường hợp đa chiều với là một ma trận Hessian. Các mục chéo cũng về cơ bản là phương sai ở đây.h(θmax)θh(θ)jk=h(θ)θjθk

Người thường xuyên sử dụng phương pháp khả năng tối đa sẽ đi đến cùng một kết luận vì MLE có xu hướng là sự kết hợp trọng số của dữ liệu và đối với các mẫu lớn, Định lý giới hạn trung tâm áp dụng và về cơ bản bạn sẽ nhận được kết quả tương tự nếu chúng ta lấy nhưng với và hoán đổi cho nhau: (xem bạn có đoán được mô hình nào tôi thích không: P). Vì vậy, trong cả hai cách, trong ước lượng tham số, độ lệch chuẩn là một thước đo lý thuyết quan trọng của sự lây lan.θ θ max p ( θ max | θ ) N ( θ , [ - h " ( θ max ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"Tại sao bình phương chênh lệch" thay vì "lấy giá trị tuyệt đối"? Để trả lời rất chính xác, có tài liệu đưa ra lý do nó được thông qua và trường hợp tại sao hầu hết những lý do đó không được giữ. "Chúng ta không thể đơn giản lấy giá trị tuyệt đối ...?". Tôi nhận thức được văn học trong đó câu trả lời là có nó đang được thực hiện và làm như vậy được cho là có lợi.

Tác giả Gorard, trước tiên, sử dụng hình vuông đã được thông qua trước đây vì lý do đơn giản tính toán nhưng những lý do ban đầu đó không còn tồn tại. Gorard tuyên bố, thứ hai, rằng OLS đã được thông qua vì Fisher thấy rằng kết quả trong các mẫu phân tích sử dụng OLS có độ lệch nhỏ hơn so với những mẫu sử dụng sự khác biệt tuyệt đối (đại khái). Do đó, dường như OLS có thể có lợi ích trong một số trường hợp lý tưởng; tuy nhiên, Gorard tiến hành lưu ý rằng có một số sự đồng thuận (và ông tuyên bố rằng Fisher đã đồng ý) rằng trong điều kiện thế giới thực (đo lường quan sát không hoàn hảo, phân phối không đồng đều, nghiên cứu về dân số không suy luận từ mẫu), sử dụng hình vuông còn tệ hơn sự khác biệt tuyệt đối.

Câu trả lời của Gorard cho câu hỏi của bạn "Chúng ta có thể đơn giản lấy giá trị tuyệt đối của chênh lệch thay vào đó và nhận giá trị (trung bình) của những thứ đó không?" là có. Một lợi thế khác là việc sử dụng sự khác biệt tạo ra các biện pháp (biện pháp sai sót và biến thể) có liên quan đến cách chúng ta trải nghiệm những ý tưởng đó trong cuộc sống. Gorard nói hãy tưởng tượng những người chia đều hóa đơn nhà hàng và một số người có thể nhận thấy bằng trực giác rằng phương pháp đó là không công bằng. Không ai ở đó sẽ bình phương các lỗi; sự khác biệt là điểm.

Cuối cùng, bằng cách sử dụng sự khác biệt tuyệt đối, ông lưu ý, đối xử với từng quan sát như nhau, trong khi ngược lại, sự khác biệt mang lại cho các quan sát dự đoán trọng lượng lớn hơn so với các quan sát dự đoán tốt, giống như cho phép các quan sát nhất định được đưa vào nghiên cứu nhiều lần. Tóm lại, lực đẩy chung của ông là ngày nay không có nhiều lý do chiến thắng để sử dụng hình vuông và ngược lại sử dụng sự khác biệt tuyệt đối có lợi thế.

Người giới thiệu:


1
Cảm ơn @Jen, điều này làm tôi nhớ đến lịch sử bàn phím QWERTY. Này, tại sao phải mất quá lâu để gõ QWERTY?
toto_tico

5

Bởi vì hình vuông có thể cho phép sử dụng nhiều hoạt động hoặc hàm toán học khác dễ dàng hơn các giá trị tuyệt đối.

Ví dụ: hình vuông có thể được tích hợp, phân biệt, có thể được sử dụng trong các hàm lượng giác, logarit và các chức năng khác, một cách dễ dàng.


2
Tôi tự hỏi nếu có một lời tự hoàn thành ở đây. Chúng tôi nhận được
xác suất

5

Khi thêm các biến ngẫu nhiên, phương sai của chúng thêm, cho tất cả các phân phối. Phương sai (và do đó độ lệch chuẩn) là một thước đo hữu ích cho hầu hết tất cả các phân phối và không giới hạn trong các phân phối gaussian (còn gọi là "bình thường"). Đó là ủng hộ sử dụng nó như là biện pháp lỗi của chúng tôi. Thiếu tính độc đáo là một vấn đề nghiêm trọng với sự khác biệt tuyệt đối, vì thường có vô số "mức độ phù hợp" bằng nhau, và rõ ràng "một ở giữa" được ưa chuộng thực tế nhất. Ngoài ra, ngay cả với các máy tính ngày nay, vấn đề hiệu quả tính toán. Tôi làm việc với các tập dữ liệu lớn và thời gian CPU rất quan trọng. Tuy nhiên, không có số đo "tốt nhất" tuyệt đối nào của phần dư, như được chỉ ra bởi một số câu trả lời trước đó. Hoàn cảnh khác nhau đôi khi kêu gọi các biện pháp khác nhau.


2
Tôi vẫn không tin rằng phương sai rất hữu ích cho các phân phối bất đối xứng.
Frank Harrell

Thế còn một cặp "bán phương sai", một hướng lên, một hướng xuống?
kjetil b halvorsen

3

Đương nhiên, bạn có thể mô tả sự phân tán của một phân phối theo bất kỳ cách nào có ý nghĩa (độ lệch tuyệt đối, lượng tử, v.v.).

Một thực tế tốt đẹp là phương sai là thời điểm trung tâm thứ hai và mọi phân phối được mô tả duy nhất bởi các khoảnh khắc của nó nếu chúng tồn tại. Một thực tế tốt đẹp khác là phương sai về mặt toán học dễ điều khiển hơn bất kỳ số liệu so sánh nào. Một thực tế khác là phương sai là một trong hai tham số của phân phối chuẩn cho tham số thông thường và phân phối bình thường chỉ có 2 khoảnh khắc trung tâm khác không là hai tham số đó. Ngay cả đối với các phân phối không bình thường cũng có thể hữu ích để suy nghĩ trong một khuôn khổ bình thường.

Như tôi thấy, lý do độ lệch chuẩn tồn tại là vì trong các ứng dụng, căn bậc hai của phương sai thường xuyên xuất hiện (chẳng hạn như để chuẩn hóa một phương sai ngẫu nhiên), đòi hỏi phải đặt tên cho nó.


1
Nếu tôi nhớ lại một cách chính xác, thì phân phối log-normal không được xác định duy nhất bởi các khoảnh khắc của nó.
xác suất

1
@probabilityislogic, thực sự, đó là sự thật, xem en.wikipedia.org/wiki/Log-n normal_distribution trong phần "Hàm đặc trưng và hàm tạo thời điểm".
kjetil b halvorsen

1

Một cách tiếp cận khác và có lẽ trực quan hơn là khi bạn nghĩ về hồi quy tuyến tính so với hồi quy trung bình.

Giả sử mô hình của chúng tôi là . Sau đó, chúng tôi tìm thấy b bằng cách giảm thiểu số dư bình phương dự kiến, .E(y|x)=xββ=argminbE(yxb)2

Nếu thay vào đó, mô hình của chúng tôi là Median , thì chúng tôi tìm thấy ước tính tham số của mình bằng cách giảm thiểu số dư tuyệt đối ,.(y|x)=xββ=argminbE|yxb|

Nói cách khác, việc sử dụng lỗi tuyệt đối hay bình phương phụ thuộc vào việc bạn muốn mô hình hóa giá trị mong đợi hay giá trị trung bình.

Nếu sự phân bố, ví dụ, hiển thị các biến ngẫu nhiên sai lệch, sau đó có một sự khác biệt lớn trong cách độ dốc của giá trị kỳ vọng của thay đổi theo như thế nào dốc là dành cho trung bình giá trị của .yxy

Koenker và Hallock có một phần hay về hồi quy lượng tử, trong đó hồi quy trung vị là một trường hợp đặc biệt: http://master272.com/finance/QR/QRJEP.pdf .


0

Tôi đoán là thế này: Hầu hết các quần thể (phân phối) có xu hướng tụ tập xung quanh giá trị trung bình. Giá trị càng xa giá trị trung bình thì càng hiếm. Để thể hiện đầy đủ mức độ "nằm ngoài dòng" của một giá trị, cần phải tính đến cả khoảng cách của nó với giá trị trung bình và độ hiếm xảy ra của nó. Bình phương sự khác biệt so với giá trị trung bình thực hiện điều này, so với các giá trị có độ lệch nhỏ hơn. Khi tất cả các phương sai được tính trung bình, bạn có thể lấy căn bậc hai, trả về các đơn vị về kích thước ban đầu của chúng.


2
Điều này không giải thích lý do tại sao bạn không thể lấy giá trị tuyệt đối của sự khác biệt. Điều đó có vẻ đơn giản về mặt khái niệm đối với hầu hết các sinh viên thống kê 101, và nó sẽ "tính đến cả khoảng cách của nó với mức độ trung bình và độ hiếm (nói bình thường) của nó".
gung

Tôi nghĩ rằng giá trị tuyệt đối của sự khác biệt sẽ chỉ thể hiện sự khác biệt so với giá trị trung bình và sẽ không tính đến thực tế là sự khác biệt lớn gấp đôi gây gián đoạn cho một phân phối bình thường.
Samuel Berry

2
Tại sao "gây rối gấp đôi" lại quan trọng và không, nói, "gây rối ba lần" hay "gây rối gấp bốn lần"? Có vẻ như câu trả lời này chỉ đơn thuần thay thế câu hỏi ban đầu bằng một câu hỏi tương đương.
whuber

0

Bình phương khuếch đại độ lệch lớn hơn.

Nếu mẫu của bạn có các giá trị nằm trên biểu đồ thì để mang lại 68,2% trong độ lệch chuẩn đầu tiên, độ lệch chuẩn của bạn cần rộng hơn một chút. Nếu dữ liệu của bạn có xu hướng giảm xung quanh giá trị trung bình thì có thể chặt chẽ hơn.

Một số người nói rằng đó là để đơn giản hóa các tính toán. Sử dụng căn bậc hai dương của hình vuông sẽ giải quyết được điều đó để đối số không nổi.

|x|=x2

Vì vậy, nếu sự đơn giản đại số là mục tiêu thì nó sẽ trông như thế này:

σ=E[(xμ)2] mang lại kết quả tương tự như .E[|xμ|]

Rõ ràng bình phương này cũng có tác dụng khuếch đại các lỗi ngoại vi (doh!).


Dựa trên một lá cờ tôi vừa xử lý, tôi nghi ngờ người downvoter không hoàn toàn hiểu câu trả lời này trả lời câu hỏi như thế nào. Tôi tin rằng tôi thấy kết nối (tuy nhiên bạn có thể xem xét thực hiện một số chỉnh sửa để giúp những người đọc khác đánh giá cao điểm của bạn hơn). Tuy nhiên, đoạn đầu tiên của bạn khiến tôi trở thành một phần của một đối số vòng tròn: giá trị 68,2% được lấy từ các thuộc tính của độ lệch chuẩn, do đó, việc gọi số đó giúp chứng minh bằng cách sử dụng SD thay vì một số sai lệch từ trung bình như là một cách để định lượng sự lây lan của một phân phối? Lp
whuber

Đoạn đầu tiên là lý do cho downvote của tôi.
Alexis

3
@Preston Thayne: Vì độ lệch chuẩn không phải là giá trị mong đợi sqrt((x-mu)^2), nên công thức của bạn là sai lệch. Ngoài ra, chỉ vì bình phương có tác dụng khuếch đại độ lệch lớn hơn không có nghĩa đây là lý do để thích phương sai hơn MAD . Nếu bất cứ điều gì, đó là một tài sản trung lập vì đôi khi chúng tôi muốn một cái gì đó mạnh mẽ hơn như MAD . Cuối cùng, thực tế là phương sai có thể dễ hiểu hơn về mặt toán học so với MAD là một vấn đề sâu sắc hơn nhiều về mặt toán học mà bạn đã truyền đạt trong bài viết này.
Steve S

0

Tại sao bình phương chênh lệch thay vì lấy giá trị tuyệt đối trong độ lệch chuẩn?

Chúng tôi bình phương sự khác biệt của x so với giá trị trung bình vì khoảng cách Euclide, tỷ lệ với căn bậc hai của bậc tự do (số x, trong một thước đo dân số), là thước đo phân tán tốt nhất.

Tính khoảng cách

Khoảng cách từ điểm 0 đến điểm 5 là bao nhiêu?

  • 50=5 ,
  • |05|=5
  • 52=5

Ok, đó là tầm thường bởi vì đó là một chiều duy nhất.

Làm thế nào về khoảng cách cho một điểm tại điểm 0, 0 đến điểm 3, 4?

Nếu chúng ta chỉ có thể đi theo 1 chiều tại một thời điểm (như trong các khối thành phố) thì chúng ta chỉ cần thêm các số lên. (Điều này đôi khi được gọi là khoảng cách Manhattan).

Nhưng những gì về đi trong hai chiều cùng một lúc? Sau đó (theo định lý Pythagore mà tất cả chúng ta đã học ở trường trung học), chúng ta bình phương khoảng cách theo từng chiều, tính tổng bình phương và sau đó lấy căn bậc hai để tìm khoảng cách từ điểm gốc đến điểm.

32+42=25=5

Làm thế nào về khoảng cách từ một điểm tại 0, 0, 0 đến điểm 1, 2, 2?

Đây chỉ là

12+22+22=9=3

bởi vì khoảng cách cho hai x đầu tiên tạo thành chân để tính tổng khoảng cách với x cuối cùng.

x12+x222+x32=x12+x22+x32

Chúng ta có thể tiếp tục mở rộng quy tắc bình phương khoảng cách của mỗi chiều, điều này khái quát đến khoảng cách chúng ta gọi là khoảng cách Euclide, cho các phép đo trực giao trong không gian tăng chiều, như vậy:

distance=i=1nxi2

và do đó, tổng bình phương trực giao là khoảng cách bình phương:

distance2=i=1nxi2

Điều gì làm cho một phép đo trực giao (hoặc ở góc bên phải) với một số đo khác? Điều kiện là không có mối quan hệ giữa hai phép đo. Chúng tôi sẽ tìm kiếm các phép đo này là độc lập và phân phối riêng lẻ , ( iid ).

Phương sai

Bây giờ hãy nhớ lại công thức cho phương sai dân số (từ đó chúng ta sẽ có độ lệch chuẩn):

σ2=i=1n(xiμ)2n

Nếu chúng ta đã tập trung dữ liệu ở mức 0 bằng cách trừ giá trị trung bình, chúng ta có:

σ2=i=1n(xi)2n

Vì vậy, chúng ta thấy phương sai chỉ là khoảng cách bình phương chia cho số bậc tự do (số thứ nguyên mà các biến số có thể tự do thay đổi). Đây cũng là đóng góp trung bình cho mỗi lần đo. "Phương sai bình phương trung bình" cũng sẽ là một thuật ngữ thích hợp.distance2

Độ lệch chuẩn

Sau đó, chúng ta có độ lệch chuẩn, chỉ là căn bậc hai của phương sai:

σ=i=1n(xiμ)2n

Tương đương với khoảng cách , chia cho căn bậc hai của bậc tự do:

σ=i=1n(xi)2n

Có nghĩa là độ lệch tuyệt đối

Độ lệch tuyệt đối trung bình (MAD), là thước đo độ phân tán sử dụng khoảng cách Manhattan hoặc tổng giá trị tuyệt đối của chênh lệch so với giá trị trung bình.

MAD=i=1n|xiμ|n

Một lần nữa, giả sử dữ liệu được căn giữa (trung bình được trừ), chúng ta có khoảng cách Manhattan chia cho số lượng phép đo:

MAD=i=1n|xi|n

Thảo luận

  • Độ lệch tuyệt đối trung bình là khoảng .8 lần ( thực tế là2/π ) kích thước của độ lệch chuẩn cho một tập dữ liệu được phân phối bình thường.
  • Bất kể phân phối, độ lệch tuyệt đối trung bình nhỏ hơn hoặc bằng độ lệch chuẩn. MAD nhấn mạnh sự phân tán của một tập dữ liệu với các giá trị cực trị, liên quan đến độ lệch chuẩn.
  • Độ lệch tuyệt đối trung bình mạnh hơn đối với các ngoại lệ (nghĩa là các ngoại lệ không có ảnh hưởng lớn đến thống kê như chúng làm đối với độ lệch chuẩn.
  • Nói về mặt hình học, nếu các phép đo không trực giao với nhau (iid) - ví dụ, nếu chúng có mối tương quan dương, độ lệch tuyệt đối sẽ là một thống kê mô tả tốt hơn độ lệch chuẩn, dựa trên khoảng cách Euclide (mặc dù điều này thường được coi là tốt ).

Bảng này phản ánh các thông tin trên một cách ngắn gọn hơn:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

Bình luận:

Bạn có tham chiếu cho "độ lệch tuyệt đối trung bình là khoảng .8 lần kích thước của độ lệch chuẩn cho một tập dữ liệu được phân phối bình thường" không? Các mô phỏng tôi đang chạy cho thấy điều này là không chính xác.

Dưới đây là 10 mô phỏng của một triệu mẫu từ phân phối chuẩn thông thường:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

Phần kết luận

Chúng tôi thích sự khác biệt bình phương khi tính toán độ phân tán vì chúng tôi có thể khai thác khoảng cách Euclide, điều này cho chúng tôi một thống kê mô tả rõ hơn về độ phân tán. Khi có các giá trị tương đối cực đoan hơn, khoảng cách Euclide chiếm tỷ lệ đó trong thống kê, trong khi khoảng cách Manhattan cho mỗi phép đo có trọng số bằng nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.