Tại sao sự khác biệt bình phương thường được sử dụng?


14

Rất thường khi tôi điều tra các phương pháp và khái niệm thống kê mới, tôi gặp phải sự khác biệt bình phương (hoặc lỗi bình phương trung bình, hoặc rất nhiều các biểu tượng khác). Chỉ là một ví dụ, r Pearson được quyết định dựa trên sự khác biệt bình phương trung bình so với đường hồi quy mà các điểm nằm. Đối với ANOVA, bạn đang nhìn vào tổng bình phương, v.v.

Bây giờ, tôi hiểu rằng bằng cách bình phương mọi thứ, bạn chắc chắn rằng dữ liệu với các ngoại lệ thực sự bị phạt. Tuy nhiên, tại sao số mũ được sử dụng chính xác là 2? Tại sao không 2.1, hoặc e, hoặc pi, hoặc bất cứ điều gì? Có một số lý do đặc biệt tại sao 2 được sử dụng hoặc nó chỉ là một quy ước? Tôi nghi ngờ rằng lời giải thích có thể có liên quan đến đường cong chuông, nhưng tôi khá chắc chắn.


4
Trước tiên, bạn đang lợi dụng mũ hạn, trong đó đề cập đến những thứ như hơn x một . Thứ hai, hãy xem stats.stackexchange.com/questions/118/ , nơi chủ đề này được đề cập kỹ lưỡng. axxa
Nga

@rvl Cảm ơn, tôi đã chỉnh sửa thuật ngữ đó từ câu hỏi của tôi. Và cảm ơn, tôi sẽ kiểm tra câu hỏi đó!
Speldosa

3
Một lý do chính đáng để chúng xuất hiện cuối cùng xuất phát từ các công thức đơn giản liên quan đến phương sai của tổng với phương sai (và có thể là hiệp phương sai) của các thành phần, và kết quả gọn gàng về phân rã hình vuông. Nếu câu hỏi @rvl liên kết đến ở trên không trả lời câu hỏi của bạn, vui lòng xem xét việc đóng câu hỏi của bạn. Nếu nó không trả lời đầy đủ câu hỏi của bạn, vui lòng chỉnh sửa câu hỏi của bạn để làm nổi bật sự khác biệt giữa những gì bạn muốn biết và những gì được giải quyết ở đó.
Glen_b -Reinstate Monica

Tôi nghĩ rằng đây là một câu hỏi khác với chủ đề (phổ biến) khác về bình phương. Có một sự khác biệt về khái niệm giữa hàm mất bình phương (mà ở phía dưới, là chìa khóa để trả lời câu hỏi này) và bình phương để đánh giá độ lệch (là lực đẩy của luồng khác).
whuber

Kiểm tra ở đâyở đây cho các vấn đề tương tự.
Tim

Câu trả lời:


16

Một cách tiếp cận lý thuyết quyết định để thống kê cung cấp một lời giải thích sâu sắc. Nó nói rằng sự khác biệt bình phương là một ủy quyền cho một loạt các hàm mất mát (bất cứ khi nào chúng có thể được chấp nhận một cách chính đáng) dẫn đến sự đơn giản hóa đáng kể trong các thủ tục thống kê có thể phải xem xét.

Thật không may, giải thích điều này có nghĩa là gì và chỉ ra lý do tại sao nó là sự thật cần rất nhiều thiết lập. Các ký hiệu có thể nhanh chóng trở nên khó hiểu. Những gì tôi nhắm đến để làm ở đây, sau đó, chỉ là để phác thảo những ý tưởng chính, với ít công phu. Đối với các tài khoản đầy đủ hơn xem các tài liệu tham khảo.


Một tiêu chuẩn, mô hình phong phú của dữ liệu thừa nhận rằng họ là một thực hiện một (thực tế, vector có giá trị) ngẫu nhiên biến X có phân phối F chỉ được biết đến như là một yếu tố của một số bộ Ω bản phân phối, các tiểu bang của thiên nhiên . Một thủ tục thống kê là một hàm t của x lấy các giá trị trong một số tập hợp các quyết định D , không gian quyết định.xXFΩtxD

Ví dụ, trong một vấn đề dự đoán hoặc phân loại sẽ bao gồm một tập hợp của "tập huấn luyện" và "tập dữ liệu kiểm tra" và t sẽ ánh xạ x thành một tập hợp các giá trị dự đoán cho tập kiểm tra. Tập hợp của tất cả các giá trị dự đoán có thể sẽ là D .xtxD

Một cuộc thảo luận lý thuyết đầy đủ về các thủ tục phải phù hợp với các thủ tục ngẫu nhiên . Một thủ tục ngẫu nhiên chọn trong số hai hoặc nhiều quyết định có thể theo một số phân phối xác suất (phụ thuộc vào dữ liệu ). Nó khái quát hóa ý tưởng trực quan rằng khi dữ liệu dường như không phân biệt giữa hai lựa chọn thay thế, sau đó bạn "lật một đồng xu" để quyết định lựa chọn thay thế xác định. Nhiều người không thích các thủ tục ngẫu nhiên, phản đối việc đưa ra quyết định theo cách không thể đoán trước như vậy.x

Tính năng phân biệt của lý thuyết quyết định là việc sử dụng nó một chức năng mất . W Đối với bất kỳ trạng thái tự nhiên và quyết định d D , sự mất mátFΩdD

W(F,d)

là một giá trị số biểu thị mức độ "xấu" của việc đưa ra quyết định khi trạng thái thực sự của tự nhiên là F : tổn thất nhỏ là tốt, tổn thất lớn là xấu. Trong một tình huống kiểm tra giả thuyết, chẳng hạn, D có hai yếu tố "chấp nhận" và "từ chối" (giả thuyết khống). Hàm mất mát nhấn mạnh vào việc đưa ra quyết định đúng: nó được đặt thành 0 khi quyết định đúng và nếu không thì là một số w không đổi . (Đây được gọi là " hàm mất 0 - 1 :" tất cả các quyết định xấu đều tệ như nhau và tất cả các quyết định tốt đều tốt như nhau.) Cụ thể, W ( F ,  chấp nhận ) = 0 khidFDw01W(F, accept)=0 nằm trong giả thuyết null và W ( F ,  từ chối ) = 0 khi F nằm trong giả thuyết thay thế.FW(F, reject)=0F

Khi sử dụng thủ tục , mất dữ liệu x khi trạng thái thực của bản chất là F có thể được viết W ( F , t ( x ) ) . Điều này làm cho sự mất mát W ( F , t ( X ) ) một biến ngẫu nhiên có phân phối được xác định bởi (chưa biết) F .txFW(F,t(x))W(F,t(X))F

Sự mất mát dự kiến ​​của một thủ tục được gọi là rủi ro của nó , r t . Kỳ vọng sử dụng trạng thái thực sự của bản chất F , do đó sẽ xuất hiện rõ ràng dưới dạng một chỉ số của toán tử kỳ vọng. Chúng tôi sẽ xem rủi ro là một chức năng của F và nhấn mạnh điều đó với ký hiệu:trtFF

rt(F)=EF(W(F,t(X))).

Thủ tục tốt hơn có rủi ro thấp hơn. Vì vậy, so sánh các hàm rủi ro là cơ sở để lựa chọn các quy trình thống kê tốt. Vì việc định cỡ lại tất cả các hàm rủi ro theo hằng số chung (dương) sẽ không thay đổi bất kỳ so sánh nào, thang đo của không có sự khác biệt: chúng tôi có thể nhân nó với bất kỳ giá trị dương nào chúng tôi muốn. Cụ thể, khi nhân W với 1 / w, chúng ta luôn có thể lấy w = 1 cho hàm mất 0 - 1 (chỉ rõ tên của nó).WW1/ww=101

Để tiếp tục ví dụ kiểm tra giả thuyết, trong đó minh họa hàm mất , các định nghĩa này ngụ ý rủi ro của bất kỳ F nào trong giả thuyết null là khả năng quyết định là "từ chối", trong khi rủi ro của bất kỳ F nào thay thế là cơ hội mà quyết định là "chấp nhận." Giá trị tối đa (trên tất cả F trong giả thuyết null) là kích thước thử nghiệm , trong khi phần hàm rủi ro được xác định trên giả thuyết thay thế là phần bù của công suất thử nghiệm ( power t ( F ) = 1 - r t ( F )01FFFpowert(F)=1rt(F)). Trong phần này, chúng ta thấy toàn bộ lý thuyết kiểm định giả thuyết cổ điển (thường xuyên) chiếm một cách cụ thể để so sánh các hàm rủi ro đối với một loại tổn thất đặc biệt.

Nhân tiện, mọi thứ được trình bày cho đến nay đều hoàn toàn tương thích với tất cả các số liệu thống kê chính thống, bao gồm cả mô hình Bayes. Bên cạnh đó, Bayesian phân tích giới thiệu một "trước khi" phân bố xác suất trên và sử dụng này để đơn giản hóa việc so sánh các chức năng rủi ro: các khả năng phức tạp chức năng r t có thể được thay thế bằng giá trị kỳ vọng của nó đối với sự phân bố trước với. Do đó, tất cả các thủ tục t được đặc trưng bởi một số duy nhất r t ; một thủ tục Bayes (thường là duy nhất) giảm thiểu r t . Hàm mất vẫn đóng một vai trò thiết yếu trong tính toán r t .Ωrttrtrtrt

Có một số tranh cãi (không thể tránh khỏi) xung quanh việc sử dụng các chức năng mất. Làm thế nào để chọn ? Nó về cơ bản là duy nhất để kiểm tra giả thuyết, nhưng trong hầu hết các cài đặt thống kê khác, nhiều lựa chọn là có thể. Chúng phản ánh các giá trị của người ra quyết định. Ví dụ: nếu dữ liệu là các phép đo sinh lý của bệnh nhân y tế và các quyết định là "điều trị" hoặc "không điều trị", bác sĩ phải xem xét - và cân nhắc trong sự cân bằng - hậu quả của một trong hai hành động. Làm thế nào các hậu quả được cân nhắc có thể phụ thuộc vào mong muốn của chính bệnh nhân, tuổi tác, chất lượng cuộc sống của họ và nhiều thứ khác. Lựa chọn một chức năng mất có thể là đầy đủ và cá nhân sâu sắc. Thông thường nó không nên để cho các nhà thống kê!W

Sau đó, một điều chúng tôi muốn biết là sự lựa chọn thủ tục tốt nhất sẽ thay đổi như thế nào khi mất mát? Nó chỉ ra rằng trong nhiều tình huống phổ biến, thực tế, một lượng biến thể nhất định có thể được chấp nhận mà không thay đổi thủ tục nào là tốt nhất. Những tình huống này được đặc trưng bởi các điều kiện sau đây:

  • Không gian quyết định là một tập hợp lồi (thường là một khoảng số). Điều này có nghĩa là bất kỳ giá trị nào nằm giữa hai quyết định cũng là một quyết định hợp lệ.

  • Mất mát bằng không khi quyết định tốt nhất có thể được đưa ra và nếu không thì tăng (để phản ánh sự khác biệt giữa quyết định được đưa ra và quyết định tốt nhất có thể được đưa ra cho trạng thái thực sự - nhưng chưa biết - về bản chất).

  • Mất mát là một chức năng khác biệt của quyết định (ít nhất là tại địa phương gần quyết định tốt nhất). Điều này ngụ ý rằng nó là liên tục - nó không nhảy theo cách mất - nhưng nó cũng ngụ ý rằng nó thay đổi tương đối ít khi quyết định gần với quyết định tốt nhất.01

Khi các điều kiện này giữ, một số biến chứng liên quan đến việc so sánh các chức năng rủi ro sẽ biến mất. Sự khác biệt và độ lồi của cho phép chúng ta áp dụng Bất đẳng thức của Jensen để cho thấy rằngW

(1) Chúng tôi không phải xem xét các thủ tục ngẫu nhiên [Lehmann, hệ quả 6.2].

(2) Nếu một thủ tục được xem là có nguy cơ tốt nhất cho một ví dụ W , nó có thể được cải thiện thành một thủ tục t * mà chỉ phụ thuộc vào một số liệu thống kê đầy đủ và có ít nhất là tốt một hàm rủi ro cho tất cả các ví dụ W [Kiefer , tr. 151].tWt W

Như một ví dụ, giả sử là tập hợp các bản phân phối với bình thường μ (và đơn vị sai). Xác định này W với các thiết lập của tất cả các số thực, vì vậy (lạm dụng ký hiệu) Tôi cũng sẽ sử dụng " μ " để xác định sự phân bố trong Ω với trung bình μ . Đặt X là mẫu iid có kích thước n từ một trong các phân phối này. Giả sử mục tiêu là ước tính μ . Điều này xác định không gian quyết định D với tất cả các giá trị có thể là μ (bất kỳ số thực nào). Cho L chỉ định một quyết định độc đoán, sự mất mát là một chức năngΩμΩμΩμXnμDμμ^

W(μ,μ^)0

với khi và chỉ khi μ = μ . Các giả định trước ngụ ý (thông qua Định lý Taylor) rằngW(μ,μ^)=0μ=μ^

W(μ,μ^)=w2(μ^μ)2+o(μ^μ)2

cho một số số dương không đổi . (Ký hiệu o- y " o ( y ) p " có nghĩa là bất kỳ hàm f nào trong đó giá trị giới hạn của f ( y ) / y p0 khi y 0. ) Như đã lưu ý trước đó, chúng tôi có thể hủy bỏ W để tạo w 2 = 1 . Đối với điều này gia đình Ω , giá trị trung bình của X , viết ˉ X , là một thống kê đầy đủ. Kết quả trước đó (trích từ Kiefer) cho biết bất kỳ người ước tính nào vềw2o(y)pff(y)/yp0y0Ww2=1ΩXX¯ , mà có thể là một số chức năng tùy ý của n biến ( x 1 , ... , x n ) mà là tốt cho một ví dụ W , có thể được chuyển đổi thành một ước lượng chỉ phụ thuộc vào ˉ x đó là ít nhất là tốt cho tất cả các ví dụ W .μn(x1,,xn)Wx¯W

Điều đã được hoàn thành trong ví dụ này là điển hình: tập hợp các thủ tục có thể cực kỳ phức tạp, ban đầu bao gồm các hàm ngẫu nhiên có thể có của biến, đã được rút gọn thành một tập hợp các thủ tục đơn giản hơn bao gồm các hàm không ngẫu nhiên của một biến duy nhất ( hoặc ít nhất một số lượng biến ít hơn trong trường hợp đủ số liệu thống kê là đa biến). Và điều này có thể được thực hiện mà không cần lo lắng chính xác chức năng mất của người ra quyết định là gì, chỉ với điều kiện là nó lồi và khác biệt.n

Chức năng mất đơn giản nhất như vậy là gì? Dĩ nhiên, cái mà bỏ qua thuật ngữ còn lại, làm cho nó hoàn toàn là một hàm bậc hai. Các hàm mất mát khác trong cùng lớp này bao gồm quyền hạn của lớn hơn 2z=|μ^μ|2 (chẳng hạn như pi được đề cập trong câu hỏi), exp ( z ) - 1 - z , và nhiều hơn nữa.2.1,e,πexp(z)1z

Figure

Đường cong màu xanh lam (phía trên) vẽ trong khi đường cong màu đỏ (phía dưới) vẽ đồ thị z 2 . Do đường cong màu xanh cũng có mức tối thiểu là 0 , khác biệt và lồi, nên nhiều đặc tính đẹp của quy trình thống kê được hưởng bởi mất phương trình bậc hai (đường cong màu đỏ) cũng sẽ áp dụng cho hàm mất màu xanh2(exp(|z|)1|z|)z20(mặc dù trên toàn cầu là hàm số mũ hành xử khác với hàm bậc hai).

Những kết quả này (mặc dù rõ ràng bị giới hạn bởi các điều kiện được áp đặt) giúp giải thích tại sao tổn thất bậc hai có mặt khắp nơi trong lý thuyết và thực tiễn thống kê: ở một mức độ hạn chế, nó là một proxy thuận tiện về mặt phân tích cho bất kỳ chức năng mất phân biệt lồi nào .


Mất phương trình bậc hai không phải là mất mát duy nhất hoặc thậm chí là tốt nhất để xem xét. Thật vậy, Lehman viết rằng

Các hàm mất lồi đã được nhìn thấy dẫn đến một số đơn giản hóa các vấn đề ước tính. Tuy nhiên, người ta có thể tự hỏi liệu các chức năng mất như vậy có khả năng là thực tế hay không. Nếu không chỉ là thước đo cho sự thiếu chính xác mà là tổn thất thực sự (ví dụ: tài chính), người ta có thể lập luận rằng tất cả các tổn thất đó đều bị ràng buộc: một khi bạn đã mất tất cả, bạn không thể mất thêm nữa. ...W(F,d)

... [F] các hàm mất tăng trưởng ast dẫn đến các công cụ ước tính có xu hướng nhạy cảm với các giả định về [hành vi] đuôi [của phân phối giả định], và các giả định này thường dựa trên ít thông tin và do đó không phải là rất đáng tin cậy

Nó chỉ ra rằng các công cụ ước tính được tạo ra bởi mất lỗi bình phương thường rất nhạy cảm về mặt này.

[Lehman, phần 1.6; với một số thay đổi về ký hiệu.]

Việc xem xét các tổn thất thay thế mở ra một loạt các khả năng phong phú: hồi quy lượng tử, ước lượng M, thống kê mạnh mẽ và nhiều hơn nữa tất cả có thể được đóng khung theo cách lý thuyết quyết định này và sử dụng các hàm mất mát thay thế. Để biết một ví dụ đơn giản, hãy xem Hàm mất phần trăm .


Người giới thiệu

Jack Carl Kiefer, Giới thiệu về suy luận thống kê. Springer-Verlag 1987.

EL Lehmann, Lý thuyết ước tính điểm . Wiley 1983.


0

Thuộc tính hình học cho số liệu khoảng cách này là như vậy sẽ dễ sử dụng.

Và tất nhiên toán học dễ dàng hơn nếu bạn có giải pháp phân tích cho hầu hết các vấn đề.


2
Có lẽ bạn có thể xây dựng một chút nữa?
Tim

@Tim, bất đẳng thức tam giác và tính chất toán học của các hình thức bậc hai xuất hiện trong tâm trí của tôi ...
Nhà phân tích

Bất đẳng thức tam giác tồn tại cho mọi số liệu khoảng cách. Điều làm cho khoảng cách Euclide / 2 chỉ tiêu / bình phương chênh lệch / đặc thù MSE là tập hợp lớn các phép biến đổi bảo toàn nó (tất cả các ma trận trực giao).
Federico Poloni
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.