Tại sao số liệu thống kê mạnh mẽ (và kháng) thay thế các kỹ thuật cổ điển?


82

Khi giải quyết các vấn đề kinh doanh bằng cách sử dụng dữ liệu, thông thường có ít nhất một giả định chính rằng số liệu thống kê cổ điển dưới chân không hợp lệ. Hầu hết thời gian, không ai bận tâm để kiểm tra các giả định đó để bạn không bao giờ thực sự biết.

Ví dụ, cho đến nay, rất nhiều số liệu web phổ biến là "đuôi dài" (so với phân phối bình thường), cho đến nay, tài liệu tốt đến nỗi chúng tôi coi đó là điều hiển nhiên. Một ví dụ khác, các cộng đồng trực tuyến - ngay cả trong các cộng đồng có hàng ngàn thành viên, có tài liệu rõ rằng cho đến nay phần đóng góp / tham gia lớn nhất trong nhiều cộng đồng này là do một nhóm 'siêu cộng tác viên' rất nhỏ. (Ví dụ, một vài tháng trước, ngay sau khi API SO được cung cấp ở phiên bản beta, một thành viên StackOverflow đã công bố một phân tích ngắn gọn từ dữ liệu anh ta thu thập được thông qua API; kết luận của anh ta - ít hơn một phần trăm số thành viên SO chiếm phần lớn hoạt động trên SO (có lẽ là đặt câu hỏi và trả lời chúng), 1-2% khác chiếm phần còn lại và phần lớn các thành viên không làm gì cả).

Phân phối của loại đó - một lần nữa thường xuyên hơn quy tắc chứ không phải ngoại lệ - thường được mô hình hóa tốt nhất với hàm mật độ luật công suất . Đối với các loại phân phối này, ngay cả định lý giới hạn trung tâm cũng có vấn đề khi áp dụng.

Vì vậy, với sự phong phú của các quần thể như thế này khiến các nhà phân tích quan tâm, và cho rằng các mô hình cổ điển thực hiện rất kém trên các dữ liệu này, và cho rằng các phương pháp mạnh mẽ và kháng cự đã xuất hiện trong một thời gian (ít nhất là 20 năm, tôi tin) chúng không được sử dụng thường xuyên hơn? (Tôi cũng tự hỏi tại sao tôi không sử dụng chúng thường xuyên hơn, nhưng đó không thực sự là một câu hỏi cho CrossValidated .)

Vâng, tôi biết rằng có những chương sách giáo khoa dành hoàn toàn cho thống kê mạnh mẽ và tôi biết có (một vài) Gói R ( mạnh mẽ là thứ tôi quen thuộc và sử dụng), v.v.

Tuy nhiên, với những lợi thế rõ ràng của các kỹ thuật này, chúng thường rõ ràng là công cụ tốt hơn cho công việc-- tại sao chúng không được sử dụng thường xuyên hơn ? Chúng ta không nên hy vọng sẽ thấy các số liệu thống kê mạnh mẽ (và kháng) được sử dụng thường xuyên hơn (thậm chí có thể là giả định) so với các tương tự cổ điển?

Giải thích thực chất (nghĩa là kỹ thuật) mà tôi đã nghe là các kỹ thuật mạnh mẽ (tương tự đối với các phương pháp kháng) thiếu sức mạnh / độ nhạy của các kỹ thuật cổ điển. Tôi không biết điều này có thực sự đúng trong một số trường hợp không, nhưng tôi biết nó không đúng trong nhiều trường hợp.

Một từ cuối cùng của sự ưu tiên: có Tôi biết câu hỏi này không có một câu trả lời đúng nào cả; Rất ít câu hỏi trên trang web này làm. Hơn nữa, câu hỏi này là một cuộc điều tra chính hãng; đó không phải là một cái cớ để đưa ra quan điểm - tôi không có quan điểm ở đây, chỉ là một câu hỏi mà tôi hy vọng cho một số câu trả lời sâu sắc.


12
Black Swann của Nassim Nicholas Taleb giải thích lý do tại sao các mô hình đơn giản đã được sử dụng trong thế giới tài chính và những nguy hiểm mà điều này đã dẫn đến. Một lỗi cụ thể là đánh đồng các xác suất rất thấp với 0 và áp dụng mù quáng phân phối bình thường trong quản lý rủi ro!
James

9
Các thử nghiệm dựa trên nhiều giả định sẽ mạnh hơn khi các giả định đó được thỏa mãn. Chúng ta có thể kiểm tra tầm quan trọng của độ lệch giả định rằng các quan sát là IID Gaussian, có nghĩa là thống kê. Một nhóm các giả định ít hạn chế hơn cho chúng ta sử dụng trung bình. Chúng ta có thể đi xa hơn và cho rằng các quan sát có tương quan để có được sự mạnh mẽ hơn nữa. Nhưng mỗi bước làm giảm sức mạnh của bài kiểm tra của chúng tôi và nếu chúng tôi không đưa ra giả định nào, bài kiểm tra của chúng tôi là vô ích. Các thử nghiệm mạnh mẽ hoàn toàn đưa ra các giả định về dữ liệu và chỉ tốt hơn so với cổ điển khi các giả định đó phù hợp với thực tế tốt hơn
Yaroslav Bulatov

Câu trả lời:


69

Các nhà nghiên cứu muốn các giá trị p nhỏ và bạn có thể nhận các giá trị p nhỏ hơn nếu bạn sử dụng các phương pháp tạo ra các giả định phân phối mạnh hơn. Nói cách khác, các phương pháp không mạnh mẽ cho phép bạn xuất bản nhiều bài báo hơn. Tất nhiên nhiều hơn những giấy tờ này có thể là dương tính giả, nhưng một ấn phẩm là một ấn phẩm. Đó là một lời giải thích cay độc, nhưng đôi khi nó hợp lệ.


4
"Đôi khi" là một cách đánh giá thấp ... logic của tác giả thường không trực tiếp như vậy nhưng kịch bản kích thích / khen thưởng là mọi người sẽ làm điều này như một vấn đề của điều kiện
John

2
Tôi không phải là những nhà nghiên cứu thiếu trung thực đến mức hành động vì sự thiếu hiểu biết. Họ không hiểu ý nghĩa của thống kê hoặc giả định nào họ yêu cầu, nhưng như bạn đã nói, họ hiểu rõ ràng về kích thích / phần thưởng: p> 0,05 => không công bố.
John D. Cook

10
Bạn cũng phải trình bày một cái gì đó mà những người "nắm quyền" (người ra quyết định, người giám sát, người phản biện) hiểu. Do đó, nó phải là ngôn ngữ chung phát triển khá chậm, vì những người đó có xu hướng già hơn và có khả năng thay đổi nhiều hơn, vì điều đó có thể làm mất hiệu lực sự nghiệp của họ cho đến nay!
James

12
Điểm tốt. "Tôi hiểu giá trị p. Chỉ cần cho tôi giá trị p." Trớ trêu thay, có lẽ họ không hiểu giá trị p, nhưng đó là vấn đề khác.
John D. Cook

2
Tôi không tin đây là sự thật. Ít nhất, tôi đã nghe nói phi khoa học hiện đại thường hy sinh rất ít sức mạnh, nếu có. AFAIK, mất điện rõ rệt nhất trong các thử nghiệm liên quan đến biến đổi thứ hạng, hầu như không phổ biến trong các phương pháp mạnh.
Nick Stauner

42

Vì vậy, 'các mô hình cổ điển' (bất kể chúng là gì - tôi cho rằng bạn có ý gì đó giống như các mô hình đơn giản được dạy trong sách giáo khoa và ước tính bởi ML) thất bại trên một số, có lẽ nhiều bộ dữ liệu trong thế giới thực.

Nếu một mô hình thất bại thì có hai cách tiếp cận cơ bản để sửa nó:

  1. Thực hiện ít giả định hơn (mô hình ít hơn)
  2. Giả định nhiều hơn (mô hình nhiều hơn)

Số liệu thống kê mạnh mẽ, khả năng gần đúng và các cách tiếp cận GEE thực hiện cách tiếp cận đầu tiên bằng cách thay đổi chiến lược ước tính thành một trong đó mô hình không giữ được tất cả các điểm dữ liệu (mạnh mẽ) hoặc không cần đặc trưng cho tất cả các khía cạnh của dữ liệu (QL và GEE).

Cách khác là cố gắng xây dựng một mô hình mô hình hóa rõ ràng nguồn gây ô nhiễm các điểm dữ liệu hoặc các khía cạnh của mô hình ban đầu có vẻ sai, trong khi vẫn giữ phương thức ước lượng như trước.

Một số trực giác thích cái trước (nó đặc biệt phổ biến trong kinh tế), và một số trực giác thích cái sau (nó đặc biệt phổ biến ở Bayes, những người có xu hướng hạnh phúc hơn với các mô hình phức tạp hơn, đặc biệt là khi họ nhận ra rằng họ sẽ sử dụng các công cụ mô phỏng cho suy luận nào).

Các giả định phân phối chất béo, ví dụ như sử dụng nhị thức âm hơn là poisson hoặc t thay vì bình thường, thuộc về chiến lược thứ hai. Hầu hết mọi thứ được gắn nhãn 'thống kê mạnh mẽ' thuộc về chiến lược đầu tiên.

Là một vấn đề thực tế, việc ước tính các chiến lược cho chiến lược đầu tiên cho các vấn đề thực tế phức tạp dường như khá khó khăn. Không phải đó là lý do để không làm như vậy, nhưng có lẽ đó là một lời giải thích cho lý do tại sao nó không được thực hiện rất thường xuyên.


4
+1. Giải thích rất tốt. Tôi cũng nghĩ rằng một số phương thức "mạnh" là khá đặc biệt (phương tiện bị cắt cụt) và "mạnh mẽ" được gắn với một khía cạnh cụ thể của phương pháp và không phải là chất lượng chung nhưng nhiều người hiểu "mạnh mẽ" có nghĩa là "Tôi không Tôi không phải lo lắng về dữ liệu của mình, vì phương pháp của tôi rất mạnh mẽ ".
Wayne

Câu trả lời chính xác. Điều đó làm phiền tôi rằng rất nhiều câu trả lời tập trung vào khó khăn trong việc hiểu các số liệu thống kê mạnh mẽ hoặc vào các khuyến khích để bỏ qua việc vi phạm các giả định. Họ bỏ qua những người ngoài kia biết rằng có những trường hợp cần thống kê mạnh mẽ và khi nào thì không.
Kenji

29

Tôi sẽ đề nghị rằng đó là một sự chậm trễ trong giảng dạy. Hầu hết mọi người hoặc học thống kê tại trường cao đẳng hoặc đại học. Nếu số liệu thống kê không phải là bằng cấp đầu tiên của bạn và thay vào đó là bằng toán học hoặc khoa học máy tính thì có lẽ bạn chỉ bao gồm các mô-đun thống kê cơ bản:

  1. Xác suất
  2. Kiểm định giả thuyết
  3. hồi quy

Điều này có nghĩa là khi gặp vấn đề, bạn hãy thử và sử dụng những gì bạn biết để giải quyết vấn đề.

  • Dữ liệu không bình thường - ghi nhật ký.
  • Dữ liệu có các ngoại lệ gây phiền nhiễu - loại bỏ chúng.

Trừ khi bạn vấp phải thứ khác, thì thật khó để làm điều gì đó tốt hơn. Thật sự rất khó khi sử dụng Google để tìm thứ gì đó nếu bạn không biết nó được gọi là gì!

Tôi nghĩ rằng với tất cả các kỹ thuật sẽ mất một thời gian trước khi các kỹ thuật mới hơn lọc xuống. Mất bao lâu để các bài kiểm tra giả thuyết tiêu chuẩn trở thành một phần của chương trình thống kê tiêu chuẩn?

BTW, với một mức độ thống kê vẫn sẽ có một độ trễ trong giảng dạy - chỉ là một ngắn hơn!


4
Nhưng điều này đặt ra một vấn đề sư phạm thú vị, ít nhất là trong Tâm lý học, bởi vì theo như tôi biết hầu hết các sách thống kê giới thiệu đang được sử dụng trong lĩnh vực của tôi thì không thực sự thảo luận về các biện pháp mạnh mẽ trừ một bên.
russellpierce

3
Điều đó rất đúng, và trong tâm lý học, có một sự nhầm lẫn khó chịu giữa không tham số và không bình thường, điều này dường như cản trở sự hiểu biết.
richiemorrisroe

2
Một số nhà tâm lý học của chúng tôi chỉ nhầm lẫn về mọi thứ thống kê! :)
Nick Stauner

21

Bất cứ ai được đào tạo về phân tích dữ liệu thống kê ở mức hợp lý đều sử dụng các khái niệm thống kê mạnh mẽ một cách thường xuyên. Hầu hết các nhà nghiên cứu biết đủ để tìm kiếm các ngoại lệ nghiêm trọng và lỗi ghi dữ liệu; chính sách loại bỏ các điểm dữ liệu nghi ngờ có từ thế kỷ 19 với Lord Rayleigh, GG Stokes và những người khác ở độ tuổi của họ. Nếu câu hỏi là:

Tại sao các nhà nghiên cứu không sử dụng các phương pháp hiện đại hơn để ước tính vị trí, tỷ lệ, hồi quy, v.v.

sau đó, câu trả lời được đưa ra ở trên - các phương pháp đã được phát triển phần lớn trong 25 năm qua, ví dụ 1985 - 2010. Độ trễ của việc học các yếu tố phương pháp mới, cũng như quán tính được kết hợp bởi 'huyền thoại' rằng không có gì sai với mù quáng sử dụng phương pháp cổ điển. John Tukey nhận xét rằng những phương pháp mạnh mẽ / kháng cự mà bạn sử dụng không quan trọng, điều quan trọng là bạn sử dụng một số phương pháp nào. Hoàn toàn đúng đắn khi sử dụng thường xuyên cả hai phương pháp cổ điển và mạnh mẽ / kháng thuốc, và chỉ lo lắng khi chúng đủ khác nhau để quan trọng. Nhưng khi chúng khác nhau , bạn nên suy nghĩ kỹ .

Nếu thay vào đó, câu hỏi là:

Tại sao các nhà nghiên cứu không dừng lại và đặt câu hỏi về dữ liệu của họ, thay vì mù quáng áp dụng các ước tính rất không ổn định?

sau đó câu trả lời thực sự đi xuống để đào tạo. Có quá nhiều nhà nghiên cứu chưa bao giờ được đào tạo về thống kê một cách chính xác, được tóm tắt bởi sự phụ thuộc chung vào các giá trị p là tất cả và cuối cùng của "ý nghĩa thống kê".

@Kwak: Ước tính của Huber từ những năm 1970 mạnh mẽ, theo nghĩa cổ điển của từ này: họ chống lại các ngoại lệ. Và các công cụ ước tính giảm dần thực sự có niên đại trước những năm 1980: nghiên cứu về sự mạnh mẽ của Princeton (năm 1971) bao gồm ước tính vị trí hai chiều, một ước tính giảm dần.


2
projecteuclid.org/ Tài liệu có sẵn Tự do Peter Huber viết về những đóng góp của John Tukey cho các số liệu thống kê mạnh mẽ. Hợp lý dễ đọc, ánh sáng trên các công thức.
Wesley Burr

20

Thống kê là một công cụ cho các nhà nghiên cứu có đầu óc không thống kê và họ không quan tâm.

Có lần tôi đã cố gắng giúp đỡ với một bài báo về Y học mà vợ cũ của tôi là đồng tác giả. Tôi đã viết một vài trang mô tả dữ liệu, những gì nó gợi ý, tại sao những quan sát nhất định đã bị loại khỏi nghiên cứu ... và nhà nghiên cứu chính, một bác sĩ, đã ném nó đi và nhờ ai đó tính toán giá trị p, đó là tất cả những gì cô ấy tính (và chỉ về tất cả những người sẽ đọc bài viết) quan tâm.


12

Tôi đưa ra một câu trả lời theo hai hướng:

  1. những thứ mạnh mẽ không nhất thiết phải được dán nhãn mạnh mẽ. Nếu bạn tin rằng sự mạnh mẽ chống lại mọi thứ tồn tại thì bạn thật ngây thơ.
  2. Các phương pháp thống kê để lại vấn đề về sự mạnh mẽ của appart đôi khi không thích nghi với thế giới thực nhưng thường có giá trị hơn (như một khái niệm) hơn là một thuật toán trông giống như nhà bếp.

phát triển

Đầu tiên, tôi nghĩ rằng có rất nhiều cách tiếp cận tốt trong thống kê (bạn sẽ tìm thấy chúng trong các gói R không nhất thiết phải được đề cập ở đâu đó) mạnh mẽ và được thử nghiệm trên dữ liệu thực và thực tế là bạn không tìm thấy thuật toán với "mạnh mẽ "Được đề cập ở đâu đó không có nghĩa là nó không mạnh mẽ. Dù sao, nếu bạn nghĩ rằng mạnh mẽ có nghĩa là phổ quát thì bạn sẽ không bao giờ tìm thấy bất kỳ quy trình mạnh mẽ nào (không ăn trưa miễn phí), bạn cần có kiến ​​thức / chuyên môn về dữ liệu bạn phân tích để sử dụng công cụ phù hợp hoặc tạo mô hình phù hợp.

Mặt khác, một số cách tiếp cận trong thống kê không mạnh mẽ bởi vì chúng được dành riêng cho một loại mô hình duy nhất. Tôi nghĩ rằng đôi khi làm việc trong phòng thí nghiệm là tốt để cố gắng hiểu mọi thứ. Cũng tốt để xử lý vấn đề một cách riêng biệt để hiểu vấn đề của chúng tôi là gì ... đây là cách mà nhà toán học làm việc. Ví dụ về elocant mô hình Gaussian: bị chỉ trích rất nhiều vì giả định gaussian không bao giờ được thực hiện nhưng đã mang lại 75% ý tưởng được sử dụng thực tế trong thống kê ngày nay. Bạn có thực sự nghĩ rằng tất cả những điều này là về việc viết giấy để tuân theo quy tắc xuất bản hoặc diệt vong (mà tôi không thích, tôi đồng ý)?


11

Là một người đã học được một ít số liệu thống kê cho nghiên cứu của riêng tôi, tôi đoán rằng những lý do này mang tính sư phạm và quán tính.

Tôi đã quan sát trong lĩnh vực của mình rằng thứ tự các chủ đề được dạy phản ánh lịch sử của lĩnh vực đó. Những ý tưởng xuất hiện đầu tiên được dạy trước, v.v. Đối với những người chỉ nhúng vào các số liệu thống kê cho hướng dẫn chữ thảo, điều này có nghĩa là họ sẽ học các số liệu thống kê cổ điển trước tiên và có thể là cuối cùng. Sau đó, ngay cả khi họ tìm hiểu thêm, những thứ cổ điển gắn bó với họ tốt hơn do hiệu ứng ưu việt.

Ngoài ra, mọi người đều biết hai bài kiểm tra mẫu là gì. Ít hơn tất cả mọi người biết bài kiểm tra Xếp hạng Mann-Whitney hoặc Wilcoxon là gì. Điều này có nghĩa là tôi phải nỗ lực một chút để giải thích bài kiểm tra mạnh mẽ của mình là gì, thay vì không phải thực hiện bất kỳ bài kiểm tra cổ điển nào. Những điều kiện như vậy rõ ràng sẽ dẫn đến việc ít người sử dụng các phương pháp mạnh hơn bình thường.


9

Wooldridge "Kinh tế lượng giới thiệu - Cách tiếp cận hiện đại" 2E p.261.

Nếu các lỗi tiêu chuẩn mạnh Heteroskedasticity thường có giá trị thường xuyên hơn các lỗi tiêu chuẩn OLS thông thường, tại sao chúng ta lại làm phiền chúng ta về các lỗi tiêu chuẩn thông thường? ... Một lý do chúng vẫn được sử dụng trong công việc cắt ngang là vì, nếu giả định homoskedasticity giữ và các erros thường được phân phối, sau đó các thống kê t thông thường có phân phối t chính xác, bất kể kích thước mẫu. Các lỗi tiêu chuẩn mạnh và thống kê t mạnh chỉ được chứng minh khi kích thước mẫu trở nên lớn. Với kích thước mẫu nhỏ, số liệu thống kê t mạnh có thể có các phân phối không gần với phân phối t và điều đó có thể làm mất đi suy luận của chúng tôi. Trong các cỡ mẫu lớn, chúng ta có thể tạo ra một trường hợp chỉ luôn báo cáo các lỗi tiêu chuẩn mạnh mẽ không đồng nhất trong các ứng dụng cắt ngang,



7

Mặc dù chúng không loại trừ lẫn nhau, tôi nghĩ rằng sự phổ biến ngày càng tăng của thống kê Bayes là một phần của nó. Thống kê Bayes có thể đạt được rất nhiều mục tiêu tương tự thông qua các mục sư và tính trung bình của mô hình, và có xu hướng mạnh mẽ hơn một chút trong thực tế.


6

Tôi không phải là người thống kê, kinh nghiệm về thống kê của tôi khá hạn chế, tôi chỉ sử dụng số liệu thống kê mạnh mẽ trong thị giác máy tính / tái tạo 3d / ước tính tư thế. Dưới đây là nhận định của tôi về vấn đề từ quan điểm người dùng:

Đầu tiên, số liệu thống kê mạnh mẽ được sử dụng rất nhiều trong kỹ thuật và khoa học mà không gọi đó là "số liệu thống kê mạnh mẽ". Rất nhiều người sử dụng nó bằng trực giác, đến với nó trong quá trình điều chỉnh phương pháp cụ thể cho vấn đề trong thế giới thực. Ví dụ: lặp lại các ô vuông nhỏ nhất và các phương tiện được cắt bớt / bình phương tối thiểu được sử dụng phổ biến, chỉ người dùng không biết họ đã sử dụng số liệu thống kê mạnh mẽ - họ chỉ làm cho phương pháp có thể thực hiện được đối với dữ liệu thực, không tổng hợp.

Thứ hai, cả thống kê mạnh mẽ "trực quan" và có ý thức thực tế luôn được sử dụng trong trường hợp kết quả có thể kiểm chứng được hoặc ở nơi tồn tại các số liệu lỗi rõ ràng. Nếu kết quả thu được với phân phối bình thường rõ ràng là không hợp lệ hoặc sai, mọi người bắt đầu mày mò về trọng số, cắt tỉa, lấy mẫu, đọc một số giấy và cuối cùng sử dụng các công cụ ước tính mạnh mẽ, cho dù họ có biết thuật ngữ hay không. Mặt khác, nếu kết quả cuối cùng của nghiên cứu chỉ là một số đồ họa và sơ đồ, và không có sự nhạy cảm để xác minh kết quả, hoặc nếu thống kê bình thường tạo ra kết quả đủ tốt - mọi người chỉ không bận tâm.

Và cuối cùng, về tính hữu ích của thống kê mạnh mẽ như một lý thuyết - trong khi bản thân lý thuyết rất thú vị, nó thường không mang lại bất kỳ lợi thế thực tế nào. Hầu hết các công cụ ước tính mạnh mẽ đều khá tầm thường và trực quan, thường mọi người phát minh lại chúng mà không có bất kỳ kiến ​​thức thống kê nào. Lý thuyết, như ước tính điểm phân tích, tiệm cận, độ sâu dữ liệu, độ không đồng nhất, vv cho phép hiểu sâu hơn về dữ liệu, nhưng trong hầu hết các trường hợp, nó chỉ là không cần thiết. Một ngoại lệ lớn là sự giao thoa giữa thống kê mạnh mẽ và cảm biến nén, tạo ra một số phương pháp thực tế mới như "chéo và bó hoa"


5

Kiến thức của tôi về các công cụ ước tính mạnh chỉ liên quan đến các lỗi tiêu chuẩn mạnh cho các tham số hồi quy, vì vậy nhận xét của tôi sẽ chỉ liên quan đến các lỗi đó. Tôi muốn đề nghị mọi người đọc bài viết này,

Trên cái gọi là "Công cụ ước tính Huber Sandwich" và "Lỗi tiêu chuẩn mạnh mẽ" của: Freedman, A. David Nhà thống kê người Mỹ, Vol. 60, số 4. (tháng 11 năm 2006), trang 299-302. doi: 10.1198 / 000313006X152207 ( Phiên bản PDF )

Đặc biệt điều tôi quan tâm với những cách tiếp cận này không phải là họ sai, mà đơn giản là họ đang phân tâm khỏi những vấn đề lớn hơn. Do đó, tôi hoàn toàn đồng ý với câu trả lời của Robin Girard và anh ấy đề cập đến việc "không ăn trưa miễn phí".


3

Tính toán và xác suất cần thiết cho thống kê mạnh mẽ (thường) khó hơn, vì vậy (a) có ít lý thuyết hơn và (b) khó nắm bắt hơn.


2

Tôi ngạc nhiên khi thấy định lý Gauss-Markov không được đề cập trong danh sách dài các câu trả lời, afaics này:

Trong một mô hình tuyến tính với các lỗi hình cầu (trong đó bao gồm giả định không có ngoại lệ, thông qua phương sai lỗi hữu hạn), OLS có hiệu quả trong một lớp các công cụ ước lượng không thiên vị tuyến tính - có các điều kiện (hạn chế, chắc chắn) theo đó " bạn không thể làm tốt hơn OLS ".

Tôi không tranh luận điều này nên biện minh cho việc sử dụng OLS gần như mọi lúc, nhưng nó chắc chắn góp phần vào lý do (đặc biệt là vì đó là một lý do tốt để tập trung rất nhiều vào OLS trong giảng dạy).


Vâng, vâng, nhưng giả định rằng giảm thiểu phương sai là tiêu chí có liên quan, và với đuôi nặng, nó có thể không phải như vậy!
kjetil b halvorsen

1
Chắc chắn rồi. Tôi chỉ muốn thêm những gì tôi tin có lẽ là lý do nổi tiếng nhất để nghĩ rằng OLS là một kỹ thuật hữu ích vào danh sách các lý do dễ hiểu tại sao các kỹ thuật mạnh mẽ không thay thế nó: có những trường hợp bạn không nên thay thế nó.
Christoph Hanck

0

Tôi đoán là số liệu thống kê mạnh mẽ không bao giờ đủ, tức là mạnh mẽ những số liệu thống kê này bỏ qua một số thông tin về phân phối. Và tôi nghi ngờ rằng nó không phải lúc nào cũng là một điều tốt. Nói cách khác, có sự đánh đổi giữa sự mạnh mẽ và mất thông tin.

meCười mở miệngTôimộtviết sai rồi({1,2,3,4,5})= =3= =meCười mở miệngTôimộtviết sai rồi({0,1,0,2,3,4000,5000})

1
Xem stats.stackexchange.com/questions/74113/ cho một tình huống trong đó trung vị rất mong manh và giá trị trung bình được xử lý rất tốt.
Nick Cox
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.