Một số ví dụ về thực hành lỗi thời trong thống kê là gì?


55

Tôi đang đề cập đến các thực tiễn vẫn duy trì sự hiện diện của họ, mặc dù các vấn đề (thường là tính toán) mà chúng được thiết kế để đối phó với hầu hết đã được giải quyết.

Ví dụ: hiệu chỉnh liên tục của Yates đã được phát minh để ước tính chính xác thử nghiệm của Fisher với thử nghiệm , nhưng nó không còn thực tế nữa vì giờ đây phần mềm có thể xử lý thử nghiệm của Fisher ngay cả với các mẫu lớn (tôi biết đây có thể không phải là một ví dụ hay về " duy trì sự hiện diện của nó ", vì sách giáo khoa, như Phân tích dữ liệu phân loại của Agresti , thường thừa nhận rằng sự điều chỉnh của Yates" không còn cần thiết nữa ").χ2

Một số ví dụ khác về thực hành như vậy là gì?


Tôi thực sự không chắc chắn rằng bài kiểm tra chi bình phương đã bị lỗi thời bởi khả năng tính toán sẵn có để thực hiện bài kiểm tra chính xác của Fisher, ví dụ như các lề của bạn có thực sự cố định không? Xem câu trả lời này cho một câu hỏi khác của @gung, ví dụ. (Tôi khá chắc chắn rằng chúng tôi có một chủ đề thảo luận về vấn đề chi tiết hơn nhưng tôi không thể tìm thấy nó vì chúng tôi có rất nhiều câu hỏi "tôi nên sử dụng chi bình phương hay tôi nên sử dụng câu hỏi kiểm tra chính xác của Fisher" Tôi tìm kiếm!)
Cá bạc

@Silverfish: Ý tôi không phải là đã bị lỗi thời, chỉ có sự điều chỉnh của Yates. Tôi tin rằng các nghiên cứu đã chỉ ra rằng sự điều chỉnh của Yates quá bảo thủ khi các lề không được cố định. Bài viết của Michael Haber Kiểm tra thống kê và hiệu chỉnh liên tục đã đưa ra đánh giá. χ2
Phanxicô


sử dụng OLS thay vì LAD?
PatrickT

5
@PatrickT: Tôi gặp nhiều rắc rối khi gọi OLS lỗi thời. Chắc chắn, có những trường hợp đặc biệt khi LAD rõ ràng vượt trội ... nhưng điều tương tự có thể được nói theo hướng khác.
Vách đá AB

Câu trả lời:


49

Người ta cho rằng việc sử dụng các mức ý nghĩa ngưỡng như hoặc là một sự nôn nao lịch sử từ thời kỳ mà hầu hết các nhà nghiên cứu phụ thuộc vào các bảng được tính toán trước đó của các giá trị quan trọng. Bây giờ phần mềm tốt sẽ cung cấp giá trị trực tiếp. Thật vậy, phần mềm tốt cho phép bạn tùy chỉnh phân tích của mình và không phụ thuộc vào các bài kiểm tra sách giáo khoa.P = 0,01 PP=0.05P=0.01P

Điều này gây tranh cãi nếu chỉ vì một số vấn đề kiểm tra quan trọng cần có quyết định, vì trong kiểm soát chất lượng trong đó chấp nhận hoặc từ chối một lô là quyết định cần thiết, tiếp theo là một hành động. Nhưng ngay cả ở đó, các ngưỡng được sử dụng phải phát triển từ phân tích rủi ro, không phụ thuộc vào truyền thống. Và thông thường trong các ngành khoa học, phân tích các chỉ dẫn định lượng phù hợp hơn các quyết định: suy nghĩ định lượng ngụ ý sự chú ý đến kích thước của giá trị và không chỉ là sự phân đôi thô, có ý nghĩa so với không đáng kể.P

Tôi sẽ đánh dấu rằng tôi ở đây chạm vào một vấn đề phức tạp và gây tranh cãi, đó là trọng tâm của toàn bộ sách và có lẽ hàng ngàn bài báo, nhưng nó có vẻ là một ví dụ công bằng cho chủ đề này.


4
Ví dụ tuyệt vời! Để tham khảo, chủ đề này đáng được đề cập: Liên quan đến giá trị p, tại sao 1% và 5%? Tại sao không phải là 6% hay 10%?
Phanxicô

5
@ JM Tôi tự tin 95% bạn đúng, mặc dù tôi không tự tin 99%.
Mark L. Stone

5
Trên thực tế, tôi không chắc đây là một ví dụ tuyệt vời. Mặc dù đúng là việc kiểm tra mọi thứ ở dễ dàng hơn nhiều so với trước đây, tôi chưa bao giờ thấy một lý lẽ tốt cho lý do tại sao bạn muốn , bên ngoài các trường hợp đặc biệt (ví dụ như kiểm soát chất lượng), trong trường hợp đó tôi không ' t biết rằng mức ý nghĩa tùy ý vẫn được sử dụng. α=0.038561
Vách đá AB

4
@CliffAB Tôi không nghĩ rằng điểm chính của giá trị P chính xác là sau đó bạn quyết định rằng nó tạo thành cấp độ quan trọng mà bạn muốn áp dụng cho quyết định. Tôi chắc chắn không gợi ý hay ủng hộ điều đó. Một phần của tranh luận ở đây không chỉ là 0,05 và 0,01 ở mức thông thường tốt nhất mà các xét nghiệm cung cấp một cách để đánh giá sức mạnh của bằng chứng chống lại giả thuyết khống thay vì đưa ra quyết định nhị phân. Trong thực tế 0,05 và 0,01 mức vẫn được sử dụng rất nhiều trong nhiều lĩnh vực.
Nick Cox

4
@Nick Cox Và đừng quên mức 0,1 cho đám đông thoải mái, êm dịu.
Mark L. Stone

24

Một phương pháp mà tôi nghĩ rằng nhiều khách truy cập của trang web này sẽ đồng ý với tôi là hồi quy từng bước. Nó vẫn được thực hiện mọi lúc, nhưng bạn không cần phải tìm kiếm các chuyên gia trên trang này nói rằng việc sử dụng nó không phù hợp. Một phương pháp như LASSO được ưa thích hơn nhiều.


4
HỎI !! Bạn đang đề nghị thay thế lỗi thời (hồi quy từng bước) bằng thuyết lỗi thời thế hệ tiếp theo (LASSO), đó là lỗi thời trong chính thời đại mà những người theo dõi chưa nhận ra điều đó. Xem thống kê.stackexchange.com/questions / 162861 / Google .
Mark L. Stone

3
@ MarkL.Stone: Này anh bạn, ít nhất là 20 năm đi đúng hướng. Tôi không quá quen thuộc với các phương pháp này, vì vậy tôi sẽ phải đọc chúng trước khi tôi có thể chứng thực cho họ.
Vách đá AB

2
Sau khi đọc nhanh bài báo, tôi hơi do dự khi quyết định rằng LASSO đã chính thức lỗi thời, mặc dù rõ ràng không phải lúc nào nó cũng là lựa chọn tối ưu. Có lẽ trong 5 năm nữa tôi sẽ thoải mái hơn khi gọi LASSO lỗi thời.
Vách đá AB

2
@amoeba: Tôi nghĩ Mark đang đề cập đến việc sử dụng LASSO như một công cụ để hồi quy tập hợp con tốt nhất. Ví dụ, tôi mơ hồ nhớ lại việc đọc một ai đó thảo luận về LASSO phù hợp đầu tiên, và sau đó tinh chỉnh một mô hình không bị phạt bằng cách sử dụng các tham số hồi quy khác không. Hồi quy tập hợp con tốt nhất có thể là một cách trực tiếp hơn để làm điều này (mặc dù như bạn nói, không rõ ràng rằng đây là một ý tưởng tốt ngay cả khi đó là những gì nhà phân tích muốn làm).
Vách đá AB

2
... Và bài báo trình bày ít nhất một tình huống (tức là mô phỏng theo một số tham số nhất định) trong đó nó thực hiện rõ ràng LASSO, mặc dù tôi nghĩ rằng tất cả chúng ta đều biết chính xác chúng ta nên nghiêm túc thực hiện những kết quả như vậy như thế nào.
Vách đá AB

17

Quan điểm của tôi là ít nhất là trong kinh tế lượng (áp dụng), ngày càng có nhiều tiêu chuẩn để sử dụng ma trận hiệp phương sai mạnh mẽ hoặc theo kinh nghiệm hơn là "thực hành lỗi thời" dựa vào đặc tả chính xác của ma trận hiệp phương sai. Điều này tất nhiên không phải là không có tranh cãi: xem một số câu trả lời tôi liên kết ở đây tại CrossValidated, nhưng nó chắc chắn là một xu hướng rõ ràng.

Các ví dụ bao gồm lỗi tiêu chuẩn không đồng nhất-mạnh mẽ ( lỗi tiêu chuẩn Eicker-Huber-White). Một số nhà nghiên cứu như Angrist và Pischke rõ ràng khuyên luôn luôn sử dụng lỗi tiêu chuẩn không đồng nhất thay vì quy trình "lỗi thời" để sử dụng lỗi tiêu chuẩn thông thường như mặc định và kiểm tra xem giả định có được bảo hành hay không.E[uu]=σ2In

Các ví dụ khác bao gồm dữ liệu bảng, Imbens và Wooldridge viết ví dụ trong các slide bài giảng của họ lập luận chống lại việc sử dụng ma trận hiệp phương sai hiệu ứng ngẫu nhiên (mặc định giả sử một số lỗi chính tả trong thành phần phương sai là mặc định):

Suy luận đầy đủ mạnh mẽ có sẵn và thường nên được sử dụng. (Lưu ý: Ma trận phương sai RE thông thường, chỉ phụ thuộc vào và , không cần phải được chỉ định chính xác! Vẫn có ý nghĩa khi sử dụng nó trong ước tính nhưng làm cho suy luận mạnh mẽ.) σ 2 uσc2σu2

Sử dụng các mô hình tuyến tính tổng quát (đối với các phân phối thuộc họ hàm mũ), thông thường nên sử dụng luôn là công cụ ước tính sandwich thay vì dựa vào các giả định phân phối chính xác (thực tiễn lỗi thời ở đây): xem ví dụ câu trả lời này hoặc Cameron để đếm dữ liệuước tính khả năng tối đa giả có thể khá linh hoạt trong trường hợp sai chính tả (ví dụ: sử dụng Poisson nếu nhị thức âm sẽ chính xác).

Việc sửa lỗi tiêu chuẩn [Trắng] như vậy phải được thực hiện cho hồi quy Poisson, vì chúng có thể tạo ra sự khác biệt lớn hơn nhiều so với sửa lỗi không đồng nhất tương tự cho OLS.

Greene viết trong sách giáo khoa của mình trong Chương 14 (có sẵn trên trang web của mình) với một ghi chú quan trọng và đi sâu hơn vào chi tiết về những lợi thế và bất lợi của thực tiễn này:

Có một xu hướng trong tài liệu hiện tại là tính toán công cụ ước tính [sandwich] này một cách thường xuyên, bất kể chức năng khả năng. * [...] * Chúng tôi nhấn mạnh một lần nữa rằng công cụ ước tính sandwich, không nhất thiết phải là bất kỳ đức hạnh nếu chức năng khả năng bị sai và các điều kiện khác cho công cụ ước tính M không được đáp ứng.


4
Thú vị, nhưng câu hỏi là cái gì là lỗi thời, không phải cái gì ngày càng chuẩn, vì vậy câu trả lời phải được đảo ngược.
Nick Cox

1
Xin chào Nick, cảm ơn vì nhận xét của bạn (và các chỉnh sửa của bạn), tôi đã sửa đổi văn bản để làm nổi bật thực tiễn lỗi thời là gì, tôi hy vọng nó sẽ trở nên rõ ràng hơn một chút. Tôi đã không đảo ngược toàn bộ văn bản, vì thực tế trước đây gần như không làm gì đặc biệt về lỗi tiêu chuẩn.
Arne Jonas Warnke

Trong một số trường hợp, điều đó không tự nhiên và không thể sử dụng các giải pháp thay thế mạnh mẽ, nói chuỗi thời gian. Vì vậy, tôi nghĩ rằng nó không trở nên "phổ biến hơn" mà chỉ "phổ biến hơn ở một số khu vực".
Henry.L

13

Một phương pháp được sử dụng không cần thiết mọi lúc là hiệu chỉnh Bonferroni thành giá trị p. Mặc dù nhiều so sánh là một vấn đề lớn như trước đây, nhưng hiệu chỉnh Bonferroni về cơ bản là lỗi thời đối với các giá trị p: đối với mọi tình huống trong đó hiệu chỉnh Bonferroni là hợp lệ, Holm-Bonferroni cũng sẽ có sức mạnh cao hơn theo thay thế nếu , trong đó là số giả thuyết được kiểm tra (đẳng thức tại ).m m = 1m>1mm=1

Tôi nghĩ lý do cho sự kiên trì của hiệu chỉnh Bonferroni là dễ sử dụng tinh thần (tức là p = 0,004 với dễ dàng điều chỉnh thành 0,12, trong khi Holm-Bonferroni yêu cầu sắp xếp các giá trị p).m=30


Đến đây để đăng bài này. Ngoài ra: tôi không tin rằng có bất kỳ tình huống nào mà FWER sẽ được ưu tiên hơn các phương pháp FDR mới hơn (vì khả năng mở rộng và khả năng thích ứng).
Alexis

13

Hầu hết các thực hành lỗi thời có lẽ là do cách dạy số liệu thống kê và thực tế là các phân tích được điều hành bởi một số lượng lớn những người chỉ học một vài lớp cơ bản. Chúng tôi thường dạy một tập hợp các ý tưởng và quy trình thống kê tiêu chuẩn vì chúng tạo thành một chuỗi logic tăng độ tinh vi khái niệm có ý nghĩa về mặt sư phạm (xem, Làm thế nào chúng ta có thể biết phương sai dân số? ). Bản thân tôi có lỗi: Tôi thỉnh thoảng dạy các chỉ số 101 và 102, và tôi liên tục nói, 'có cách tốt hơn để làm điều này, nhưng nó vượt quá phạm vi của lớp này'. Đối với những sinh viên không tiếp tục vượt quá trình tự giới thiệu (gần như tất cả), họ chỉ còn lại các chiến lược cơ bản, nhưng thay thế ,.

  1. Đối với ví dụ thống kê 101, có lẽ cách thực hành lỗi thời phổ biến nhất là kiểm tra một số giả định và sau đó chạy phân tích thống kê truyền thống vì thử nghiệm không đáng kể. Một cách tiếp cận hiện đại / tiên tiến / phòng thủ hơn sẽ là sử dụng một phương pháp mạnh mẽ cho giả định đó ngay từ đầu. Một số tài liệu tham khảo để biết thêm thông tin:

  2. Đối với thống kê 102 ví dụ, bất kỳ số lượng thực hành mô hình nào đã bị lỗi thời:

    • Chuyển đổi để đạt được tính quy tắc của phần dư để có được giá trị đáng tin cậy so với bootstrapping. pYp
    • Biến đổi để đạt được độ đồng nhất thay vì sử dụng công cụ ước tính sandwich, v.v. Y
    • Sử dụng đa thức bậc cao hơn để thu được độ cong so với các khối vuông.
    • Đánh giá các mô hình dự định sử dụng giá trị và độ tốt trong mẫu của các số liệu phù hợp như thay vì xác thực chéo. R 2pR2
    • Với dữ liệu đo lặp lại, phân loại một biến liên tục để có thể sử dụng rmANOVA hoặc lấy trung bình nhiều phép đo so với sử dụng mô hình hỗn hợp tuyến tính.
    • Vân vân.

Điểm quan trọng trong tất cả các trường hợp này là mọi người đang làm những gì được dạy đầu tiên trong một lớp giới thiệu vì đơn giản là họ không biết các phương pháp phù hợp và tiên tiến hơn.


5

Một ví dụ rất thú vị là các bài kiểm tra gốc đơn vị trong toán kinh tế lượng. Mặc dù có rất nhiều lựa chọn có sẵn để kiểm tra dựa trên hoặc cho một đơn vị gốc trong đa thức trễ của chuỗi thời gian (ví dụ: Thử nghiệm Dickey Fuller (Augmented) hoặc thử nghiệm KPSS), vấn đề có thể được giải quyết hoàn toàn khi sử dụng phân tích Bayes . Sims đã chỉ ra điều này trong bài viết khiêu khích của mình có tựa đề Hiểu về đơn vị Rooters: Chuyến tham quan bằng trực thăng từ năm 1991.

Kiểm tra gốc đơn vị vẫn còn hiệu lực và được sử dụng trong kinh tế lượng. Trong khi cá nhân tôi cho rằng điều này chủ yếu là do mọi người không thích nghi với các thực hành Bayes, nhiều nhà kinh tế lượng bảo thủ bảo vệ thực hành kiểm tra gốc đơn vị bằng cách nói rằng quan điểm của Bayes về thế giới mâu thuẫn với tiền đề của nghiên cứu kinh tế lượng. (Nghĩa là, các nhà kinh tế nghĩ về thế giới như một nơi có các tham số cố định, không phải là tham số ngẫu nhiên bị chi phối bởi một số siêu tham số.)


5
Tôi sẽ quan tâm đến một cuộc thảo luận ngắn gọn về cách thực hành Bayes vượt qua các bài kiểm tra này. Nói cách khác, làm thế nào bạn sẽ đưa ra trường hợp cho yêu cầu này?
Mike Hunter

Tôi phải thừa nhận rằng đã lâu rồi tôi mới đọc bài báo, nhưng điểm chính là sử dụng căn hộ trước khi phân tích Bayes về chuỗi thời gian, người ta có thể sử dụng các giá trị t tiêu chuẩn.
Jeremias K

5

Trả phí cấp phép cho các hệ thống phần mềm thống kê chất lượng cao. #R


1

Dạy / tiến hành các thử nghiệm hai đuôi cho sự khác biệt mà không đồng thời kiểm tra sự tương đương trong lĩnh vực thường xuyên của kiểm tra giả thuyết là một cam kết sâu sắc đối với sai lệch xác nhận .

Có một số sắc thái, trong đó một phân tích sức mạnh phù hợp với định nghĩa chu đáo về kích thước hiệu ứng có thể bảo vệ chống lại điều này và cung cấp ít nhiều các loại suy luận tương tự, nhưng (a) các phân tích sức mạnh thường bị bỏ qua trong các phát hiện và (b) I đã bao giờ nhìn thấy một phân tích năng lượng cho, ví dụ, mỗi hệ số ước tính cho mỗi biến trong một hồi quy nhiều, nhưng nó là đơn giản để làm như vậy để thử nghiệm kết hợp với sự khác biệt và xét nghiệm cho tương đương (tức là xét nghiệm liên quan).


0

Sử dụng mô hình nhị thức âm chứ không phải mô hình Poisson (mạnh) để xác định tham số quan tâm trong biến đếm, chỉ vì có phân tán quá mức?

Xem dưới dạng tài liệu tham khảo: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Bằng chứng cho thấy Poisson mạnh mẽ hơn trong trường hợp hiệu ứng cố định là khá gần đây vì nó được đưa ra tham khảo: Wooldridge, JM, Ước tính không phân phối của một số mô hình dữ liệu bảng phi tuyến, Tạp chí Kinh tế lượng 90 (1999), 77 thuật97.


-6

Dưới đây là một số lỗi thời:

  • Giả định tân sinh học rằng có một quần thể "thực sự" duy nhất ngoài kia trong ether lý thuyết là vĩnh cửu, cố định và không di chuyển mà các mẫu không hoàn hảo của chúng ta có thể được đánh giá rất ít để nâng cao kiến ​​thức và kiến ​​thức.

  • Chủ nghĩa giản lược vốn có trong các nhiệm vụ như Occam's Razor không phù hợp với thời đại. HOẶC có thể được tóm tắt là "Trong số các giả thuyết cạnh tranh, nên chọn một giả thuyết có ít giả định nhất." Các lựa chọn thay thế bao gồm Nguyên lý đa giải thích của Epicurus , trong đó đại khái, "Nếu có nhiều hơn một lý thuyết phù hợp với dữ liệu, hãy giữ tất cả chúng."

  • Toàn bộ hệ thống đánh giá ngang hàng đang rất cần một cuộc đại tu.

* Biên tập *

  • Với dữ liệu khổng lồ chứa hàng chục triệu tính năng, không còn cần một giai đoạn lựa chọn thay đổi.

  • Ngoài ra, thống kê suy luận là vô nghĩa.


Bình luận không dành cho thảo luận mở rộng; cuộc trò chuyện này đã được chuyển sang trò chuyện .
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.