Đây có phải là giải pháp cho vấn đề giá trị p?


67

Vào tháng 2 năm 2016, Hiệp hội Thống kê Hoa Kỳ đã đưa ra một tuyên bố chính thức về ý nghĩa thống kê và giá trị p. Chủ đề của chúng tôi về nó thảo luận về những vấn đề này rộng rãi. Tuy nhiên, không có cơ quan nào được đưa ra để đưa ra một giải pháp thay thế hiệu quả được công nhận trên toàn cầu - cho đến bây giờ. Hiệp hội Thống kê Hoa Kỳ (ASS) đã công bố phản hồi của mình, giá trị p: Tiếp theo là gì?

"Giá trị p không tốt cho nhiều."

Chúng tôi nghĩ rằng ASA đã không đi đủ xa. Đã đến lúc phải thừa nhận rằng thời đại của giá trị p đã kết thúc. Các nhà thống kê đã sử dụng chúng thành công để cản trở sinh viên đại học, lừa các nhà khoa học và đánh lừa các biên tập viên ở khắp mọi nơi, nhưng thế giới đang bắt đầu nhìn thấy thông qua mưu mẹo này. Chúng ta cần phải từ bỏ nỗ lực đầu thế kỷ 20 này của các nhà thống kê để kiểm soát việc ra quyết định. Chúng ta cần quay trở lại những gì thực sự hoạt động.

Đề xuất chính thức của ASS là đây:

Thay cho giá trị p, ASS ủng hộ STOP (quy trình SeaT-Of-Quần). Phương pháp được thử thách và tôn vinh theo thời gian này đã được sử dụng bởi người Hy Lạp cổ đại, những người phục hưng và tất cả các nhà khoa học cho đến khi Ronald Fisher xuất hiện và phá hỏng mọi thứ. STOP là đơn giản, trực tiếp, dựa trên dữ liệu và có thẩm quyền. Để thực hiện nó, một nhân vật có thẩm quyền (một người đàn ông lớn tuổi, theo sở thích) xem xét dữ liệu và quyết định xem họ có đồng ý với ý kiến ​​của anh ta không. Khi anh ta quyết định họ làm, kết quả là có ý nghĩa. Khác Nếu không thì mọi người buộc phải quên đi toàn bộ.

Nguyên tắc

Câu trả lời giải quyết từng nguyên tắc trong sáu nguyên tắc của ASA.

  1. STOP có thể chỉ ra mức độ không tương thích của dữ liệu với một mô hình thống kê được chỉ định.

    Chúng tôi thích cụm từ này bởi vì đó là một cách thú vị để nói rằng STOP sẽ trả lời bất kỳ câu hỏi nào có hay không. Không giống như giá trị p hoặc các thủ tục thống kê khác, nó không còn nghi ngờ gì nữa. Đó là câu trả lời hoàn hảo cho những người nói rằng chúng tôi không cần giả thuyết khống! Cái gì *?! @ Là cái đó chứ? Không ai có thể hiểu được nó đáng ra là gì.

  2. STOP không đo lường xác suất giả thuyết là đúng: nó thực sự quyết định liệu nó có đúng hay không.

    Mọi người đều bối rối bởi xác suất. Bằng cách lấy xác suất ra khỏi bức tranh, STOP loại bỏ sự cần thiết trong nhiều năm học đại học và sau đại học. Bây giờ, bất kỳ ai (đủ tuổi và nam) đều có thể thực hiện phân tích thống kê mà không phải chịu đau đớn và bị tra tấn ngay cả khi nghe một bài giảng thống kê hoặc chạy phần mềm phức tạp, tạo ra đầu ra khó hiểu.

  3. Kết luận khoa học và quyết định kinh doanh hoặc chính sách có thể dựa trên ý nghĩa thông thường và số liệu thẩm quyền thực sự.

    Dù sao đi nữa, các quyết định quan trọng luôn được đưa ra bởi các nhà chức trách, vì vậy chúng ta hãy thừa nhận và loại bỏ những người trung gian. Sử dụng STOP sẽ giúp các nhà thống kê tự do thực hiện những gì họ phù hợp nhất: sử dụng các con số để che giấu sự thật và thánh hóa các sở thích của những người nắm quyền lực.

  4. Suy luận đúng yêu cầu báo cáo đầy đủ và minh bạch.

    STOP là quy trình thống kê rõ ràng và rõ ràng nhất từng được phát minh: bạn nhìn vào dữ liệu và bạn quyết định. Nó loại bỏ tất cả những bài kiểm tra z khó hiểu, bài kiểm tra t, bài kiểm tra chi bình phương và quy trình súp bảng chữ cái (ANOVA! GLM! MLE!) Được mọi người sử dụng để che giấu sự thật rằng họ không biết dữ liệu có ý nghĩa gì.

  5. STOP đo lường tầm quan trọng của kết quả.

    Điều này là hiển nhiên: nếu một người có thẩm quyền sử dụng STOP, thì kết quả phải quan trọng.

  6. Chính nó, STOP cung cấp một thước đo bằng chứng tốt về một mô hình hoặc giả thuyết.

    Chúng tôi sẽ không muốn thách thức một cơ quan, phải không? Các nhà nghiên cứu và người ra quyết định sẽ nhận ra rằng STOP cung cấp tất cả thông tin họ cần biết. Vì những lý do này, phân tích dữ liệu có thể kết thúc bằng STOP; không cần các phương pháp thay thế, như giá trị p, học máy hay chiêm tinh học.

Các cách tiếp cận khác

Một số nhà thống kê thích cái gọi là phương pháp của Bay Bayesian, trong đó một định lý mơ hồ được công bố bởi một giáo sĩ thế kỷ 18 được áp dụng một cách không suy nghĩ để giải quyết mọi vấn đề. Những người ủng hộ được chú ý nhất của nó tự do thừa nhận các phương pháp này là chủ quan. Do đó, STOP nổi lên như là giới hạn logic của tất cả các phương thức Bayes. Tại sao phải nỗ lực làm việc với những tính toán khủng khiếp đó và buộc quá nhiều thời gian trên máy tính, khi bạn chỉ có thể hiển thị dữ liệu cho anh chàng phụ trách và hỏi anh ta ý kiến ​​của anh ta là gì? Kết thúc câu chuyện.

Một cộng đồng khác gần đây đã phát sinh để thách thức chức tư tế của các nhà thống kê. Họ tự gọi mình là những người học máy trên máy tính và các nhà khoa học dữ liệu, và thực sự là những tin tặc tìm kiếm địa vị cao hơn. Đây là vị trí chính thức của ASS rằng những kẻ này nên thành lập tổ chức chuyên nghiệp của riêng họ nếu họ muốn mọi người coi trọng họ.


Câu hỏi

Đây có phải là câu trả lời cho các vấn đề mà ASA đã xác định với giá trị p và kiểm tra giả thuyết không? Nó có thể thực sự hợp nhất các mô hình Bayes và Thường xuyên (như được tuyên bố ngầm trong phản hồi)?


11
"Donald Trump cho thẩm phán STOP ASS tối cao: làm cho số liệu thống kê trở lại tuyệt vời!"
Alex R.

14
Rõ ràng STOP là một thủ tục tối ưu. Tôi ngạc nhiên rằng điều này đã thoát khỏi một tổ chức học giả đáng kính như ASS. Để wit, tại sao lãng phí thời gian nhìn vào dữ liệu ở tất cả ? Đơn giản chỉ cần đưa ra câu trả lời có / không. Phương pháp này hiện đang được sử dụng để có hiệu quả tuyệt vời. Các nghiên cứu điển hình rất nhiều, đặc biệt là ở Hoa Kỳ trong những năm chia hết cho 4.
hồng y

4
Tôi nghĩ rằng các doanh nghiệp cũng có thể hưởng lợi rất nhiều từ việc áp dụng các phương pháp này, vì họ không còn phải gánh chịu chi phí nặng nề khi thuê người phân tích dữ liệu của họ.
DSaxton

4
@henry Như thể thẻ [april-1] không cho chúng ta biết điều đó?
Glen_b

9
@Henry Nghiêm túc? Bạn có thể chỉ cho chúng tôi bất kỳ tổ chức giả mạo nào nhận được hơn một phần tư triệu lượt truy cập khi bạn đặt tên cho Google không?
whuber

Câu trả lời:


18

Tôi đã ủng hộ cách tiếp cận mới của riêng tôi đối với việc ra quyết định thống kê được gọi là RADD: R oll A D amn D tức là. Nó cũng giải quyết tất cả các điểm chính.

1) RADD có thể chỉ ra mức độ tương thích của dữ liệu với một mô hình thống kê được chỉ định.

Nếu bạn cuộn một số cao hơn, rõ ràng bằng chứng có lợi cho mô hình của bạn hơn! Một lợi ích nữa là, nếu chúng ta mong muốn tự tin hơn nữa, chúng ta có thể lăn một cái chết với nhiều mặt hơn. Bạn thậm chí có thể tìm thấy xúc xắc 100 mặt nếu bạn tìm kiếm đủ!

2) RADD có thể quyết định liệu một giả thuyết có đúng hay không.

Bạn chỉ phải lăn một cái chết 2 mặt, tức là lật một đồng xu.

3) RADD có thể được sử dụng để đưa ra các quyết định chính sách hoặc kinh doanh

Nhận một loạt các nhà hoạch định chính sách trong một căn phòng, và có tất cả các con xúc xắc! Chiến thắng cao nhất!

4) RADD là trong suốt.

Kết quả có thể được ghi lại, và bản thân cái chết có thể được giữ lại để nghiên cứu thêm *

5) RADD đo lường tầm quan trọng của kết quả.

Rõ ràng, lăn cao hơn biểu thị một sự kiện rất quan trọng đã xảy ra.

6) RADD cung cấp một thước đo bằng chứng tốt.

Không phải chúng ta nói cuộn cao hơn là tốt hơn sao?

Vì vậy, không, DỪNG không phải là câu trả lời. Câu trả lời là RADD.


7
Đừng quên, nó có thể đảm bảo kiểm soát lỗi loại I (ở bất kỳ mức độ mong muốn nào được đưa ra một con xúc xắc đủ mặt), ví dụ như chỉ từ chối một giả thuyết khống khi một trong 5 mặt có số lượng xúc xắc 100 mặt cao nhất xuất hiện để đạt được tỷ lệ lỗi loại 5%.
Bjorn


17

p-giá trị và các phương pháp thường xuyên khác, hoặc Bayes. Từ quan điểm kinh doanh, STOP cung cấp các câu trả lời đơn giản và dứt khoát, điều làm cho nó đáng tin cậy hơn các phương pháp "xác suất" không chắc chắn. Hơn nữa, trong phần lớn các trường hợp, việc thực hiện đơn giản hơn và dễ thích ứng với thay đổi thực tế hơn các phương pháp khác. Các quyết định Có / Không có sức thuyết phục hơn đối với quản lý cấp trung và cấp cao. "Báo cáo STOP" trong hầu hết các trường hợp ngắn hơn và dễ đọc hơn các báo cáo dựa trên dữ liệu. Hơn nữa, việc áp dụng phương pháp này cho phép chủ nhân của bạn cắt giảm chi phí cho các nhà khoa học dữ liệu và giấy phép SAS. Tôi có thể nói rằng vấn đề duy nhất với STOP là khó thực hiện bài thuyết trình PowerPoint trình bày kết quả STOP, nhưng đây là một lĩnh vực phát triển năng động, vì vậy trong tương lai có thể đề xuất các phương pháp trực quan tốt hơn.


6
Khi các slide PowerPoint với kết luận đã được tóm tắt, đã quá muộn để thay đổi nó, do đó, có hai lựa chọn, làm cho phân tích phù hợp với kết luận hoặc không bận tâm đến việc phân tích.
Mark L. Stone

12
@ MarkL.Stone Chắc chắn! Cá nhân tôi thích ý tưởng tạo ra các âm mưu cho bài thuyết trình trước khi xem dữ liệu, ý tưởng này bắt nguồn từ suy nghĩ của Bayes và tôi gọi chúng là các âm mưu tiên nghiệm :) Tôi nghĩ rằng cách tiếp cận này xuất hiện lần đầu tiên ở đây: Dilbert.com/strip/ 2008-05-08
Tim

15

Điều này phù hợp với cuộc tranh luận về giá trị p, thú vị nhưng cũng có phần hơi cũ theo quan điểm của tôi, làm tôi nhớ đến một bài báo độc đáo được xuất bản vài năm trước trong số báo Giáng sinh của Tạp chí Y học Anh (BMJ), mà mỗi Giáng sinh đều xuất bản nghiên cứu thực sự hài hước bài viết. Đặc biệt, công trình này của Isaacs và Fitzgerald đã nêu bật bảy lựa chọn thay thế chính cho y học dựa trên bằng chứng (tức là thực hành y học dựa trên bằng chứng lâm sàng và thống kê thực tế):

  • Thuốc dựa trên Eminence
  • Thuốc dựa trên Vehemence
  • Thuốc dựa trên hiệu quả
  • Thuốc dựa trên Providence
  • Thuốc dựa trên sự khác biệt
  • Thuốc dựa trên thần kinh
  • Thuốc dựa trên niềm tin

Thú vị nhất, bạn phải nhìn vào các cột làm nổi bật các thiết bị đo và đơn vị đo lường cho các mục ở trên (ví dụ: máy đo thính lực và decibel cho thuốc dựa trên sự kịch liệt!).


4
+1. Cảm ơn bạn đã đóng góp tuyệt vời, hoàn hảo trong tinh thần của câu hỏi. (1) Chỉ cần làm rõ: đó là cuộc tranh luận về giá trị p mà bạn thấy "cũ" hay chỉ là câu hỏi này? (2) Bạn có biết nơi để tìm tài liệu tham khảo (6), "Mức lương theo cấp số nhân J" không? Tôi chắc chắn rằng nó sẽ có nhiều độc giả cuồng nhiệt nếu nó được biết đến nhiều hơn.
whuber

5
(1) Đóng góp của bạn là 'được chứng nhận tươi' (để trích dẫn rottentomatoes.com). Ngược lại, tôi thấy phần nào nhấn mạnh sự nhấn mạnh này vào những hạn chế của giá trị p. Trong thời đại học máy, dữ liệu lớn và trình độ khoa học kém trong cộng đồng, lập trường ASA có vẻ hơi bạo dâm. (2) Tôi nghĩ rằng bạn sẽ tìm thấy bài báo đó trong cùng một tạp chí nơi họ đã xuất bản thử nghiệm ngẫu nhiên được đề xuất trong tác phẩm Giáng sinh BMJ khác này: bmj.com/content/327/7429/1459 .
Joe_74

Tôi luôn quên, có phải đó là Thuốc dựa trên niềm tin sử dụng suy luận dựa trên Dunning-Kruger?
Alexis
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.