Tại sao tiếp tục giảng dạy và sử dụng kiểm tra giả thuyết (khi có khoảng tin cậy)?


56

Tại sao tiếp tục giảng dạy và sử dụng kiểm tra giả thuyết (với tất cả các khái niệm khó khăn và là một trong những tội lỗi thống kê nhất) cho các vấn đề trong đó có một công cụ ước tính khoảng (độ tin cậy, bootstrap, độ tin cậy hoặc bất cứ điều gì)? Giải thích tốt nhất (nếu có) được đưa ra cho sinh viên là gì? Chỉ có truyền thống? Các quan điểm sẽ rất hoan nghênh.



4
Những trích dẫn này rất thích hợp. Tất cả các mô hình đều sai, nhưng một số hữu ích.
mpiktas

Câu trả lời:


60

Đây là ý kiến ​​cá nhân của tôi, vì vậy tôi không chắc nó đủ điều kiện để trả lời.

Tại sao chúng ta nên dạy kiểm định giả thuyết?

Tóm lại, một lý do rất lớn là trong tất cả khả năng, trong thời gian bạn phải đọc câu này, hàng trăm, nếu không phải hàng ngàn (hoặc hàng triệu) bài kiểm tra giả thuyết đã được thực hiện trong bán kính 10ft nơi bạn ngồi.

Điện thoại di động của bạn chắc chắn đang sử dụng một bài kiểm tra tỷ lệ khả năng để quyết định xem nó có nằm trong phạm vi của một trạm gốc hay không. Phần cứng WiFi của máy tính xách tay của bạn đang làm tương tự trong giao tiếp với bộ định tuyến của bạn.

Lò vi sóng bạn đã sử dụng để tự động hâm nóng lại miếng pizza hai ngày tuổi đó đã sử dụng một bài kiểm tra giả thuyết để quyết định khi nào pizza của bạn đủ nóng.

Hệ thống kiểm soát lực kéo của xe bạn đã khởi động khi bạn cho nó quá nhiều xăng trên đường băng giá, hoặc hệ thống cảnh báo áp suất lốp cho bạn biết rằng lốp xe phía sau của bạn thấp bất thường, và đèn pha của bạn tự động bật vào khoảng 5: 19 giờ tối khi hoàng hôn buông xuống.

IPad của bạn đang hiển thị trang này ở định dạng ngang dựa trên các số đọc gia tốc kế (nhiễu).

Công ty thẻ tín dụng của bạn đã tắt thẻ của bạn khi "bạn" mua TV màn hình phẳng tại Best Buy ở Texas và chiếc nhẫn kim cương trị giá 2000 đô la tại Zales trong trung tâm thương mại của tiểu bang Washington trong vài giờ sau khi mua bữa trưa, gas và phim gần nhà của bạn ở vùng ngoại ô Pittsburgh.

Hàng trăm nghìn bitcoin được gửi để hiển thị trang web này trong trình duyệt của bạn, từng cá nhân đã trải qua một bài kiểm tra giả thuyết để xác định xem chúng có khả năng là 0 hay 1 (ngoài một số sửa lỗi đáng kinh ngạc).

Nhìn về phía bên phải của bạn chỉ một chút về các chủ đề "liên quan".

Tất cả những điều này "đã xảy ra" do các bài kiểm tra giả thuyết . Đối với nhiều trong số những điều này, một số ước tính khoảng của một số tham số có thể được tính toán. Nhưng, đặc biệt đối với các quy trình công nghiệp tự động, việc sử dụng và hiểu biết về kiểm định giả thuyết là rất quan trọng.


Ở cấp độ thống kê lý thuyết hơn, khái niệm quan trọng về sức mạnh thống kê phát sinh khá tự nhiên từ khuôn khổ kiểm tra lý thuyết / giả thuyết quyết định. Thêm vào đó, tôi tin rằng "thậm chí" một nhà toán học thuần túy có thể đánh giá cao vẻ đẹp và sự đơn giản của bổ đề Neyman House Pearson và bằng chứng của nó.

Điều này không có nghĩa là kiểm tra giả thuyết được dạy, hoặc hiểu, tốt. Nhìn chung, không phải vậy. Và, mặc dù tôi đồng ý rằng, đặc biệt là trong các ngành khoa học y tế, việc báo cáo ước tính khoảng thời gian cùng với kích thước hiệu ứng và khái niệm có ý nghĩa thống kê thực tế hầu như được ưa chuộng hơn bất kỳ thử nghiệm giả thuyết chính thức nào, điều này không có nghĩa là thử nghiệm giả thuyết và liên quan khái niệm không quan trọng và thú vị theo cách riêng của họ.


2
Cảm ơn danh sách các ví dụ thú vị. Đưa ra mục tiêu của câu hỏi: Để đóng góp cho cuộc tranh luận về việc xem xét các khóa học thống kê của chúng tôi, chúng tôi sẽ cố gắng để có thêm thông tin chi tiết về việc triển khai thử nghiệm trong các thiết bị hiện đại, có thể là động lực lớn cho sinh viên kỹ thuật của chúng tôi.
Washington S. Silva

3
Hầu hết các ví dụ của bạn không thực sự cần giả thuyết cổ điển (ngụ ý mức độ tin cậy cố định) mà là một thủ tục quyết định.
kjetil b halvorsen

1
Kính gửi @kjetil: Một downvote có vẻ hơi khắc nghiệt ở đây, phải trung thực. Thật vậy, câu hỏi không hỏi bất cứ điều gì cụ thể về kiểm tra giả thuyết cổ điển và câu trả lời của tôi cũng không đưa ra giả định đó! ( Kiểm tra giả thuyết được giải thích rộng rãi ở đây, và với lý do chính đáng.)
hồng y

1
Tôi cần mua một lò vi sóng với tự động hâm nóng.
jmbejara

2
Đây là một câu trả lời rất hùng hồn nhưng tôi sẽ rất biết ơn nếu bạn giải thích thêm một chút về lý do tại sao tất cả những điều này là "kiểm tra giả thuyết". Tôi hiểu rằng tất cả các ví dụ của bạn là về các quyết định nhị phân tự động. Tôi tưởng tượng rằng trong hầu hết các trường hợp, một số giá trị được đo và sau đó được so sánh với mức cắt để quyết định xem nó ở trên hay dưới nó (và do đó đi đến quyết định). Điều này đã đủ điều kiện là một "bài kiểm tra giả thuyết" cho bạn, hoặc bạn có ý gì khác? Tôi đoán khi OP hỏi về lý do tại sao kiểm tra giả thuyết vẫn được dạy, họ không đề cập đến ngưỡng đơn giản.
amip nói rằng Phục hồi lại

29

Tôi dạy các bài kiểm tra giả thuyết cho một số lý do. Một là lịch sử, rằng họ sẽ phải hiểu một khối lượng lớn các nghiên cứu trước đây họ đọc và hiểu quan điểm kiểm tra giả thuyết. Thứ hai là, ngay cả trong thời hiện đại, nó vẫn được một số nhà nghiên cứu sử dụng, thường là ngầm, khi thực hiện các loại phân tích thống kê khác.

Nhưng khi tôi dạy nó, tôi dạy nó trong khuôn khổ xây dựng mô hình, rằng những giả định và ước tính này là một phần của mô hình xây dựng. Bằng cách đó, việc chuyển sang so sánh các mô hình phức tạp và lý thuyết thú vị hơn là tương đối dễ dàng. Nghiên cứu thường xuyên đưa ra các lý thuyết chống lại nhau hơn là một lý thuyết so với không có gì.

Những tội lỗi của kiểm tra giả thuyết không phải là vốn có trong toán học, và sử dụng đúng những tính toán đó. Nơi họ chủ yếu nói dối là trong sự phụ thuộc quá mức và giải thích sai. Nếu phần lớn các nhà nghiên cứu ngây thơ chỉ sử dụng ước lượng khoảng mà không nhận ra bất kỳ mối quan hệ nào với những điều này, chúng ta gọi là giả thuyết, chúng ta có thể gọi đó là một tội lỗi.


+1, Cảm ơn. Cũng tranh luận. Nhưng trong các khóa học giới thiệu, không có lựa chọn mô hình, theo nghĩa chặt chẽ. Bạn có thể trích dẫn các bối cảnh khác phù hợp cho việc giới thiệu thử nghiệm giả thuyết? Có thể chấp nhận báo cáo kết quả của một bài kiểm tra mà không có ước tính sức mạnh?
Washington S. Silva

2
Không có lựa chọn mô hình trong các khóa học giới thiệu không phải là một điều cần thiết. Nếu bạn đang xem xét thay đổi một khóa học, hãy coi đó là một nơi tốt để bắt đầu.
Giăng

20

PPPP


2
Tôi sẽ không nói rằng trong một số lĩnh vực, "Nơi duy nhất ..." và "bao gồm ANOVA ..." có nghĩa là bạn vừa mới bao phủ một lượng lớn hộp công cụ thống kê.
Fomite

4
Tôi nghĩ rằng có rất nhiều điều để nói cho vị trí này. Cho rằng nhiều nhà nghiên cứu hầu hết muốn biết về các mẫu trong dữ liệu của họ, tôi thường tự hỏi liệu chúng ta có thể đặt hợp lý nhiều phần thống kê và chỉ đơn giản là sử dụng các lô dữ liệu. (Tất nhiên, điều này giả định các lô sẽ được thực hiện một cách khéo léo và cách sâu sắc, và kiểm tra giả thuyết sẽ không thể là xấu nếu chúng ta có thể nói rằng về họ.)
gung - Khôi phục Monica

1
Rất kén chọn, tôi không đồng ý với câu nói "không có bằng chứng không phải là bằng chứng vắng mặt". Không có bằng chứng cho một hiệu ứng không phải là bằng chứng cho thấy không có hiệu ứng tồn tại, nhưng nó chắc chắn tạo thành bằng chứng chống lại hiệu ứng đó hiện có. Câu hỏi là nhiều hơn về bao nhiêu bằng chứng chống lại ảnh hưởng của một kết quả không đáng kể. Vấn đề với giá trị p lớn tôi nghĩ là trong trường hợp phân phối bình thường, giá trị p lớn bằng chứng cho giả thuyết, vì chúng là một hàm đơn điệu của sự phù hợp. Và bởi vì phân phối bình thường rất phổ biến, mọi người nhìn thấy điều này và ngoại suy
xác suất

5
P

11

Tôi nghĩ rằng nó phụ thuộc vào đó Kiểm định giả thuyết bạn đang nói về. Thử nghiệm giả thuyết "cổ điển" (Neyman-Pearson) được cho là khiếm khuyết vì nó không phù hợp với điều kiện thực sự xảy ra khi bạn thực hiện thử nghiệm . Nó thay vào đó được thiết kế để hoạt động "bất kể" những gì bạn thực sự thấy trong thời gian dài. Nhưng không có điều kiện có thể dẫn đến kết quả sai lệch trong trường hợp cá nhân. Điều này chỉ đơn giản là vì thủ tục "không quan tâm" về trường hợp cá nhân, về lâu dài.

Kiểm tra giả thuyết có thể được đưa ra trong khuôn khổ lý thuyết quyết định, mà tôi nghĩ là một cách tốt hơn để hiểu nó. Bạn có thể đưa ra vấn đề như hai quyết định:

  1. H0
  2. HA

Khung quyết định dễ hiểu hơn nhiều, bởi vì nó phân tách rõ ràng các khái niệm "bạn sẽ làm gì?" và "sự thật là gì?" (thông qua thông tin trước của bạn).

Bạn thậm chí có thể áp dụng "lý thuyết quyết định" (DT) cho câu hỏi của bạn. Nhưng để dừng thử nghiệm giả thuyết, DT nói rằng bạn phải có một quyết định thay thế có sẵn cho bạn. Vì vậy, câu hỏi là: nếu thử nghiệm giả thuyết bị bỏ rơi, thì nó sẽ thế nào? Tôi không thể nghĩ ra câu trả lời cho câu hỏi này. Tôi chỉ có thể nghĩ ra những cách khác để làm xét nghiệm giả thuyết.

(LƯU Ý: trong bối cảnh kiểm tra giả thuyết, dữ liệu, phân phối mẫu, phân phối trước và chức năng mất là tất cả thông tin trước vì chúng được lấy trước khi đưa ra quyết định.)


Mục tiêu của tôi với vấn đề này là thu thập ý kiến ​​chuyên gia để làm phong phú thêm cuộc tranh luận về việc sửa đổi các khóa học về thống kê đang diễn ra tại viện nơi tôi làm việc ở Brazil. Mục tiêu đang đạt được, với các ý kiến ​​cũng như @cardinal, @Andrew Robinson, @probabilityislogic và @JMS. Rõ ràng, kiểm tra giả thuyết (thông qua NP, DT hoặc Byes) nên được dạy rất tốt, nhưng những thách thức để xây dựng các khóa học là phù hợp, do tính phổ biến của việc giảng dạy thống kê, tương đương hoặc phức tạp hơn so với chính kỹ thuật. Cảm ơn sự đóng góp của bạn.
Washington S. Silva

1
Tôi thích lý thuyết quyết định, nếu được thực hiện nghiêm ngặt bằng cách sử dụng các phương pháp Bayes kết hợp các chức năng mất / tiện ích hợp lý. Nếu các chức năng như vậy không có sẵn, tôi có xu hướng ủng hộ ước tính khoảng.
Frank Harrell

@FrankHarrell - Tôi đồng ý, nhưng tôi vẫn ước tính khoảng thời gian của lớp như một loại "lý thuyết quyết định" trong đó chức năng tiện ích thường dựa trên nội dung thông tin (nghĩa là kết luận sử dụng nhiều thông tin chúng ta có là tốt hơn) - và điều này được tối ưu hóa bởi chính phân phối sau, và có thể là dự đoán sau nếu dự đoán được quan tâm. Ước lượng khoảng cung cấp một bản tóm tắt thuận tiện của hậu thế. Và khoảng tin cậy tốt (ví dụ dựa trên MLE) cung cấp một xấp xỉ rất tốt cho điều này khi thông tin bên ngoài dữ liệu trong tay là khan hiếm
xác suất

thông thường bạn sử dụng ước tính khoảng thời gian khi bạn không có bất kỳ quyết định cụ thể nào (đó có thể là lý do chính khiến bạn không có chức năng mất hợp lý), và vì vậy cần phải phục vụ cho nhiều tình huống khác nhau.
xác suất

9

Nếu tôi là một người thường xuyên khó tính, tôi sẽ nhắc bạn rằng các khoảng tin cậy khá thường xuyên chỉ là các bài kiểm tra giả thuyết đảo ngược, tức là khi khoảng 95% chỉ đơn giản là một cách khác để mô tả tất cả các điểm mà bài kiểm tra liên quan đến dữ liệu của bạn sẽ không từ chối ở 0,05 cấp độ. Trong những tình huống này, một ưu tiên cho cái này hơn cái kia là câu hỏi về giải trình hơn là phương pháp.

Bây giờ, tất nhiên là quan trọng, nhưng tôi nghĩ đó sẽ là một cuộc tranh luận khá tốt. Thật gọn gàng và rõ ràng để giải thích hai cách tiếp cận như là sự phục hồi của cùng một suy luận từ các quan điểm khác nhau. (Thực tế là không phải tất cả các công cụ ước tính khoảng đều là các bài kiểm tra đảo ngược sau đó là một thực tế không phù hợp nhưng không đặc biệt khó xử, nói theo phương pháp sư phạm).

Ý nghĩa nghiêm trọng hơn nhiều đến từ quyết định dựa trên các quan sát, như đã chỉ ra ở trên. Tuy nhiên, ngay cả khi rút lui, Người thường xuyên luôn có thể quan sát rằng có rất nhiều tình huống (có lẽ không phải là đa số) trong đó điều hòa trên các quan sát sẽ không khôn ngoan hoặc không sáng. Đối với những người đó, thiết lập HT / CI là (không phải 'là') chính xác những gì muốn và nên được dạy như vậy.


Nói một cách chính thức, bất kỳ thử nghiệm giả thuyết nào có alpha bị ràng buộc về tỷ lệ lỗi Loại I đều có thể được chuyển thành khoảng tin cậy với tham số bảo hiểm (1-alpha) và ngược lại, không? Tôi không nghĩ rằng bạn phải là một người thường xuyên khó tính để tin rằng điều này được đòi hỏi bởi các định nghĩa. :-)
Keith Winstein

3
@Keith Không có tranh luận về các định nghĩa, nhưng bạn phải là một người thường xuyên để coi chúng là nhiều hơn các bit thú vị và có lẽ là tiện dụng của toán học. Đó là, nếu bạn nghĩ rằng các đặc tính lý thuyết lấy mẫu là quan trọng đối với suy luận thống kê thì bạn sẽ (hoặc nên) quan tâm như nhau về các khoảng tin cậy và kiểm tra giả thuyết vì, như chúng tôi đồng ý, chúng có tính đối xứng này. Của tôi là một câu trả lời cho những người đặt câu hỏi về sự tương phản giữa các CIs 'tốt' và 'xấu'. Bằng cách kết hợp chúng lại với nhau, tôi muốn tập trung vào sự tương phản được đưa ra trong các câu trả lời khác.
liên hợp chiến binh

7

Khi dạy thử nghiệm giả thuyết Neyman Pearson cho các sinh viên thống kê sớm, tôi thường cố gắng xác định vị trí của nó trong bối cảnh ban đầu: đó là đưa ra quyết định. Sau đó, cơ sở hạ tầng của lỗi loại 1 và loại 2 đều có ý nghĩa, cũng như ý tưởng rằng bạn có thể chấp nhận giả thuyết khống.

Chúng tôi phải đưa ra quyết định, chúng tôi nghĩ rằng kết quả của quyết định của chúng tôi có thể được cải thiện nhờ kiến ​​thức về một tham số, chúng tôi chỉ có ước tính về tham số đó. Chúng tôi vẫn phải đưa ra quyết định. Vậy thì quyết định tốt nhất để đưa ra trong bối cảnh có ước tính của tham số là gì?

Dường như với tôi rằng trong bối cảnh ban đầu của nó (đưa ra quyết định khi đối mặt với sự không chắc chắn), thử nghiệm giả thuyết NP có ý nghĩa hoàn hảo. Xem ví dụ N & P 1933, đặc biệt là p. 291.

Neyman và Pearson. Về vấn đề kiểm tra hiệu quả nhất các giả thuyết thống kê. Giao dịch triết học của Hiệp hội Hoàng gia Luân Đôn. Sê-ri A, Giấy tờ có tính chất toán học hoặc vật lý (1933) tập. 231 trang 289-337


4

Kiểm tra giả thuyết là một cách hữu ích để đóng khung rất nhiều câu hỏi: hiệu quả của việc điều trị bằng 0 hay khác không? Khả năng giữa các câu lệnh như thế này và một mô hình thống kê hoặc thủ tục (bao gồm cả việc xây dựng một công cụ ước tính khoảng) là rất quan trọng đối với các học viên mà tôi nghĩ.

Nó cũng đề cập đến việc một khoảng tin cậy (theo nghĩa truyền thống) vốn không phải là "dễ bị tội lỗi" hơn so với kiểm tra giả thuyết - có bao nhiêu sinh viên thống kê giới thiệu biết định nghĩa thực sự của khoảng tin cậy?

Có lẽ vấn đề không phải là kiểm tra giả thuyết hoặc ước lượng khoảng vì nó là phiên bản cổ điển giống nhau; công thức Bayes tránh những thứ này khá độc đáo.


2
@JMS, "có bao nhiêu chỉ số giới thiệu sinh viên biết định nghĩa thực sự của khoảng tin cậy?" Hoặc, tốt nghiệp tiến sĩ stat, cho vấn đề đó.
Đức hồng y

Khá! Ngẫu nhiên, tôi có nghĩa là không đào tại các sinh viên hoặc học viên của bất kỳ sọc. Nhưng thật điên rồ khi mong đợi môn thể dục dụng cụ tinh thần từ một người không đăng ký làm việc nâng cao trong thống kê.
JMS

2
Có bao nhiêu người có thể nói định nghĩa thực sự của các TCTD? Và có bao nhiêu người sử dụng chúng nhất quán với định nghĩa này? Thật khó để không nghĩ rằng "tham số có khả năng nằm trong khoảng nói" - ngay cả khi bạn biết đó không phải là CI.
xác suất

E sobre a prática thường de não reportar-se ướcativas do
Washington S. Silva

1
Những gì tôi đã cố gắng bày tỏ là các bài kiểm tra giả thuyết không đi kèm với ước tính sức mạnh là rất đáng nghi ngờ và ước tính khoảng thời gian không có nguồn biến chứng bổ sung này.
Washington S. Silva

2

Lý do là ra quyết định. Trong hầu hết các quyết định làm cho bạn hoặc làm điều đó hoặc không. Bạn có thể tiếp tục nhìn vào các khoảng thời gian dài cả ngày, cuối cùng có một thời điểm mà bạn quyết định làm điều đó hay không.

Thử nghiệm giả thuyết rất phù hợp với thực tế đơn giản này là CÓ / KHÔNG.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.