Nói chung, bạn có thể tiếp tục cải thiện ước tính của mình về bất kỳ tham số nào bạn có thể đang kiểm tra với nhiều dữ liệu hơn. Dừng thu thập dữ liệu một khi thử nghiệm đạt được một mức độ quan trọng bán tùy ý là một cách tốt để đưa ra những suy luận tồi tệ. Các nhà phân tích có thể hiểu nhầm một kết quả quan trọng là một dấu hiệu cho thấy công việc được thực hiện là một trong nhiều hậu quả không lường trước được của khung Neyman, Pear Pearson, theo đó mọi người giải thích các giá trị p là nguyên nhân từ chối hoặc không từ chối null mà không cần đặt trước phía nào của ngưỡng quan trọng họ rơi vào.
Không xem xét các lựa chọn thay thế Bayes cho mô hình thường xuyên (hy vọng sẽ có người khác), khoảng tin cậy tiếp tục có nhiều thông tin hơn ngoài điểm mà một giả thuyết null cơ bản có thể bị bác bỏ. Giả sử việc thu thập nhiều dữ liệu sẽ chỉ làm cho bài kiểm tra ý nghĩa cơ bản của bạn đạt được tầm quan trọng lớn hơn (và không tiết lộ rằng phát hiện quan trọng trước đó của bạn là dương tính giả), bạn có thể thấy điều này vô dụng vì dù sao bạn cũng từ chối null. Tuy nhiên, trong trường hợp này, khoảng tin cậy của bạn xung quanh tham số được đề cập sẽ tiếp tục thu hẹp, cải thiện mức độ tin cậy mà bạn có thể mô tả chính xác dân số quan tâm của mình.
Đây là một ví dụ rất đơn giản trong r - kiểm tra giả thuyết null rằng cho một biến mô phỏng:μ = 0
One Sample t-test
data: rnorm(99)
t = -2.057, df = 98, p-value = 0.04234
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-0.377762241 -0.006780574
sample estimates:
mean of x
-0.1922714
Ở đây tôi mới sử dụng t.test(rnorm(99))
và tôi tình cờ nhận được dương tính giả (giả sử tôi đã mặc định là là lựa chọn của tôi về tỷ lệ lỗi dương tính giả chấp nhận được). Nếu tôi bỏ qua khoảng tin cậy, tôi có thể khẳng định mẫu của tôi đến từ một quần thể với ý nghĩa khác biệt đáng kể so với không. Về mặt kỹ thuật, khoảng tin cậy cũng không tranh chấp điều này, nhưng nó cho thấy giá trị trung bình có thể rất gần với 0, hoặc thậm chí xa hơn so với tôi nghĩ dựa trên mẫu này. Tất nhiên, tôi biết null thực sự đúng theo nghĩa đen ở đây, bởi vì giá trị trung bình của dân số mặc định là 0, nhưng người ta hiếm khi biết với dữ liệu thực.α = 0,05rnorm
Chạy lại điều này khi set.seed(8);t.test(rnorm(99,1))
tạo ra giá trị trung bình mẫu là 0,91, p = 5,3E-13 và khoảng tin cậy 95% cho . Lần này tôi có thể khá tự tin rằng null là sai, đặc biệt là vì tôi đã xây dựng nó bằng cách đặt giá trị trung bình của dữ liệu mô phỏng của mình thành 1.μ = [ .69 , 1.12 ]
Tuy nhiên, nói rằng điều quan trọng là phải biết nó khác 0 như thế nào; có lẽ giá trị trung bình của .8 sẽ quá gần với 0 đối với sự khác biệt. Tôi có thể thấy tôi không có đủ dữ liệu để loại trừ khả năng từ cả khoảng tin cậy của tôi và từ t- test với , điều này mang lại p = .33. Giá trị trung bình mẫu của tôi đủ cao để có vẻ khác biệt có ý nghĩa so với số 0 theo ngưỡng .8 này; thu thập thêm dữ liệu có thể giúp cải thiện sự tự tin của tôi rằng sự khác biệt ít nhất là lớn như vậy, và không chỉ lớn hơn không đáng kể.μ = .8mu=.8
Vì tôi đang "thu thập dữ liệu" bằng mô phỏng, tôi có thể hơi phi thực tế và tăng kích thước mẫu của mình lên một mức độ lớn. Chạy set.seed(8);t.test(rnorm(999,1),mu=.8)
cho thấy nhiều dữ liệu tiếp tục hữu ích sau khi từ chối giả thuyết null của trong kịch bản này, vì bây giờ tôi có thể từ chối null của với mẫu lớn hơn của mình. Khoảng tin cậy của thậm chí còn gợi ý rằng tôi có thể từ chối các giả thuyết null lên đến nếu ban đầu tôi bắt đầu làm như vậy.μ = 0,8 μ = [ 0,90 , 1,02 ] μ = 0,89μ = 0μ = .8μ = [ .90 , 1.02 ]μ = .89
Tôi không thể sửa đổi giả thuyết khống của mình sau thực tế, nhưng không thu thập dữ liệu mới để kiểm tra giả thuyết thậm chí còn mạnh mẽ hơn sau kết quả này, tôi có thể nói với độ tin cậy 95% rằng sao chép "nghiên cứu" của tôi sẽ cho phép tôi từ chối . Một lần nữa, chỉ vì tôi có thể mô phỏng điều này một cách dễ dàng, tôi sẽ chạy lại mã như : làm như vậy chứng tỏ sự tự tin của tôi không bị đặt nhầm chỗ.H0: μ = .9set.seed(9);t.test(rnorm(999,1),mu=.9)
Kiểm tra các giả thuyết null nghiêm ngặt hơn, hoặc tốt hơn nữa, chỉ đơn giản là tập trung vào việc thu hẹp khoảng tin cậy của bạn chỉ là một cách để tiến hành. Tất nhiên, hầu hết các nghiên cứu bác bỏ các giả thuyết null đặt nền tảng cho các nghiên cứu khác dựa trên giả thuyết thay thế. Ví dụ, nếu tôi đang kiểm tra một giả thuyết thay thế rằng một mối tương quan lớn hơn 0, tôi có thể kiểm tra các hòa giải viên hoặc người điều hành trong một nghiên cứu tiếp theo ... và trong khi tôi ở đó, tôi chắc chắn muốn chắc chắn Tôi có thể sao chép kết quả ban đầu.
Một cách tiếp cận khác để xem xét là thử nghiệm tương đương . Nếu bạn muốn kết luận rằng một tham số nằm trong một phạm vi nhất định của các giá trị có thể, không chỉ khác với một giá trị duy nhất, bạn có thể chỉ định phạm vi giá trị mà bạn muốn tham số nằm trong giả thuyết thay thế thông thường của mình và kiểm tra nó chống lại một loạt các giả thuyết null khác nhau cùng thể hiện khả năng tham số nằm ngoài phạm vi đó. Khả năng cuối cùng này có thể giống với những gì bạn đã nghĩ khi viết:
Chúng tôi có "một số bằng chứng" cho sự thay thế là đúng, nhưng chúng tôi không thể rút ra kết luận đó. Nếu tôi thực sự muốn rút ra kết luận đó một cách thuyết phục ...
Đây là một ví dụ sử dụng dữ liệu tương tự như trên (sử dụng set.seed(8)
, rnorm(99)
giống như rnorm(99,1)-1
, vì vậy giá trị trung bình mẫu là -, 09). Nói rằng tôi muốn kiểm tra giả thuyết của hai một chiều t -tests rằng cùng thừa nhận rằng giá trị trung bình mẫu không phải là giữa -.2 và .2. Điều này tương ứng lỏng lẻo với tiền đề của ví dụ trước, theo đó tôi muốn kiểm tra nếu . Sự khác biệt là tôi đã thay đổi dữ liệu của mình xuống 1 và bây giờ tôi sẽ thực hiện hai thử nghiệm một phía của giả thuyết thay thế là . Đây là vẻ ngoài:- 0,2 ≤ μ ≤ 0,2μ = .8- .2 ≤ μ ≤ .2
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
đặt mức tin cậy của khoảng là 90%, vì vậy khoảng tin cậy xung quanh giá trị trung bình mẫu của -.09 là và p = .17. Tuy nhiên, chạy lại điều này với (và cùng một hạt giống) sẽ thu hẹp khoảng tin cậy 90% thành , nằm trong phạm vi tương đương được chỉ định trong giả thuyết null với p = 4.55E-07.μ = [ - .09 , .01 ]μ = [ - .27 , .09 ]rnorm(999)
μ = [ - .09 , .01 ]
Tôi vẫn nghĩ rằng khoảng tin cậy thú vị hơn kết quả kiểm tra tương đương. Nó đại diện cho những gì dữ liệu cho thấy ý nghĩa dân số cụ thể hơn so với giả thuyết thay thế và cho thấy tôi có thể tin tưởng một cách hợp lý rằng nó nằm trong một khoảng thậm chí nhỏ hơn so với tôi đã chỉ định trong giả thuyết thay thế. Để chứng minh, tôi sẽ lạm dụng khả năng mô phỏng phi thực tế của mình một lần nữa và "nhân rộng" bằng cách sử dụng set.seed(7);tost(rnorm(999),epsilon=.09345092)
: chắc chắn, p = 0,002.