Có cỡ mẫu tối thiểu cần thiết để thử nghiệm t có hợp lệ không?


71

Tôi hiện đang làm việc trên một bài nghiên cứu gần như thí nghiệm. Tôi chỉ có cỡ mẫu là 15 do dân số thấp trong khu vực được chọn và chỉ có 15 mẫu phù hợp với tiêu chí của tôi. 15 có phải là cỡ mẫu tối thiểu để tính toán cho thử nghiệm t và thử nghiệm F không? Nếu vậy, tôi có thể lấy một bài báo hoặc cuốn sách ở đâu để hỗ trợ cỡ mẫu nhỏ này?

Bài viết này đã được bảo vệ vào thứ Hai tuần trước và một trong các hội thảo đã yêu cầu có một tài liệu tham khảo hỗ trợ vì kích thước mẫu của tôi quá thấp. Ông nói rằng nó đã có ít nhất 40 người trả lời.


4
Một cỡ mẫu có thể nhỏ hơn 15 nếu các giả định được giữ. Có phải tính hợp lệ của phân phối t là lý do duy nhất anh ta đề xuất một mẫu lớn hơn?
Glen_b

Chỉ cần làm rõ, loại thử nghiệm t nào bạn đang thực hiện: một mẫu, mẫu được ghép nối hoặc hai mẫu.
Jeromy Anglim

26
Trong lịch sử, lần trình diễn đầu tiên của bài kiểm tra t (trong bài báo năm 1908 của "Học sinh") là trong một ứng dụng cho các cỡ mẫu cỡ bốn . Thật vậy, việc đạt được kết quả cải thiện đối với các mẫu nhỏ là tuyên bố nổi tiếng của thử nghiệm: một khi kích thước mẫu đạt tới 40 hoặc hơn, thử nghiệm t không khác biệt đáng kể so với các nhà nghiên cứu thử nghiệm z đã áp dụng trong suốt thế kỷ 19. Bạn có thể chia sẻ phiên bản hiện đại của bài viết này với thành viên hội đồng: york.ac.uk/depts/maths/histstat/student.pdf . Chỉ ra điều tra trong Phần VI, trang 14-18.
whuber

10
Nhưng bạn nên suy ngẫm thực tế rằng các cỡ mẫu nhỏ như 4 hoạt động vì Sinh viên có dữ liệu chất lượng cao: dữ liệu phòng thí nghiệm hóa học, thí nghiệm, không phải thí nghiệm gần đúng. Vấn đề chính của bạn không phải là kích thước mẫu mà là tính đại diện: Làm thế nào để bạn biết rằng dữ liệu của bạn là đại diện cho bất cứ điều gì?
kjetil b halvorsen

10
@CzarinaFrancoise Tại sao chúng ta sẽ giới hạn khoa học <10 tuổi?
RioRaider

Câu trả lời:


56

Không có cỡ mẫu tối thiểu để thử nghiệm t có hiệu lực. Hiệu lực đòi hỏi các giả định cho thống kê kiểm tra giữ khoảng. Các giả định đó nằm trong một trường hợp mẫu rằng dữ liệu là iid bình thường (hoặc xấp xỉ bình thường) với giá trị trung bình 0 theo giả thuyết null và phương sai không xác định nhưng được ước tính từ mẫu. Trong hai trường hợp mẫu, cả hai mẫu đều độc lập với nhau và mỗi mẫu bao gồm các biến iid bình thường với hai mẫu có cùng giá trị trung bình và phương sai không xác định chung theo giả thuyết null. Một ước tính gộp của phương sai được sử dụng cho thống kê.

Trong một trường hợp mẫu, phân phối theo giả thuyết null là một t trung tâm với n-1 bậc tự do. Trong hai trường hợp mẫu có cỡ mẫu nm không nhất thiết phải bằng phân phối null của thống kê kiểm tra là t với n + m - 2 bậc tự do. Độ biến thiên tăng do kích thước mẫu thấp được tính trong phân phối có đuôi nặng hơn khi mức độ tự do thấp tương ứng với cỡ mẫu thấp. Vì vậy, các giá trị tới hạn có thể được tìm thấy cho thống kê kiểm tra để có mức ý nghĩa nhất định cho bất kỳ kích thước mẫu nào (tốt, ít nhất là cỡ 2 hoặc lớn hơn).

Vấn đề với cỡ mẫu thấp liên quan đến sức mạnh của phép thử. Người đánh giá có thể cảm thấy rằng 15 mỗi nhóm không phải là cỡ mẫu đủ lớn để có sức mạnh cao trong việc phát hiện sự khác biệt có ý nghĩa nói rằng đồng bằng giữa hai phương tiện hoặc trung bình lớn hơn giá trị tuyệt đối cho một vấn đề mẫu. Cần 40 sẽ yêu cầu một đặc điểm kỹ thuật của một sức mạnh nhất định tại một đồng bằng cụ thể sẽ đạt được với n bằng 40 nhưng không thấp hơn 40.

Tôi nên thêm rằng để thử nghiệm t được thực hiện, mẫu phải đủ lớn để ước tính phương sai hoặc phương sai.


2
Nhưng một lưu ý quan trọng là thử nghiệm hợp lệ, ngay cả khi dữ liệu không gần như bình thường, nếu kích thước mẫu đủ lớn. Sự biện minh là một chút tròn trịa (định lý Slutsky + phân phối tiếp cận bình thường) và biện minh cho việc sử dụng qua kiểm tra z chỉ đơn thuần là nó bảo thủ hơn trong các mẫu nhỏ hơn. Nhưng đó là một lưu ý quan trọng rằng một nếu chúng ta nghi ngờ tính phi quy tắc, các mẫu lớn có thể cứu chúng ta!
Vách đá AB

1
@CliffAB Bởi "hợp lệ" Tôi giả sử bạn có nghĩa là "có mức ý nghĩa gần đúng, trong giới hạn là n \ đến \ infty". Nhưng nhìn chung mọi người quan tâm nhiều hơn tỷ lệ lỗi loại I (đặc biệt là khi nó chỉ có thể đóng ở mức hợp lý tại các mẫu có thể lớn hơn bất kỳ cỡ mẫu nào trong tay). Hiệu quả tương đối không có triệu chứng thực sự có thể rất kém, do đó, sức mạnh chống lại các hiệu ứng nhỏ trong các mẫu lớn có thể rất tệ so với các lựa chọn thay thế, ngay cả khi tỷ lệ lỗi loại I trở thành như mong muốn ..
Glen_b

33

Với tất cả sự tôn trọng anh ta, anh ta không biết mình đang nói về cái gì. Thử nghiệm t được thiết kế để làm việc với các mẫu nhỏ. Thực sự không có mức tối thiểu (có thể bạn có thể nói tối thiểu là 3 cho bài kiểm tra một mẫu, IDK), nhưng bạn có một mối lo ngại về công suất phù hợp với các mẫu nhỏ. Bạn có thể quan tâm đến việc đọc về các ý tưởng đằng sau phân tích sức mạnh thỏa hiệp khi kích thước mẫu có thể bị hạn chế cao, như trong trường hợp của bạn.

Đối với một tài liệu tham khảo chứng minh rằng bạn có thể sử dụng thử nghiệm t với các mẫu nhỏ, tôi không biết về một mẫu và tôi nghi ngờ rằng nó tồn tại. Tại sao mọi người sẽ cố gắng để chứng minh điều đó? Ý tưởng chỉ là ngớ ngẩn.


6
+1 (cho bạn và Michael). Quan tâm, bạn thậm chí không cần hai quan sát để đưa ra suy luận nếu sẵn sàng đưa ra một loạt các giả định!
Andy W

4
Lý do của thử nghiệm t trong mẫu nhỏ là ngay cả khi các mẫu bình thường nếu độ lệch chuẩn không xác định, điều phổ biến cần làm là bình thường hóa bằng cách chia cho ước tính mẫu của độ lệch chuẩn. Trong các mẫu lớn ước tính sẽ đủ gần với độ lệch chuẩn dân số rằng thống kê kiểm tra sẽ xấp xỉ tiêu chuẩn bình thường nhưng trong mẫu nhỏ, nó sẽ có đuôi nặng hơn bình thường.
Michael Chernick

5
Phân phối t với độ tự do n-1 là phân phối chính xác cho bất kỳ cỡ mẫu n nào theo giả thuyết null và trong các mẫu nhỏ, nó cần được sử dụng thay cho giá trị bình thường không gần đúng với nó. Vấn đề thực sự với cỡ mẫu như cả gung và tôi đã nêu là sức mạnh. Nếu bạn muốn tranh luận với trọng tài rằng 15 là đủ, bạn cần xác định mức độ chênh lệch cần thiết để được gọi là có ý nghĩa (đồng bằng tôi đã đề cập) và sau đó đối với đồng bằng đó, bạn cần chứng minh rằng sức mạnh là đủ 0,80 hoặc cao hơn .
Michael Chernick

2
@CzarinaFrancoise Giới thiệu về n> = 30, xem số liệu thống kê.stackexchange.com/questions/2541/iêu
Stéphane Laurent

2
Tài liệu gốc của @gung Student (1908!) chứng tỏ bạn có thể sử dụng bài kiểm tra t với các mẫu nhỏ. (Để biết thêm về điều này, vui lòng tham khảo nhận xét mở rộng của tôi cho câu hỏi ban đầu.)
whuber

30

Như đã đề cập trong các câu trả lời hiện có, vấn đề chính với cỡ mẫu nhỏ là công suất thống kê thấp. Có nhiều quy tắc khác nhau liên quan đến sức mạnh thống kê được chấp nhận. Một số người nói rằng 80% sức mạnh thống kê là hợp lý, nhưng cuối cùng, nhiều hơn là tốt hơn. Nhìn chung cũng có sự đánh đổi giữa chi phí để có được nhiều người tham gia hơn và lợi ích của việc có thêm sức mạnh thống kê.

Bạn có thể đánh giá sức mạnh thống kê của thử nghiệm bằng cách sử dụng một hàm đơn giản trong R , power.t.test.

α=.05

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Do đó, chúng ta có thể thấy rằng nếu kích thước hiệu ứng dân số là "nhỏ" hoặc "trung bình", bạn sẽ có sức mạnh thống kê thấp (nghĩa là 11% và 44% tương ứng). Tuy nhiên, nếu kích thước hiệu ứng lớn trong dân số, bạn sẽ có thứ mà một số người sẽ mô tả là sức mạnh "hợp lý" (nghĩa là 82%).

Trang web nhanh-r cung cấp thêm thông tin về phân tích năng lượng sử dụng R .


Câu trả lời tốt đẹp! Ngoài ra còn có một phần mềm tốt để tính toán sức mạnh thống kê được gọi là G * Power .
Enrique

7

Thử nghiệm t hai mẫu là hợp lệ nếu hai mẫu là các mẫu ngẫu nhiên đơn giản độc lập từ các phân phối Bình thường có cùng phương sai và mỗi kích thước mẫu có ít nhất hai (để có thể ước tính phương sai dân số.) không liên quan đến câu hỏi về tính hợp lệ của bài kiểm tra. Tùy thuộc vào kích thước của hiệu ứng mà người ta muốn phát hiện, một cỡ mẫu nhỏ có thể không đúng, nhưng một cỡ mẫu nhỏ không làm mất hiệu lực thử nghiệm. Cũng lưu ý rằng đối với bất kỳ kích thước mẫu nào, phân phối mẫu của giá trị trung bình là Bình thường nếu phân phối chính là Bình thường. Tất nhiên, kích thước mẫu lớn hơn luôn tốt hơn bởi vì chúng cung cấp các ước tính chính xác hơn về các tham số. Định lý giới hạn trung tâm cho chúng ta biết rằng phương tiện mẫu được phân phối Thông thường hơn các giá trị riêng lẻ, nhưng được Casella và Berger chỉ ra, nó rất hữu ích vì tốc độ tiếp cận với Normality phải được kiểm tra cho bất kỳ trường hợp cụ thể nào. Dựa vào quy tắc của ngón tay cái là không khôn ngoan. Xem kết quả báo cáo sách của Rand Wilcox.


5

Mặc dù sự thật là phân phối t có tính đến cỡ mẫu nhỏ, tôi cho rằng trọng tài của bạn đã nghĩ về khó khăn trong việc xác định rằng dân số được phân phối bình thường, khi thông tin duy nhất bạn có là một mẫu tương đối nhỏ? Đây có thể không phải là một vấn đề lớn với một mẫu có kích thước 15, vì mẫu hy vọng đủ lớn để hiển thị một số dấu hiệu được phân phối một cách mơ hồ? Nếu điều này là đúng, thì hy vọng rằng dân số ở đâu đó gần như bình thường và, kết hợp với Định lý giới hạn trung tâm, điều đó phải cung cấp cho bạn mẫu có nghĩa là hành vi đủ tốt.

Nhưng tôi nghi ngờ về các khuyến nghị sử dụng thử nghiệm t cho các mẫu nhỏ (chẳng hạn như kích thước bốn) trừ khi tính quy phạm của dân số có thể được thiết lập bằng một số thông tin bên ngoài hoặc hiểu biết cơ học? Chắc chắn không thể có bất cứ nơi nào gần đủ thông tin trong một mẫu có kích thước bốn để có bất kỳ manh mối nào như hình dạng của phân bố dân số.


5

Hãy xem xét những điều sau đây từ trang 254-256 của Sauro, J., & Lewis, JR (2016). Định lượng trải nghiệm người dùng: Thống kê thực tế cho nghiên cứu người dùng, 2nd Ed. Cambridge, MA: Morgan-Kaufmann (bạn có thể xem bên trong tại https://www.amazon.com/Quantifying-User-Experience-Second-Statistic/dp/0128023082/ ).


BẠN CÓ CẦN KIỂM TRA TẠI 30 NGƯỜI SỬ DỤNG MỚI NHẤT?

TRÊN MỘT TAY

Có lẽ hầu hết chúng ta đã tham gia một lớp thống kê giới thiệu (hoặc biết ai đó đã tham gia một lớp như vậy) đã nghe quy tắc ngón tay cái để ước tính hoặc so sánh các phương tiện, kích thước mẫu của bạn phải ít nhất là 30. Theo định lý giới hạn trung tâm, khi kích thước mẫu tăng, phân phối của giá trị trung bình ngày càng trở nên bình thường, bất kể tính quy phạm của phân phối cơ bản. Một số nghiên cứu mô phỏng đã chỉ ra rằng đối với nhiều loại phân phối (nhưng không phải tất cả các bộ phận xem Bradley, 1978), sự phân phối của giá trị trung bình trở nên gần như bình thường khi n = 30.

Một cân nhắc khác là việc sử dụng điểm z đơn giản hơn một chút so với điểm t vì điểm z không yêu cầu sử dụng bậc tự do. Như được hiển thị trong Bảng 9.1 và Hình 9.2, tại thời điểm bạn có khoảng 30 độ tự do, giá trị của t khá gần với giá trị của z. Do đó, có thể có cảm giác rằng bạn không phải đối phó với các mẫu nhỏ yêu cầu thống kê mẫu nhỏ (Cohen, 1990). ...

MẶT KHÁC

Khi chi phí của một mẫu đắt đỏ, vì thông thường trong nhiều loại nghiên cứu người dùng (ví dụ: kiểm tra khả năng sử dụng được kiểm duyệt), điều quan trọng là phải ước tính kích thước mẫu cần thiết càng chính xác càng tốt, với sự hiểu biết rằng đó là ước tính. Khả năng 30 chính xác là mẫu phù hợp cho một tập hợp hoàn cảnh nhất định là rất thấp. Như đã trình bày trong các chương của chúng tôi về ước lượng kích thước mẫu, một cách tiếp cận phù hợp hơn là sử dụng các công thức để tính toán các mức ý nghĩa của kiểm tra thống kê và sử dụng đại số để giải cho n, chuyển đổi chúng thành các công thức ước lượng kích thước mẫu. Những công thức đó sau đó cung cấp hướng dẫn cụ thể về những gì bạn phải biết hoặc ước tính cho một tình huống nhất định để ước tính kích thước mẫu được yêu cầu.

Ý tưởng rằng ngay cả với phân phối t (trái ngược với phân phối z), bạn cần phải có cỡ mẫu ít nhất là 30 không phù hợp với lịch sử phát triển của phân phối. Năm 1899, William S. Gossett, một sinh viên tốt nghiệp gần đây của New College ở Oxford với bằng hóa học và toán học, trở thành một trong những nhà khoa học đầu tiên tham gia nhà máy bia Guinness. So với những người khổng lồ trong thời đại của mình, ông đã xuất bản rất ít, nhưng đóng góp của ông có tầm quan trọng quan trọng. Bản chất của quá trình sản xuất bia, với sự thay đổi về nhiệt độ và thành phần của nó, có nghĩa là không thể lấy các mẫu lớn trong một thời gian dài (Cowles, 1989, p. 108 Than109).

Điều này có nghĩa là Gossett không thể sử dụng điểm z trong công việc của mình, họ chỉ không làm việc tốt với các mẫu nhỏ. Sau khi phân tích sự thiếu hụt của phân phối z cho các thử nghiệm thống kê với các mẫu nhỏ, ông đã tìm ra các điều chỉnh cần thiết như là một chức năng của mức độ tự do để tạo ra các bảng t của mình, được xuất bản dưới bút danh là Student Student do các chính sách của Guinness cấm xuất bản bởi nhân viên (Salsburg, 2001). Trong công việc dẫn đến việc xuất bản các bảng, Gossett đã thực hiện một phiên bản đầu tiên của mô phỏng Monte Carlo (Stigler, 1999). Anh ta đã chuẩn bị 3000 thẻ được dán nhãn với các phép đo vật lý được thực hiện trên bọn tội phạm, xáo trộn chúng, sau đó xử lý chúng thành 750 nhóm có kích thước 4, một cỡ mẫu nhỏ hơn 30.

ĐỀ NGHỊ CỦA CHÚNG TÔI

Cuộc tranh cãi này tương tự như cuộc tranh luận của nhóm năm là đủ so với cuộc tranh luận của tám người không phải là đủ đối số trên phạm vi của Chương 6, nhưng được áp dụng cho nghiên cứu tổng kết chứ không phải nghiên cứu chính thức. Đối với bất kỳ nghiên cứu nào, số lượng người dùng để kiểm tra tùy thuộc vào mục đích thử nghiệm và loại dữ liệu bạn dự định thu thập. Số ma thuật của người Viking số 30 có một số lý do thực nghiệm, nhưng theo chúng tôi, nó rất yếu. Như bạn có thể thấy từ rất nhiều ví dụ trong cuốn sách này có cỡ mẫu không bằng 30 (đôi khi ít hơn, đôi khi nhiều hơn), chúng tôi không giữ nguyên tắc này trong vấn đề rất cao. Như được mô tả trong chương kích thước mẫu của chúng tôi cho nghiên cứu tổng hợp, cỡ mẫu thích hợp cho một nghiên cứu phụ thuộc vào loại phân phối, độ biến thiên dự kiến ​​của dữ liệu, mức độ tin cậy và sức mạnh mong muốn,

Như minh họa trong Hình 9.2, khi sử dụng phân phối t với các mẫu rất nhỏ (ví dụ: với mức độ tự do nhỏ hơn 5), các giá trị rất lớn của t bù cho các cỡ mẫu nhỏ liên quan đến việc kiểm soát các lỗi Loại I ( khẳng định một sự khác biệt là rất quan trọng khi nó thực sự không). Với kích thước mẫu nhỏ như vậy, khoảng tin cậy của bạn sẽ rộng hơn nhiều so với những gì bạn sẽ nhận được với các mẫu lớn hơn. Nhưng một khi bạn đang xử lý hơn 5 độ tự do, có rất ít sự khác biệt tuyệt đối giữa giá trị của z và giá trị của t. Từ quan điểm của cách tiếp cận của t đến z, có rất ít đạt được 10 bậc tự do.

Việc sử dụng phân phối t không phức tạp hơn phân phối z (bạn chỉ cần chắc chắn sử dụng đúng giá trị cho mức độ tự do) và lý do cho sự phát triển của phân phối t là cho phép phân tích các mẫu nhỏ. Đây chỉ là một trong những cách ít rõ ràng hơn mà các học viên khả năng sử dụng được hưởng lợi từ khoa học và thực hành sản xuất bia. Các nhà sử học thống kê coi rộng rãi việc xuất bản bài kiểm tra t Student của Gossett là một sự kiện mang tính bước ngoặt (Box, 1984; Cowles, 1989; Stigler, 1999). Trong một bức thư gửi Ronald A. Fisher (một trong những người cha của thống kê hiện đại) có một bản sao ban đầu của các bảng t, Gossett viết, Hồi Bạn có lẽ là người duy nhất sẽ sử dụng chúng Khăn (Box, 1978). Gossett có rất nhiều điều đúng, nhưng anh ta chắc chắn đã sai.

NGƯỜI GIỚI THIỆU

Hộp, GEP (1984). Tầm quan trọng của thực tiễn trong việc phát triển số liệu thống kê. Kỹ thuật, 26 (1), 1-8.

Hộp, JF (1978). Fisher, cuộc đời của một nhà khoa học. New York, NY: John Wiley.

Bradley, Liên doanh (1978). Mạnh mẽ? Tạp chí tâm lý học thống kê và toán học của Anh, 31, 144-152.

Cohen, J. (1990). Những điều tôi đã học được (cho đến nay). Nhà tâm lý học người Mỹ, 45 (12), 1304-1312.

Cowles, M. (1989). Thống kê trong tâm lý học: Một quan điểm lịch sử. Hillsdale, NJ: Lawrence Erlbaum.

Salsburg, D. (2001). Người phụ nữ nếm trà: Cách thống kê cách mạng khoa học trong thế kỷ XX. New York, NY: WH Freeman.

Stigler, SM (1999). Thống kê trên bảng: Lịch sử của các khái niệm và phương pháp thống kê. Cambridge, MA: Nhà xuất bản Đại học Harvard.


3

Czarina có thể thấy thú vị khi so sánh kết quả của bài kiểm tra t tham số của mình với kết quả thu được từ bài kiểm tra bootstrap. Mã sau đây cho Stata 13/1 bắt chước một ví dụ hư cấu liên quan đến thử nghiệm t hai mẫu với phương sai không bằng nhau (kiểm tra tham số t: p-value = 0.1493; bootstrap t-test: p-value = 0.1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

3

Có hai cách khác nhau để biện minh cho việc sử dụng thử nghiệm t.

  • Dữ liệu của bạn thường được phân phối và bạn có ít nhất hai mẫu cho mỗi nhóm
  • Bạn có cỡ mẫu lớn trong mỗi nhóm

Nếu một trong hai trường hợp này giữ, thì kiểm tra t được coi là kiểm tra hợp lệ. Vì vậy, nếu bạn sẵn sàng đưa ra giả định rằng dữ liệu của bạn được phân phối bình thường (mà nhiều nhà nghiên cứu thu thập các mẫu nhỏ), thì bạn không có gì phải lo lắng.

Tuy nhiên, ai đó có thể phản đối hợp lý rằng bạn đang dựa vào giả định này để có được kết quả của bạn, đặc biệt nếu dữ liệu của bạn được biết là bị sai lệch. Sau đó, câu hỏi về kích thước mẫu cần thiết cho suy luận hợp lệ là một câu hỏi rất hợp lý.

Đối với kích thước mẫu được yêu cầu lớn như thế nào, thật không may, không có câu trả lời chắc chắn thực sự cho điều đó; dữ liệu của bạn càng sai lệch, kích thước mẫu yêu cầu càng lớn để làm cho xấp xỉ hợp lý. 15-20 mỗi nhóm thường được coi là lớn hợp lý, nhưng như với hầu hết các quy tắc ngón tay cái, tồn tại các ví dụ ngược lại: ví dụ: trong các lần trả vé số (trong đó 1 in, giả sử, 10.000.000 quan sát là một ngoại lệ EXTREME), bạn thực sự cần khoảng 100.000.000 quan sát trước khi các thử nghiệm này là phù hợp.


1

Tôi đồng tình về tính hữu ích của một bài kiểm tra tăng cường. Tôi cũng muốn giới thiệu, để so sánh, hãy xem phương pháp Bayes do Kruschke cung cấp tại http://www.indiana.edu/~kruschke/BEST/BEST.pdf . Nói chung, câu hỏi của "Có bao nhiêu môn?" không thể được trả lời trừ khi bạn có trong tay một ý tưởng về kích thước ảnh hưởng đáng kể sẽ như thế nào về vấn đề đang được giải quyết. Đó là, và, ví dụ, nếu thử nghiệm là một nghiên cứu giả thuyết về hiệu quả của một loại thuốc mới, kích thước tác dụng có thể là kích thước tối thiểu cần thiết để chứng minh thuốc mới so với cũ của Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ.

Điều kỳ lạ trong vấn đề này và nhiều cuộc thảo luận khác là sự sẵn sàng bán buôn cho rằng một số dữ liệu chỉ có một số phân phối lý thuyết, giống như là Gaussian. Đầu tiên, chúng tôi không cần phải đặt ra, chúng tôi có thể kiểm tra, ngay cả với các mẫu nhỏ. Thứ hai, tại sao đặt ra bất kỳ phân phối lý thuyết cụ thể nào cả? Tại sao không chỉ lấy dữ liệu làm phân phối theo kinh nghiệm cho chính nó?

Chắc chắn, trong trường hợp kích thước mẫu nhỏ, việc xác định rằng dữ liệu đến từ một số phân phối rất hữu ích để phân tích. Nhưng, để diễn giải Bradley Efron, khi làm như vậy bạn vừa tạo ra một lượng dữ liệu vô hạn. Đôi khi điều đó có thể ổn nếu vấn đề của bạn là phù hợp. Đôi khi không.


1

Theo như các giả định cho trường hợp hai mẫu; đó là cả hai mẫu độc lập với nhau và mỗi mẫu bao gồm các biến thông thường iid với hai mẫu có cùng giá trị trung bình và phương sai không xác định chung theo giả thuyết null.

Ngoài ra còn có thử nghiệm t-Welch sử dụng xấp xỉ Satterwaite cho lỗi tiêu chuẩn. Đây là một thử nghiệm t 2 mẫu với giả định phương sai không bằng nhau.

Bài kiểm tra của Welch

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.