Tôi có thể tin tưởng một kết quả quan trọng của thử nghiệm t nếu kích thước mẫu nhỏ không?

17

Nếu kết quả kiểm tra t một mặt của tôi là đáng kể nhưng kích thước mẫu nhỏ (ví dụ dưới 20 hoặc hơn), tôi vẫn có thể tin tưởng vào kết quả này không? Nếu không, tôi nên giải quyết và / hoặc giải thích kết quả này như thế nào?

— Eric
nguồn

2

Liên quan rất chặt chẽ: Có cỡ mẫu tối thiểu cần thiết để thử nghiệm t có hợp lệ không?

— Cá bạc

8

Chỉ cần một bình luận, tôi không muốn thêm vào những bình luận tuyệt vời dưới đây; bạn không tin tưởng vào kết quả của bài kiểm tra t, bạn tin tưởng vào quy trình đó. Một kết quả cá nhân là đúng hoặc không chính xác, nhưng không cần điều tra thêm, bạn sẽ không bao giờ biết được kết quả nào. Một thử nghiệm t trong phương pháp của Fisher hoặc phương pháp của Pearson và Neyman là đáng tin cậy nếu các giả định được đáp ứng. Nếu bạn đặt

thì nó sẽ đánh lừa bạn, khi lặp lại vô hạn, không quá 5% thời gian, có thể ít hơn một chút. Câu hỏi bạn nên đặt ra là "những giả định có được đáp ứng không?"

α < .05

$\alpha<.05$

— Dave Harris

15

Về lý thuyết nếu tất cả các giả định của thử nghiệm t là đúng thì không có vấn đề gì với cỡ mẫu nhỏ.

Trong thực tế, có một số giả định không hoàn toàn đúng mà chúng ta có thể bỏ qua với các cỡ mẫu lớn nhưng chúng có thể gây ra vấn đề cho các cỡ mẫu nhỏ. Bạn có biết nếu phân phối cơ bản được phân phối bình thường? Có phải tất cả các mẫu độc lập và phân phối giống hệt nhau?

Nếu bạn nghi ngờ tính hợp lệ của bài kiểm tra thì một giải pháp thay thế bạn có thể sử dụng là bootstrapping. Bootstrapping liên quan đến việc lấy mẫu lại từ mẫu của bạn để xem mức độ thường xuyên giả thuyết null là đúng hay sai. Có lẽ giả thuyết khống của bạn là và giá trị p của bạn là 0,05 nhưng bootstrapping cho thấy giá trị trung bình mẫu nhỏ hơn 0% thời gian. Điều này sẽ chỉ ra rằng đó là một con sán gây ra giá trị p là 0,05 và bạn nên ít tin tưởng rằng giả thuyết khống là sai. $\mu<0$

— Hugh
nguồn

1

Ví dụ: nếu bạn biết rằng phân phối cơ bản gần như là phân phối bình thường và tất cả 10 mẫu của bạn đều nhỏ hơn một giá trị cụ thể, thì rõ ràng tỷ lệ của dân số có nghĩa là nhiều hơn giá trị đó nhiều nhất là một trong 2 ^ 10, hoặc một trong một nghìn. Rõ ràng là 1 trong 2 ^ 10 cơ hội rằng tất cả mười mẫu từ dân số phân phối bình thường sẽ ở cùng một phía của giá trị trung bình. Vấn đề sẽ là bạn sẽ có được kết quả đáng tin cậy, nhưng họ sẽ rất yếu - như "chiều cao trung bình của nam giới trưởng thành gần như chắc chắn trong khoảng từ 5 đến 7 feet".

— David Schwartz

Cảm ơn rất nhiều cho lời giải thích và phương pháp thay thế. Tôi thực sự đánh giá cao họ! Cảm ơn nhiều!

— Eric

Tôi không nhận được đề nghị bootstrapping của bạn. Nếu bạn lấy mẫu lại từ mẫu (có p <0,05) thì bạn sẽ mong đợi phần lớn các mẫu bootstrap có kết quả quan trọng, có thể khoảng 95%, không phải 5 hoặc 10%. Bạn có thể vui lòng giải thích? Cc đến @Eric.

— amip nói rằng Phục hồi lại

3

Như một nhận xét chung hơn, bootstrap hoạt động tốt trong các mẫu lớn nhưng với các mẫu nhỏ, phạm vi bảo hiểm có thể khác với danh nghĩa khá nhiều. Ngoài ra, với kích thước mẫu rất thấp, công suất thấp. Vì vậy, không nhất thiết là "kiểm tra bootstrap" luôn vượt trội so với kiểm tra t.

— amip nói rằng Phục hồi Monica

3

@amoeba Tôi thực sự thích phong cách chỉnh sửa của bạn. Bạn không chỉ cho tôi biết điều gì đúng / sai, bạn đã chỉ ra một hậu quả kỳ lạ của ý tưởng của tôi và khiến tôi suy nghĩ lại về câu trả lời của mình và hiểu nguồn gốc của sai lầm. Vì vậy, cảm ơn bạn vì điều đó! Trong quá khứ Whuber cũng đã làm điều này với tôi

— Hugh

21

Bạn hiếm khi nên tin tưởng bất kỳ kết quả quan trọng duy nhất. Bạn đã không nói lý do tại sao bạn sử dụng thử nghiệm một đầu thay vì thử nghiệm hai đuôi, vì vậy, hy vọng bạn có lý do chính đáng để làm điều đó ngoài việc đấu tranh để có thể nhận được kết quả có ý nghĩa thống kê!

Đặt nó sang một bên, xem xét những điều sau đây từ p. 261 của Sauro, J., & Lewis, JR (2016). Định lượng trải nghiệm người dùng: Số liệu thống kê thực tế cho nghiên cứu người dùng, 2nd Ed .. Cambridge, MA: Morgan-Kaufmann.

Ronald Fisher khuyến nghị sử dụng giá trị p như thế nào

Khi Karl Pearson là ông già thống kê và Ronald Fisher là người mới, Pearson, dường như bị đe dọa bởi ý tưởng và khả năng toán học của Fisher, đã sử dụng ảnh hưởng của mình để ngăn chặn Fisher xuất bản trên các tạp chí thống kê lớn của thời đại, Biometrika và Tạp chí của Hiệp hội Thống kê Hoàng gia. Do đó, Fisher đã công bố ý tưởng của mình ở nhiều địa điểm khác như tạp chí nông nghiệp và khí tượng, bao gồm một số bài viết cho Kỷ yếu của Hiệp hội Nghiên cứu Tâm lý. Đó là trong một trong những bài báo của tạp chí sau này, ông đã đề cập đến quy ước đặt cái mà chúng ta gọi là lỗi Loại I (alpha) chấp nhận được thành 0,05 và, quan trọng, cũng đề cập đến tầm quan trọng của khả năng tái tạo khi gặp kết quả không mong muốn:

Một quan sát được đánh giá là có ý nghĩa, nếu nó hiếm khi được tạo ra, trong trường hợp không có nguyên nhân thực sự của loại mà chúng ta đang tìm kiếm. Đó là một thực tế phổ biến để đánh giá một kết quả có ý nghĩa, nếu nó có độ lớn đến mức nó sẽ được tạo ra bởi cơ hội không thường xuyên hơn một lần trong hai mươi thử nghiệm. Đây là một mức độ quan trọng, nhưng thuận tiện, có ý nghĩa đối với người điều tra thực tế, nhưng điều đó không có nghĩa là anh ta cho phép mình bị lừa dối một lần trong mỗi hai mươi thí nghiệm. Các thử nghiệm về tầm quan trọng chỉ cho anh ta biết những gì cần bỏ qua, cụ thể là, tất cả các thí nghiệm trong đó không thu được kết quả quan trọng. Anh ta chỉ nên tuyên bố rằng một hiện tượng có thể chứng minh bằng thực nghiệm khi anh ta biết cách thiết kế một thí nghiệm để nó hiếm khi không đưa ra một kết quả quan trọng. Hậu quả là, kết quả quan trọng bị cô lập mà anh ta không biết làm thế nào để tái sản xuất đang trong tình trạng hồi hộp chờ điều tra thêm. (Fisher, 1929, trang 191)

Tài liệu tham khảo

Ngư dân, RA (1929). Phương pháp thống kê trong nghiên cứu tâm lý. Kỷ yếu của Hội nghiên cứu tâm lý, 39, 189-192.

— Jim Lewis
nguồn

2

Fisher cũng đã xuất bản một số bài báo quan trọng lấy lại ước tính khả năng tối đa trong The Annals of Eugenics. Phương pháp của ông thường tốt hơn phương pháp của những khoảnh khắc mà Karl Pearson đã sử dụng. Fisher gọi phương pháp suy luận của mình. Sau đó, nó đã được chính thức hóa bởi Jerzy Neyman và Egon Pearson (con trai của Karl Pearson).

— Michael R. Chernick

3

Neyman và Pearson đã không chính thức hóa suy luận về lễ hội của Fisher. Họ đã phát triển một phương pháp thay thế.

— Michael Lew

5

Trong ngày của Fisher, "đáng kể" có nghĩa là nó biểu thị một cái gì đó, không phải là nó quan trọng.

— David Lane

1

Cảm ơn bạn rất nhiều vì thông tin rất chi tiết! Nó thực sự giúp tôi rất nhiều!

— Eric

16

Hãy tưởng tượng bạn đang ở trong một tình huống mà bạn đang thực hiện nhiều bài kiểm tra tương tự, trong một tình huống mà một số phần của null là đúng.

$t$

$(1-\beta)$ $\beta$

$n$ $M$ $n$ $M$

Tỷ lệ từ chối của bạn sẽ là "chính xác"?

$nt\alpha+n(1-t)(1-\beta)$
$n(1-t)(1-\beta)$

$\frac{(1-t)(1-\beta)}{t\alpha+(1-t)(1-\beta)}$

$\frac{t\alpha}{t\alpha+(1-t)(1-\beta)}$

$(1-t)(1-\beta)\ll t\alpha$

$1-\beta$ $\alpha$

Vì vậy, khi kích thước mẫu của bạn nhỏ (và do đó công suất thấp), nếu một phần hợp lý của giá trị null của chúng tôi là đúng, chúng tôi thường sẽ gặp lỗi khi chúng tôi từ chối.

Tình hình sẽ không tốt hơn nhiều nếu hầu hết tất cả các null của chúng tôi đều sai hoàn toàn - trong khi hầu hết các từ chối của chúng tôi đều đúng (tầm thường, vì các hiệu ứng nhỏ vẫn hoàn toàn sai), nếu công suất không cao, một phần đáng kể trong số đó sự từ chối sẽ là "sai hướng" - chúng tôi sẽ kết luận null là sai khá thường xuyên vì tình cờ mẫu bị sai ở phía bên ngoài (đây có thể là một đối số để sử dụng thử nghiệm một phía - khi thử nghiệm một phía thực hiện ý nghĩa - ít nhất là tránh các từ chối không có ý nghĩa nếu kích thước mẫu lớn khó có được).

Chúng ta có thể thấy rằng kích thước mẫu nhỏ chắc chắn có thể là một vấn đề.

[Tỷ lệ từ chối không chính xác này được gọi là tỷ lệ phát hiện sai ]

Nếu bạn có một khái niệm về kích thước hiệu ứng có khả năng, bạn sẽ ở vị trí tốt hơn để đánh giá kích thước mẫu phù hợp có thể là gì. Với các hiệu ứng được dự đoán lớn, việc từ chối với cỡ mẫu nhỏ sẽ không nhất thiết là mối quan tâm chính.

— Glen_b -Reinstate Monica
nguồn

Cảm ơn rất nhiều! Đó là một điểm mà tôi có thể bỏ lỡ rất dễ dàng. Rất cám ơn cho pin chỉ đó!

— Eric

1

Công việc tuyệt vời Đây có thể là câu trả lời được chấp nhận.

— Richard Hardy

@Eric câu trả lời ban đầu có một chút nhầm lẫn ở giữa; Tôi đã sửa nó.

— Glen_b -Reinstate Monica

9

Một số tác phẩm gốc của Gosset (còn gọi là Sinh viên), trong đó ông đã phát triển thử nghiệm t, liên quan đến các mẫu men n = 4 và 5. Thử nghiệm được thiết kế riêng cho các mẫu rất nhỏ. Nếu không, xấp xỉ bình thường sẽ ổn. Điều đó nói rằng, Gosset đã làm rất cẩn thận, kiểm soát các thí nghiệm trên dữ liệu mà anh ta hiểu rất rõ. Có giới hạn về số lượng mà một nhà máy bia phải thử nghiệm, và Gosset đã dành cả cuộc đời làm việc của mình tại Guinness. Anh ta biết dữ liệu của mình.

Tôi hơi nghi ngờ về sự nhấn mạnh của bạn vào thử nghiệm một phía. Logic của kiểm tra là giống nhau cho dù giả thuyết là gì, nhưng tôi đã thấy mọi người đi với một thử nghiệm một phía đáng kể khi hai mặt không quan trọng.

Đây là những gì một thử nghiệm một phía (trên) ngụ ý. Bạn đang kiểm tra giá trị trung bình bằng 0. Bạn làm toán và sẵn sàng từ chối khi T> 2.5. Bạn chạy thử nghiệm và quan sát rằng T = -50.000. Bạn nói, "phhhhht", và cuộc sống tiếp tục. Trừ khi về mặt vật lý, thống kê kiểm tra không thể chìm xuống dưới giá trị tham số giả định, và trừ khi bạn sẽ không bao giờ đưa ra quyết định nào nếu thống kê kiểm tra đi theo hướng ngược lại so với bạn mong đợi, bạn nên sử dụng thử nghiệm hai mặt.

— Dấu phẩy
nguồn

6

Điều chính bạn cần lo lắng là sức mạnh của bài kiểm tra của bạn. Cụ thể, bạn có thể muốn thực hiện phân tích sức mạnh sau hoc để xác định khả năng của bạn, với kích thước mẫu của bạn, để xác định ảnh hưởng đáng kể thực sự của kích thước hợp lý. Nếu các hiệu ứng điển hình là rất lớn, thì n 8 có thể hoàn toàn đầy đủ (như với nhiều thí nghiệm trong sinh học phân tử). Nếu hiệu ứng mà bạn đang quan tâm thường tinh tế, tuy nhiên (như trong nhiều thí nghiệm tâm lý học xã hội), một n ngàn bạn vẫn có thể đủ mạnh.

Điều này rất quan trọng vì các bài kiểm tra thiếu năng lực có thể cho kết quả rất sai lệch. Ví dụ: nếu thử nghiệm của bạn không đủ mạnh, ngay cả khi bạn tìm thấy một kết quả quan trọng, bạn có xác suất tương đối cao để tạo ra cái mà Andrew Gelman gọi là lỗi "Loại S", nghĩa là có hiệu ứng thực sự nhưng theo hướng ngược lại, hoặc một lỗi "Loại M", nghĩa là có hiệu ứng thực sự nhưng cường độ thực sự yếu hơn nhiều so với ước tính từ dữ liệu.

Gelman và Carlin đã viết một bài báo hữu ích về việc phân tích sức mạnh sau hoc mà tôi nghĩ áp dụng trong trường hợp của bạn. Điều quan trọng, họ khuyên bạn nên sử dụng dữ liệu độc lập (nghĩa là không phải dữ liệu bạn đã kiểm tra mà đánh giá, mô hình hóa, kết quả của các thử nghiệm tương tự, v.v.) để ước tính kích thước hiệu ứng thực sự hợp lý. Bằng cách thực hiện phân tích công suất bằng cách sử dụng kích thước hiệu ứng thực được ước tính hợp lý đó và so sánh với kết quả của bạn, bạn có thể xác định xác suất xảy ra lỗi Loại S và "tỷ lệ phóng đại" điển hình, và do đó hiểu rõ hơn về mức độ bằng chứng thực sự của bạn.

— Patrick B.
nguồn

4

Người ta có thể nói rằng toàn bộ ý nghĩa thống kê là trả lời câu hỏi "tôi có thể tin tưởng vào kết quả này không, với kích thước mẫu?". Nói cách khác, toàn bộ vấn đề là kiểm soát thực tế rằng với kích thước mẫu nhỏ, bạn có thể nhận được sán, khi không có hiệu ứng thực sự tồn tại. Ý nghĩa thống kê, nghĩa là giá trị p, chính xác là câu trả lời cho câu hỏi, "nếu không có hiệu ứng thực sự tồn tại, làm thế nào tôi có thể có được một con sán lớn như thế này?". Nếu nó rất khó xảy ra, điều đó chỉ ra rằng đó không phải là một con sán.

Vì vậy, câu trả lời là "có", nếu giá trị p thấp và nếu bạn đã tuân thủ đúng quy trình thống kê và đáp ứng các giả định có liên quan, thì có, đó là bằng chứng tốt và có cùng trọng lượng như thể bạn nhận được cùng giá trị p với cỡ mẫu rất lớn.

— Denziloe
nguồn