Nếu kết quả kiểm tra t một mặt của tôi là đáng kể nhưng kích thước mẫu nhỏ (ví dụ dưới 20 hoặc hơn), tôi vẫn có thể tin tưởng vào kết quả này không? Nếu không, tôi nên giải quyết và / hoặc giải thích kết quả này như thế nào?
Nếu kết quả kiểm tra t một mặt của tôi là đáng kể nhưng kích thước mẫu nhỏ (ví dụ dưới 20 hoặc hơn), tôi vẫn có thể tin tưởng vào kết quả này không? Nếu không, tôi nên giải quyết và / hoặc giải thích kết quả này như thế nào?
Câu trả lời:
Về lý thuyết nếu tất cả các giả định của thử nghiệm t là đúng thì không có vấn đề gì với cỡ mẫu nhỏ.
Trong thực tế, có một số giả định không hoàn toàn đúng mà chúng ta có thể bỏ qua với các cỡ mẫu lớn nhưng chúng có thể gây ra vấn đề cho các cỡ mẫu nhỏ. Bạn có biết nếu phân phối cơ bản được phân phối bình thường? Có phải tất cả các mẫu độc lập và phân phối giống hệt nhau?
Nếu bạn nghi ngờ tính hợp lệ của bài kiểm tra thì một giải pháp thay thế bạn có thể sử dụng là bootstrapping. Bootstrapping liên quan đến việc lấy mẫu lại từ mẫu của bạn để xem mức độ thường xuyên giả thuyết null là đúng hay sai. Có lẽ giả thuyết khống của bạn là và giá trị p của bạn là 0,05 nhưng bootstrapping cho thấy giá trị trung bình mẫu nhỏ hơn 0% thời gian. Điều này sẽ chỉ ra rằng đó là một con sán gây ra giá trị p là 0,05 và bạn nên ít tin tưởng rằng giả thuyết khống là sai.
Bạn hiếm khi nên tin tưởng bất kỳ kết quả quan trọng duy nhất. Bạn đã không nói lý do tại sao bạn sử dụng thử nghiệm một đầu thay vì thử nghiệm hai đuôi, vì vậy, hy vọng bạn có lý do chính đáng để làm điều đó ngoài việc đấu tranh để có thể nhận được kết quả có ý nghĩa thống kê!
Đặt nó sang một bên, xem xét những điều sau đây từ p. 261 của Sauro, J., & Lewis, JR (2016). Định lượng trải nghiệm người dùng: Số liệu thống kê thực tế cho nghiên cứu người dùng, 2nd Ed .. Cambridge, MA: Morgan-Kaufmann.
Ronald Fisher khuyến nghị sử dụng giá trị p như thế nào
Khi Karl Pearson là ông già thống kê và Ronald Fisher là người mới, Pearson, dường như bị đe dọa bởi ý tưởng và khả năng toán học của Fisher, đã sử dụng ảnh hưởng của mình để ngăn chặn Fisher xuất bản trên các tạp chí thống kê lớn của thời đại, Biometrika và Tạp chí của Hiệp hội Thống kê Hoàng gia. Do đó, Fisher đã công bố ý tưởng của mình ở nhiều địa điểm khác như tạp chí nông nghiệp và khí tượng, bao gồm một số bài viết cho Kỷ yếu của Hiệp hội Nghiên cứu Tâm lý. Đó là trong một trong những bài báo của tạp chí sau này, ông đã đề cập đến quy ước đặt cái mà chúng ta gọi là lỗi Loại I (alpha) chấp nhận được thành 0,05 và, quan trọng, cũng đề cập đến tầm quan trọng của khả năng tái tạo khi gặp kết quả không mong muốn:
Một quan sát được đánh giá là có ý nghĩa, nếu nó hiếm khi được tạo ra, trong trường hợp không có nguyên nhân thực sự của loại mà chúng ta đang tìm kiếm. Đó là một thực tế phổ biến để đánh giá một kết quả có ý nghĩa, nếu nó có độ lớn đến mức nó sẽ được tạo ra bởi cơ hội không thường xuyên hơn một lần trong hai mươi thử nghiệm. Đây là một mức độ quan trọng, nhưng thuận tiện, có ý nghĩa đối với người điều tra thực tế, nhưng điều đó không có nghĩa là anh ta cho phép mình bị lừa dối một lần trong mỗi hai mươi thí nghiệm. Các thử nghiệm về tầm quan trọng chỉ cho anh ta biết những gì cần bỏ qua, cụ thể là, tất cả các thí nghiệm trong đó không thu được kết quả quan trọng. Anh ta chỉ nên tuyên bố rằng một hiện tượng có thể chứng minh bằng thực nghiệm khi anh ta biết cách thiết kế một thí nghiệm để nó hiếm khi không đưa ra một kết quả quan trọng. Hậu quả là, kết quả quan trọng bị cô lập mà anh ta không biết làm thế nào để tái sản xuất đang trong tình trạng hồi hộp chờ điều tra thêm. (Fisher, 1929, trang 191)
Tài liệu tham khảo
Ngư dân, RA (1929). Phương pháp thống kê trong nghiên cứu tâm lý. Kỷ yếu của Hội nghiên cứu tâm lý, 39, 189-192.
Hãy tưởng tượng bạn đang ở trong một tình huống mà bạn đang thực hiện nhiều bài kiểm tra tương tự, trong một tình huống mà một số phần của null là đúng.
Tỷ lệ từ chối của bạn sẽ là "chính xác"?
Vì vậy, khi kích thước mẫu của bạn nhỏ (và do đó công suất thấp), nếu một phần hợp lý của giá trị null của chúng tôi là đúng, chúng tôi thường sẽ gặp lỗi khi chúng tôi từ chối.
Tình hình sẽ không tốt hơn nhiều nếu hầu hết tất cả các null của chúng tôi đều sai hoàn toàn - trong khi hầu hết các từ chối của chúng tôi đều đúng (tầm thường, vì các hiệu ứng nhỏ vẫn hoàn toàn sai), nếu công suất không cao, một phần đáng kể trong số đó sự từ chối sẽ là "sai hướng" - chúng tôi sẽ kết luận null là sai khá thường xuyên vì tình cờ mẫu bị sai ở phía bên ngoài (đây có thể là một đối số để sử dụng thử nghiệm một phía - khi thử nghiệm một phía thực hiện ý nghĩa - ít nhất là tránh các từ chối không có ý nghĩa nếu kích thước mẫu lớn khó có được).
Chúng ta có thể thấy rằng kích thước mẫu nhỏ chắc chắn có thể là một vấn đề.
[Tỷ lệ từ chối không chính xác này được gọi là tỷ lệ phát hiện sai ]
Nếu bạn có một khái niệm về kích thước hiệu ứng có khả năng, bạn sẽ ở vị trí tốt hơn để đánh giá kích thước mẫu phù hợp có thể là gì. Với các hiệu ứng được dự đoán lớn, việc từ chối với cỡ mẫu nhỏ sẽ không nhất thiết là mối quan tâm chính.
Một số tác phẩm gốc của Gosset (còn gọi là Sinh viên), trong đó ông đã phát triển thử nghiệm t, liên quan đến các mẫu men n = 4 và 5. Thử nghiệm được thiết kế riêng cho các mẫu rất nhỏ. Nếu không, xấp xỉ bình thường sẽ ổn. Điều đó nói rằng, Gosset đã làm rất cẩn thận, kiểm soát các thí nghiệm trên dữ liệu mà anh ta hiểu rất rõ. Có giới hạn về số lượng mà một nhà máy bia phải thử nghiệm, và Gosset đã dành cả cuộc đời làm việc của mình tại Guinness. Anh ta biết dữ liệu của mình.
Tôi hơi nghi ngờ về sự nhấn mạnh của bạn vào thử nghiệm một phía. Logic của kiểm tra là giống nhau cho dù giả thuyết là gì, nhưng tôi đã thấy mọi người đi với một thử nghiệm một phía đáng kể khi hai mặt không quan trọng.
Đây là những gì một thử nghiệm một phía (trên) ngụ ý. Bạn đang kiểm tra giá trị trung bình bằng 0. Bạn làm toán và sẵn sàng từ chối khi T> 2.5. Bạn chạy thử nghiệm và quan sát rằng T = -50.000. Bạn nói, "phhhhht", và cuộc sống tiếp tục. Trừ khi về mặt vật lý, thống kê kiểm tra không thể chìm xuống dưới giá trị tham số giả định, và trừ khi bạn sẽ không bao giờ đưa ra quyết định nào nếu thống kê kiểm tra đi theo hướng ngược lại so với bạn mong đợi, bạn nên sử dụng thử nghiệm hai mặt.
Điều chính bạn cần lo lắng là sức mạnh của bài kiểm tra của bạn. Cụ thể, bạn có thể muốn thực hiện phân tích sức mạnh sau hoc để xác định khả năng của bạn, với kích thước mẫu của bạn, để xác định ảnh hưởng đáng kể thực sự của kích thước hợp lý. Nếu các hiệu ứng điển hình là rất lớn, thì n 8 có thể hoàn toàn đầy đủ (như với nhiều thí nghiệm trong sinh học phân tử). Nếu hiệu ứng mà bạn đang quan tâm thường tinh tế, tuy nhiên (như trong nhiều thí nghiệm tâm lý học xã hội), một n ngàn bạn vẫn có thể đủ mạnh.
Điều này rất quan trọng vì các bài kiểm tra thiếu năng lực có thể cho kết quả rất sai lệch. Ví dụ: nếu thử nghiệm của bạn không đủ mạnh, ngay cả khi bạn tìm thấy một kết quả quan trọng, bạn có xác suất tương đối cao để tạo ra cái mà Andrew Gelman gọi là lỗi "Loại S", nghĩa là có hiệu ứng thực sự nhưng theo hướng ngược lại, hoặc một lỗi "Loại M", nghĩa là có hiệu ứng thực sự nhưng cường độ thực sự yếu hơn nhiều so với ước tính từ dữ liệu.
Gelman và Carlin đã viết một bài báo hữu ích về việc phân tích sức mạnh sau hoc mà tôi nghĩ áp dụng trong trường hợp của bạn. Điều quan trọng, họ khuyên bạn nên sử dụng dữ liệu độc lập (nghĩa là không phải dữ liệu bạn đã kiểm tra mà đánh giá, mô hình hóa, kết quả của các thử nghiệm tương tự, v.v.) để ước tính kích thước hiệu ứng thực sự hợp lý. Bằng cách thực hiện phân tích công suất bằng cách sử dụng kích thước hiệu ứng thực được ước tính hợp lý đó và so sánh với kết quả của bạn, bạn có thể xác định xác suất xảy ra lỗi Loại S và "tỷ lệ phóng đại" điển hình, và do đó hiểu rõ hơn về mức độ bằng chứng thực sự của bạn.
Người ta có thể nói rằng toàn bộ ý nghĩa thống kê là trả lời câu hỏi "tôi có thể tin tưởng vào kết quả này không, với kích thước mẫu?". Nói cách khác, toàn bộ vấn đề là kiểm soát thực tế rằng với kích thước mẫu nhỏ, bạn có thể nhận được sán, khi không có hiệu ứng thực sự tồn tại. Ý nghĩa thống kê, nghĩa là giá trị p, chính xác là câu trả lời cho câu hỏi, "nếu không có hiệu ứng thực sự tồn tại, làm thế nào tôi có thể có được một con sán lớn như thế này?". Nếu nó rất khó xảy ra, điều đó chỉ ra rằng đó không phải là một con sán.
Vì vậy, câu trả lời là "có", nếu giá trị p thấp và nếu bạn đã tuân thủ đúng quy trình thống kê và đáp ứng các giả định có liên quan, thì có, đó là bằng chứng tốt và có cùng trọng lượng như thể bạn nhận được cùng giá trị p với cỡ mẫu rất lớn.