Dưới đây là bốn bộ số khác nhau:
A = {95,47, 87,90, 99,00}
B = {79,2, 75,3, 66,3}
C = {38,4, 40,4, 32,8}
D = {1.8, 1.2, 1.1}
Sử dụng phép thử t hai mẫu mà không giả sử phương sai bằng nhau, tôi so sánh B, C và D với A và nhận các giá trị p sau:
0,015827 (A so với B)
0,000283 (A so với C)
0,001190 (A so với D)
Tôi thấy lạ là giá trị p từ xét nghiệm AD kém hơn so với thử nghiệm AC: sự khác biệt giữa các phương tiện rõ ràng lớn hơn nhiều và phương sai của D thấp hơn nhiều so với phương sai của C. Trực giác (ít nhất là theo trực giác của tôi ), cả hai thực tế này sẽ khiến giá trị p thấp hơn.
Ai đó có thể giải thích nếu đây là hành vi mong muốn hoặc mong đợi của thử nghiệm t hoặc liệu nó có phải làm nhiều hơn với tập dữ liệu cụ thể của tôi không (có lẽ kích thước mẫu cực thấp?). Là kiểm tra t không phù hợp cho tập dữ liệu cụ thể này?
Từ quan điểm tính toán thuần túy, lý do cho giá trị p tệ hơn dường như là mức độ tự do, trong so sánh AD là 2.018 trong khi đó là 3.566 trong so sánh AC. Nhưng chắc chắn, nếu bạn chỉ nhìn thấy những con số đó, bạn sẽ không nghĩ rằng có bằng chứng mạnh mẽ hơn để bác bỏ giả thuyết khống trong trường hợp AD so với AC?
Một số có thể gợi ý rằng đây không phải là vấn đề ở đây vì tất cả các giá trị p đều khá thấp. Vấn đề của tôi là 3 bài kiểm tra này là một phần của bộ bài kiểm tra mà tôi đang thực hiện. Sau khi sửa chữa cho nhiều thử nghiệm, so sánh AD không thực hiện cắt giảm, trong khi so sánh AC thì không. Hãy tưởng tượng vẽ các số đó (giả sử các ô có các thanh lỗi như các nhà sinh học thường làm) và cố gắng giải thích tại sao C khác biệt đáng kể so với A nhưng D không ... tốt, tôi không thể.
Cập nhật: tại sao điều này thực sự quan trọng
Hãy để tôi làm rõ tại sao quan sát này có thể có tác động lớn trong việc diễn giải các nghiên cứu trong quá khứ. Trong sinh học, tôi đã thấy thử nghiệm t được áp dụng cho các cỡ mẫu nhỏ trên quy mô lớn (nghĩ rằng biểu hiện gen khác biệt của hàng trăm hoặc hàng ngàn gen, hoặc tác dụng của nhiều loại thuốc khác nhau trên một dòng tế bào, chỉ sử dụng 3-5 lần lặp ). Quy trình thông thường là thực hiện nhiều xét nghiệm t (một cho mỗi gen hoặc thuốc) sau đó là điều chỉnh nhiều xét nghiệm, thường là FDR. Với các quan sát trên về hành vi kiểm tra t của Welch, điều này có nghĩa là một số trường hợp tốt nhất đang được lọc ra một cách có hệ thống. Mặc dù hầu hết mọi người sẽ nhìn vào dữ liệu thực tế để so sánh ở đầu danh sách của họ (những người có giá trị p tốt nhất), tôi không biết ai sẽ xem qua danh sách tất cả các so sánh mà giả thuyết null không được đưa ra ' t từ chối.