Tôi đã học được rằng cỡ mẫu nhỏ có thể dẫn đến không đủ nguồn và lỗi loại 2. Tuy nhiên, tôi có cảm giác rằng các mẫu nhỏ thường có thể không đáng tin cậy và có thể dẫn đến bất kỳ loại kết quả nào một cách tình cờ. Điều đó có đúng không?
Tôi đã học được rằng cỡ mẫu nhỏ có thể dẫn đến không đủ nguồn và lỗi loại 2. Tuy nhiên, tôi có cảm giác rằng các mẫu nhỏ thường có thể không đáng tin cậy và có thể dẫn đến bất kỳ loại kết quả nào một cách tình cờ. Điều đó có đúng không?
Câu trả lời:
Theo nguyên tắc chung, cỡ mẫu nhỏ sẽ không làm tăng tỷ lệ lỗi Loại I vì lý do đơn giản là thử nghiệm được sắp xếp để kiểm soát tỷ lệ Loại I. (Có các ngoại lệ kỹ thuật nhỏ liên quan đến các kết quả riêng biệt, có thể khiến tỷ lệ Loại I danh nghĩa không đạt được chính xác đặc biệt là với các cỡ mẫu nhỏ.)
Có một nguyên tắc quan trọng ở đây: nếu thử nghiệm của bạn có kích thước chấp nhận được (= tỷ lệ loại I danh nghĩa) và sức mạnh chấp nhận được đối với hiệu ứng bạn đang tìm kiếm, thì ngay cả khi kích thước mẫu nhỏ thì cũng không sao.
Điều nguy hiểm là nếu chúng ta biết ít về tình huống - có thể đây là tất cả dữ liệu chúng ta có - thì chúng ta có thể lo ngại về các lỗi "Loại III": đó là, đặc tả sai mô hình. Chúng có thể khó kiểm tra với các bộ mẫu nhỏ.
Là một ví dụ thực tế về sự tương tác của các ý tưởng, tôi sẽ chia sẻ một câu chuyện. Từ lâu, tôi đã được đề nghị giới thiệu một cỡ mẫu để xác nhận việc làm sạch môi trường. Điều này là trong giai đoạn trước khi dọn dẹp trước khi chúng tôi có bất kỳ dữ liệu nào. Kế hoạch của tôi đã kêu gọi phân tích 1000 mẫu hoặc hơn sẽ thu được trong quá trình dọn sạch (để xác định rằng đã loại bỏ đủ đất tại mỗi địa điểm) để đánh giá trung bình sau khi làm sạch và phương sai của nồng độ chất gây ô nhiễm. Sau đó (để đơn giản hóa rất nhiều), tôi đã nói rằng chúng tôi sẽ sử dụng một công thức sách giáo khoa - dựa trên công suất và kích thước thử nghiệm được chỉ định - để xác định số lượng mẫu xác nhận độc lập sẽ được sử dụng để chứng minh việc dọn dẹp thành công.
Điều làm cho điều này đáng nhớ là sau khi dọn dẹp xong, công thức cho biết chỉ sử dụng 3 mẫu. Đột nhiên đề nghị của tôi không đáng tin lắm!
Lý do chỉ cần 3 mẫu là việc dọn dẹp rất tích cực và hoạt động tốt. Nó làm giảm nồng độ chất gây ô nhiễm trung bình xuống khoảng 100 cho hoặc mất 100 ppm, thấp hơn mục tiêu 500 ppm.
Cuối cùng , phương pháp này hiệu quả vì chúng tôi đã thu được 1000 mẫu trước đó (mặc dù chất lượng phân tích thấp hơn: chúng có lỗi đo lường lớn hơn) để xác định rằng các giả định thống kê được đưa ra trên thực tế là những mẫu tốt cho trang web này. Đó là cách tiềm năng cho lỗi Loại III được xử lý.
Thêm một điều nữa cho sự cân nhắc của bạn: biết rằng cơ quan quản lý sẽ không bao giờ chấp thuận chỉ sử dụng 3 mẫu, tôi khuyên bạn nên lấy 5 phép đo. Chúng được tạo từ 25 mẫu ngẫu nhiên của toàn bộ khu vực, được tổng hợp thành các nhóm 5. Theo thống kê sẽ chỉ có 5 số trong thử nghiệm giả thuyết cuối cùng, nhưng chúng tôi đã đạt được sức mạnh lớn hơn để phát hiện một "điểm nóng" bị cô lập bằng cách lấy 25 điểm vật lý mẫu. Điều này nhấn mạnh mối quan hệ quan trọng giữa số lượng số được sử dụng trong bài kiểm tra và cách chúng được lấy. Có nhiều quyết định thống kê hơn là chỉ thuật toán với các con số!
Theo sự cứu trợ vĩnh cửu của tôi, năm giá trị tổng hợp đã xác nhận mục tiêu dọn dẹp đã được đáp ứng.
Một hậu quả khác của một mẫu nhỏ là sự gia tăng của lỗi loại 2.
Nunnally đã chứng minh trong bài báo "Vị trí của thống kê trong tâm lý học", 1960, rằng các mẫu nhỏ thường không từ chối một giả thuyết không có điểm. Những giả thuyết này là giả thuyết có một số tham số bằng 0 và được biết là sai trong trải nghiệm được xem xét.
Ngược lại, các mẫu quá lớn làm tăng lỗi loại 1 vì giá trị p phụ thuộc vào kích thước của mẫu, nhưng mức ý nghĩa alpha được cố định. Một thử nghiệm trên một mẫu như vậy sẽ luôn bác bỏ giả thuyết khống. Đọc "Tầm quan trọng của kiểm tra ý nghĩa thống kê" của Johnson và Douglas (1999) để có cái nhìn tổng quan về vấn đề này.
Đây không phải là một câu trả lời trực tiếp cho câu hỏi nhưng những cân nhắc này là bổ sung.