Một kích thước mẫu nhỏ có thể gây ra lỗi loại 1?

Tôi đã học được rằng cỡ mẫu nhỏ có thể dẫn đến không đủ nguồn và lỗi loại 2. Tuy nhiên, tôi có cảm giác rằng các mẫu nhỏ thường có thể không đáng tin cậy và có thể dẫn đến bất kỳ loại kết quả nào một cách tình cờ. Điều đó có đúng không?

hypothesis-testing small-sample

— cũng
nguồn

Tôi có ác cảm với các ký hiệu toán học không cần thiết, vì vậy tôi đã chỉnh sửa tiêu đề, bạn có thể kiểm tra xem tôi đã không thay đổi ý nghĩa bằng cách thay đổi nó không?

— mpiktas

Cũng chắc chắn để nói về thử nghiệm giả thuyết (thử nghiệm Neyman-Pearson) và không thử nghiệm ý nghĩa (thử nghiệm Fisher). Các cách tiếp cận này thường được trộn lẫn ngay cả khi không có khái niệm về lỗi trong cách thứ hai và cách sử dụng phù hợp nên khác nhau vì chúng dẫn đến các loại kết luận khác nhau.

— Seb

Nếu bạn đang sử dụng một xét nghiệm tiệm cận thì có, điều đó là có thể. Mặt khác, không - kiểm tra được xác định để kiểm soát tỷ lệ lỗi loại 1 (tức là

α

$\alpha$

— Macro

Nhưng điều đó không đúng, nếu bạn lật đồng xu hai lần, bạn có nhiều khả năng dẫn đến kết quả sai lệch (2 mặt giống nhau (100%)), so với khi bạn lật 100 lần, rất có thể sẽ dẫn đến khoảng 1 / 2, 1/2. Điều này không chỉ ra rằng kích thước càng nhỏ, bạn càng có khả năng gặp phải lỗi loại I?

Câu trả lời:

Theo nguyên tắc chung, cỡ mẫu nhỏ sẽ không làm tăng tỷ lệ lỗi Loại I vì lý do đơn giản là thử nghiệm được sắp xếp để kiểm soát tỷ lệ Loại I. (Có các ngoại lệ kỹ thuật nhỏ liên quan đến các kết quả riêng biệt, có thể khiến tỷ lệ Loại I danh nghĩa không đạt được chính xác đặc biệt là với các cỡ mẫu nhỏ.)

Có một nguyên tắc quan trọng ở đây: nếu thử nghiệm của bạn có kích thước chấp nhận được (= tỷ lệ loại I danh nghĩa) và sức mạnh chấp nhận được đối với hiệu ứng bạn đang tìm kiếm, thì ngay cả khi kích thước mẫu nhỏ thì cũng không sao.

Điều nguy hiểm là nếu chúng ta biết ít về tình huống - có thể đây là tất cả dữ liệu chúng ta có - thì chúng ta có thể lo ngại về các lỗi "Loại III": đó là, đặc tả sai mô hình. Chúng có thể khó kiểm tra với các bộ mẫu nhỏ.

Là một ví dụ thực tế về sự tương tác của các ý tưởng, tôi sẽ chia sẻ một câu chuyện. Từ lâu, tôi đã được đề nghị giới thiệu một cỡ mẫu để xác nhận việc làm sạch môi trường. Điều này là trong giai đoạn trước khi dọn dẹp trước khi chúng tôi có bất kỳ dữ liệu nào. Kế hoạch của tôi đã kêu gọi phân tích 1000 mẫu hoặc hơn sẽ thu được trong quá trình dọn sạch (để xác định rằng đã loại bỏ đủ đất tại mỗi địa điểm) để đánh giá trung bình sau khi làm sạch và phương sai của nồng độ chất gây ô nhiễm. Sau đó (để đơn giản hóa rất nhiều), tôi đã nói rằng chúng tôi sẽ sử dụng một công thức sách giáo khoa - dựa trên công suất và kích thước thử nghiệm được chỉ định - để xác định số lượng mẫu xác nhận độc lập sẽ được sử dụng để chứng minh việc dọn dẹp thành công.

Điều làm cho điều này đáng nhớ là sau khi dọn dẹp xong, công thức cho biết chỉ sử dụng 3 mẫu. Đột nhiên đề nghị của tôi không đáng tin lắm!

Lý do chỉ cần 3 mẫu là việc dọn dẹp rất tích cực và hoạt động tốt. Nó làm giảm nồng độ chất gây ô nhiễm trung bình xuống khoảng 100 cho hoặc mất 100 ppm, thấp hơn mục tiêu 500 ppm.

Cuối cùng , phương pháp này hiệu quả vì chúng tôi đã thu được 1000 mẫu trước đó (mặc dù chất lượng phân tích thấp hơn: chúng có lỗi đo lường lớn hơn) để xác định rằng các giả định thống kê được đưa ra trên thực tế là những mẫu tốt cho trang web này. Đó là cách tiềm năng cho lỗi Loại III được xử lý.

Thêm một điều nữa cho sự cân nhắc của bạn: biết rằng cơ quan quản lý sẽ không bao giờ chấp thuận chỉ sử dụng 3 mẫu, tôi khuyên bạn nên lấy 5 phép đo. Chúng được tạo từ 25 mẫu ngẫu nhiên của toàn bộ khu vực, được tổng hợp thành các nhóm 5. Theo thống kê sẽ chỉ có 5 số trong thử nghiệm giả thuyết cuối cùng, nhưng chúng tôi đã đạt được sức mạnh lớn hơn để phát hiện một "điểm nóng" bị cô lập bằng cách lấy 25 điểm vật lý mẫu. Điều này nhấn mạnh mối quan hệ quan trọng giữa số lượng số được sử dụng trong bài kiểm tra và cách chúng được lấy. Có nhiều quyết định thống kê hơn là chỉ thuật toán với các con số!

Theo sự cứu trợ vĩnh cửu của tôi, năm giá trị tổng hợp đã xác nhận mục tiêu dọn dẹp đã được đáp ứng.

— whuber
nguồn

(+1) câu chuyện tuyệt vời về dọn dẹp tích cực và lỗi loại III , sẽ rất tuyệt nếu điều này cũng phù hợp với chuỗi thời gian kinh tế. Đối với các mô hình xác định hoặc các mô hình có tỷ lệ nhiễu thấp, cỡ mẫu nhỏ IMHO sẽ không phải là vấn đề lớn nhất (so với tập hợp lớn dữ liệu mẫu lớn độc lập rất ồn ào, ngay cả các thành phần chính cũng khó với các mẫu này).

— Dmitrij Celov

+1, cho những người đang quan tâm đến việc tiếp tục tìm hiểu các "ngoại lệ kỹ thuật liên quan đến kết quả rời rạc" được đề cập trong đoạn đầu tiên, tôi thảo luận đó tại đây: So sánh và tương phản p-giá trị, mức độ quan trọng, và loại I lỗi .

— gung - Phục hồi Monica

+1, ví dụ tuyệt vời về lý do tại sao bạn không thể thực hiện một cú đâm tự nhiên ở kích thước mẫu hữu ích mà không có thông tin chính.

— Freya Harrison

Một hậu quả khác của một mẫu nhỏ là sự gia tăng của lỗi loại 2.

Nunnally đã chứng minh trong bài báo "Vị trí của thống kê trong tâm lý học", 1960, rằng các mẫu nhỏ thường không từ chối một giả thuyết không có điểm. Những giả thuyết này là giả thuyết có một số tham số bằng 0 và được biết là sai trong trải nghiệm được xem xét.

Ngược lại, các mẫu quá lớn làm tăng lỗi loại 1 vì giá trị p phụ thuộc vào kích thước của mẫu, nhưng mức ý nghĩa alpha được cố định. Một thử nghiệm trên một mẫu như vậy sẽ luôn bác bỏ giả thuyết khống. Đọc "Tầm quan trọng của kiểm tra ý nghĩa thống kê" của Johnson và Douglas (1999) để có cái nhìn tổng quan về vấn đề này.

Đây không phải là một câu trả lời trực tiếp cho câu hỏi nhưng những cân nhắc này là bổ sung.

— Bình thường
nguồn

+1 cho việc gọi ra vấn đề về các mẫu lớn và lỗi Loại I

— Josh Hemann

-1, nhận xét rằng "các mẫu quá lớn làm tăng lỗi loại 1" là không chính xác. Bạn có thể nhầm lẫn giữa ý nghĩa thống kê và ý nghĩa thực tiễn , trong đó một tình huống có thể tồn tại khi hiệu ứng thực sự không chính xác bằng 0, nhưng nhỏ đến mức không quan trọng, và chúng tôi sẽ xem xét "không đúng" cho mục đích thực tế . Trong trường hợp này, null sẽ bị từ chối nhiều hơn (ví dụ) 5% thời gian, và thường xuyên hơn khi tăng N. Tuy nhiên, nói đúng ra, giả thuyết null cho rằng hiệu ứng thực sự chính xác là 0, theo quy định, là sai. Do đó, những từ chối này không thực sự là lỗi loại I.

— gung - Phục hồi Monica