Tại sao một số (nếu không phải tất cả) các xét nghiệm giả thuyết tham số giả định lấy mẫu ngẫu nhiên?


12

Các thử nghiệm như Z, t và một số thử nghiệm khác cho rằng dữ liệu được dựa trên một mẫu ngẫu nhiên. Tại sao?

Giả sử rằng tôi đang thực hiện nghiên cứu thử nghiệm, nơi tôi quan tâm nhiều hơn đến tính hợp lệ bên trong so với bên ngoài. Vì vậy, nếu mẫu của tôi có thể hơi thiên vị một chút, được thôi, vì tôi đã chấp nhận không suy ra giả thuyết cho toàn bộ dân số. Và việc phân nhóm vẫn sẽ là ngẫu nhiên, tức là tôi sẽ chọn để thuận tiện cho những người tham gia mẫu, nhưng tôi sẽ chỉ định ngẫu nhiên họ cho các nhóm khác nhau.

Tại sao tôi không thể bỏ qua giả định này?


Nếu kỹ thuật lấy mẫu giới thiệu sai lệch, thì đó không phải là 'ngẫu nhiên'. Nếu nó không đưa ra bất kỳ sự thiên vị nào thì đó là 'ngẫu nhiên' (đối với một số định nghĩa về ngẫu nhiên ;-). Tôi đã có các sơ đồ lấy mẫu chỉ đơn giản là lấy mỗi mẫu thứ 7 để tạo cỡ mẫu phù hợp với mẫu đối chiếu. Tuy nhiên tôi biết rằng không có khía cạnh đặc biệt nào cho lựa chọn đó, vì vậy những gì có thể được coi là quá trình lấy mẫu không ngẫu nhiên vẫn có hiệu quả ngẫu nhiên. Nó giống như chọn các quả bóng 1,2,3,4,5,6 trên xổ số. Nó chỉ là ngẫu nhiên như bất kỳ trình tự khác.
Philip Oakley

1
@PhilipOakley: chọn bóng 1,2,3,4,5,6 trên xổ số mang lại cho bạn cơ hội chiến thắng như bất kỳ lựa chọn nào khác, nhưng làm giảm số tiền thắng dự kiến ​​của bạn vì bạn có nhiều khả năng phải chia sẻ giải thưởng với những người khác có cùng ý tưởng
Henry

1
Lấy mẫu có hệ thống, như được mô tả bởi @Philip, thường được phân tích như thể nó tạo ra các mẫu ngẫu nhiên đơn giản, nhưng nó có những cạm bẫy. Chẳng hạn, nếu bạn đo lường quy trình sản xuất mỗi ngày và lấy mẫu mỗi lần đo thứ bảy, bạn sẽ có thể gây nhầm lẫn kết quả của mình với hiệu ứng ngày trong tuần, vì (rõ ràng) bạn sẽ lấy mẫu vào cùng một ngày mỗi tuần. Bạn cần phải làm việc chăm chỉ hơn để suy nghĩ và giải quyết những điều tinh tế như vậy khi xử lý các mẫu không ngẫu nhiên.
whuber

1
@whuber, Hoàn toàn đúng. Người ta phải suy nghĩ kỹ (và rộng rãi) về những điều này !! Trong trường hợp của tôi, tôi đã có hàng giờ video, với hàng trăm sự kiện, với khoảng cách dài giữa, vì vậy cần phải giảm kích thước dữ liệu của tập hợp sự kiện cho hồi quy logistic đơn giản (mỗi khung được xem xét độc lập, ít thay đổi giữa các khung), vì vậy giảm rất nhiều khung không sự kiện là hợp lý. Các khía cạnh trình tự thời gian đã được xem xét riêng.
Philip Oakley

1
@Philip Thật thú vị, gần như cùng lúc bạn viết bình luận về sự ngẫu nhiên không tồn tại, NIST đã đưa ra một thông cáo báo chí tuyên bố rằng nó có . Một tài khoản xuất hiện trong số ra ngày hôm nay (4 tháng 4 năm 2018) của Tự nhiên .
whuber

Câu trả lời:


18

Nếu bạn không đưa ra bất kỳ suy luận nào cho một nhóm rộng hơn mẫu thực tế của mình, thì không có ứng dụng kiểm tra thống kê nào ngay từ đầu và câu hỏi về "thiên vị" không xuất hiện. Trong trường hợp này, bạn chỉ cần tính toán thống kê mô tả về mẫu của bạn, được biết đến. Tương tự, không có câu hỏi về "tính hợp lệ" của mô hình trong trường hợp này - bạn chỉ quan sát các biến và ghi lại các giá trị của chúng, và mô tả về các khía cạnh của các giá trị đó.

Khi bạn quyết định vượt ra ngoài mẫu của mình, để suy luận về một nhóm lớn hơn, thì bạn sẽ cần số liệu thống kê và bạn sẽ cần xem xét các vấn đề như sai lệch lấy mẫu, v.v. Trong ứng dụng này, lấy mẫu ngẫu nhiên trở thành một đặc tính hữu ích để hỗ trợ đáng tin cậy suy luận của nhóm quan tâm rộng hơn. Nếu bạn không lấy mẫu ngẫu nhiên (và bạn không biết xác suất của các mẫu dựa trên dân số) thì việc đưa ra những suy luận đáng tin cậy về dân số sẽ trở nên khó khăn / không thể.


5

Trong nghiên cứu khoa học thực tế, rất hiếm khi có dữ liệu đến từ việc lấy mẫu ngẫu nhiên thực sự. Các dữ liệu hầu như luôn luôn là mẫu thuận tiện. Điều này chủ yếu ảnh hưởng đến dân số mà bạn có thể khái quát. Điều đó nói rằng, ngay cả khi chúng là một mẫu thuận tiện, chúng đã đến từ một nơi nào đó, bạn chỉ cần rõ ràng về nơi và những hạn chế ngụ ý. Nếu bạn thực sự tin rằng dữ liệu của bạn không đại diện cho bất cứ điều gì, thì nghiên cứu của bạn sẽ không có giá trị ở bất kỳ cấp độ nào, nhưng điều đó có thể không đúng 1 . Do đó, thường hợp lý khi xem xét các mẫu của bạn như được rút ra từ đâu đó và sử dụng các thử nghiệm tiêu chuẩn này, ít nhất là theo nghĩa được bảo vệ hoặc đủ điều kiện.

Tuy nhiên, có một triết lý kiểm tra khác nhau, lập luận rằng chúng ta nên tránh xa những giả định đó và các thử nghiệm dựa vào chúng. Tukey là một người ủng hộ điều này. Thay vào đó, hầu hết các nghiên cứu thử nghiệm được coi là hợp lệ (nội bộ) vì các đơn vị nghiên cứu (ví dụ, bệnh nhân) được phân ngẫu nhiên vào các nhánh. Vì điều này, bạn có thể sử dụng các phép thử hoán vị , mà hầu hết chỉ cho rằng việc ngẫu nhiên được thực hiện chính xác. Đối trọng của việc lo lắng quá nhiều về điều này là các bài kiểm tra hoán vị thường sẽ cho thấy điều tương tự như các bài kiểm tra cổ điển tương ứng, và còn nhiều việc phải thực hiện. Vì vậy, một lần nữa, các bài kiểm tra tiêu chuẩn có thể được chấp nhận.

1. Để biết thêm về những dòng này, có thể giúp đọc câu trả lời của tôi ở đây: Xác định dân số và mẫu trong một nghiên cứu .


3

Các thử nghiệm như Z, t và một số thử nghiệm khác dựa trên các phân phối mẫu đã biết của các thống kê có liên quan. Những phân phối lấy mẫu, như thường được sử dụng, được xác định cho thống kê được tính từ một mẫu ngẫu nhiên.

Đôi khi có thể đưa ra một phân phối lấy mẫu có liên quan để lấy mẫu không ngẫu nhiên, nhưng nói chung có lẽ là không thể.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.