Có phải mỗi người mặc áo phông màu xanh là một mẫu có hệ thống?


17

Tôi đang dạy một lớp thống kê giới thiệu và đang xem xét các loại lấy mẫu, bao gồm lấy mẫu có hệ thống trong đó bạn lấy mẫu từng cá nhân hoặc đối tượng thứ k.

Một sinh viên hỏi nếu lấy mẫu mỗi người với một đặc điểm cụ thể sẽ hoàn thành điều tương tự.

Ví dụ, việc lấy mẫu mỗi người với một chiếc áo phông màu xanh là đủ ngẫu nhiên và cung cấp đủ đại diện cho toàn bộ dân số? Ít nhất, nếu bạn đang hỏi một câu hỏi khác ngoài "Bạn thích mặc áo phông màu gì?" Cảm giác của tôi là không, nhưng tôi tự hỏi liệu có ai ở đây có suy nghĩ gì về việc này không.


12
Không. Nếu bạn sống ở Glasgow, Scotland, thì hầu hết những người mặc "áo phông màu xanh", có lẽ sẽ là người ủng hộ Rangers . Bạn sẽ bỏ lỡ những người ủng hộ Celtic . Ở Glasgow, đội bóng đá sẽ là một ủy quyền cho tôn giáo.
csgillespie

1
@csgillespie Ví dụ tuyệt vời!
whuber

Ngoài ra, bạn có thể có nhiều con trai hơn con gái vì trong văn hóa phương tây, màu xanh có liên quan đến nam giới
Roland Kofler

Áo phông màu đắt hơn áo phông trắng, và không phải thiết kế nào cũng phù hợp với mọi màu sắc. Vì vậy, mặc dù có vẻ vô tội, ngay cả trong số những người mặc áo phông, bạn có thể chọn những người giàu có hơn, hoặc những người tiêu dùng bốc đồng hơn, hoặc những người ủng hộ một đảng chính trị cụ thể.
Douglas Zare

Cũng có mối liên hệ giữa tuổi tác và việc mặc áo phông, giữa nền tảng văn hóa và mặc áo phông, v.v.
Glen_b -Reinstate Monica

Câu trả lời:


22

Câu trả lời, nói chung, cho câu hỏi của bạn là "không". Lấy một mẫu ngẫu nhiên từ một dân số (đặc biệt là của con người) là rất khó khăn. Theo điều kiện của một đặc điểm cụ thể, theo định nghĩa , bạn không có được một mẫu ngẫu nhiên. Bao nhiêu sự thiên vị này giới thiệu là một vấn đề khác hoàn toàn.

Như một ví dụ hơi vô lý, bạn sẽ không muốn thử nghiệm theo cách này, giả sử, một trận bóng đá giữa Bears và Packers, ngay cả khi dân số của bạn là "người hâm mộ bóng đá". (Người hâm mộ của gấu có thể có những đặc điểm khác với người hâm mộ bóng đá khác, ngay cả khi số lượng bạn quan tâm có thể không liên quan trực tiếp đến bóng đá.)

Có nhiều ví dụ nổi tiếng về sự thiên vị ẩn do việc lấy mẫu theo cách này. Ví dụ, trong các cuộc bầu cử gần đây của Hoa Kỳ trong đó các cuộc thăm dò điện thoại đã được tiến hành, người ta tin rằng những người chỉ sở hữu một điện thoại di động và không có điện thoại cố định (có lẽ là đáng kể) trong mẫu. Vì những người này cũng có xu hướng, lớn hơn, trẻ hơn những người có điện thoại cố định, nên lấy một mẫu thiên vị. Hơn nữa, những người trẻ tuổi có niềm tin chính trị rất khác so với dân số già. Vì vậy, đây là một ví dụ đơn giản về trường hợp, ngay cả khi mẫu không được cố ý quy định về một đặc điểm cụ thể, nó vẫn xảy ra theo cách đó. Và, mặc dù cuộc thăm dò không có gì để làm với đặc tính điều hòa (nghĩa là người ta có sử dụng điện thoại cố định hay không), ảnh hưởng của đặc tính điều hòa đến kết luận của cuộc thăm dò là rất đáng kể, cả về mặt thống kê và thực tế.


6

Miễn là phân phối đặc tính bạn đang sử dụng để chọn đơn vị vào mẫu là trực giao với phân bố đặc tính của dân số bạn muốn ước tính, bạn có thể có được ước tính không thiên vị về số lượng dân số bằng cách chọn điều kiện trên đó. Mẫu không hoàn toàn là một mẫu ngẫu nhiên . Nhưng mọi người có xu hướng bỏ qua rằng các mẫu ngẫu nhiên là tốt vì biến ngẫu nhiên được sử dụng để chọn đơn vị thành mẫu là trực giao với phân bố đặc tính dân số, chứ không phải vì nó là ngẫu nhiên.

Chỉ cần nghĩ về việc vẽ ngẫu nhiên từ Bernoulli với P (invlogit (x_i)) trong đó x_i trong [-inf, inf] là một đặc điểm của đơn vị i sao cho Cov (x, y)! = 0 và y là đặc tính dân số có có nghĩa là bạn muốn ước tính. Mẫu là "ngẫu nhiên" theo nghĩa bạn đang chọn ngẫu nhiên trước khi chọn vào mẫu. Nhưng mẫu không mang lại ước tính không thiên vị về trung bình dân số của y.

Những gì bạn cần là lựa chọn điều hòa vào mẫu trên một biến tốt như được gán ngẫu nhiên . Tức là, đó là trực giao với biến số mà số lượng quan tâm phụ thuộc. Ngẫu nhiên là tốt bởi vì nó bảo đảm tính trực giao, không phải vì ngẫu nhiên.


4
Điều này là chính xác, nhưng làm thế nào bạn biết nếu nó là trực giao trừ khi bạn có một mẫu thực sự ngẫu nhiên?
Peter Flom - Tái lập Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.