Có vẻ như bạn đang tưởng tượng một mô hình lấy mẫu rất đơn giản.
Mô hình đơn giản nhất để lấy mẫu được gọi là Lấy mẫu ngẫu nhiên đơn giản khéo léo . Bạn chọn một tập hợp con của dân số (ví dụ: bằng cách quay số điện thoại một cách ngẫu nhiên) và hỏi bất kỳ ai trả lời họ đang bầu chọn như thế nào. Nếu 487 nói bà Clinton, 463 nói Trump và phần còn lại cho bạn một số câu trả lời kỳ quặc, thì công ty bỏ phiếu sẽ báo cáo rằng 49% cử tri thích bà Clinton, trong khi 46% thích ông Trump. Tuy nhiên, các công ty bỏ phiếu làm nhiều hơn thế. Một mẫu ngẫu nhiên đơn giản cho trọng số bằng nhau cho mọi điểm dữ liệu. Tuy nhiên, giả sử mẫu của bạn chứa - tình cờ - 600 nam và 400 nữ, rõ ràng không phải là đại diện cho toàn bộ dân số. Nếu đàn ông như một nhóm nghiêng một chiều, trong khi phụ nữ nghiêng người khác, điều này sẽ làm sai lệch kết quả của bạn. Tuy nhiên, vì chúng tôi có số liệu thống kê nhân khẩu học khá tốt, bạn có thể cân *các câu trả lời bằng cách đếm phản ứng của phụ nữ nhiều hơn một chút và đàn ông ít hơn một chút, để phản ứng có trọng số thể hiện dân số tốt hơn. Các tổ chức bỏ phiếu có các mô hình cân phức tạp hơn có thể làm cho một mẫu không đại diện giống với mẫu đại diện hơn.
Ý tưởng về trọng số của các phản hồi được lấy mẫu là trên cơ sở thống kê khá vững chắc, nhưng có một sự linh hoạt trong việc lựa chọn yếu tố nào đóng góp cho trọng số. Hầu hết những người thăm dò ý kiến làm lại dựa trên các yếu tố nhân khẩu học như giới tính, tuổi tác và chủng tộc. Vì điều này, bạn có thể nghĩ rằng cũng nên đưa vào nhận dạng đảng (Dân chủ, Cộng hòa, v.v.), nhưng hóa ra hầu hết các công ty bỏ phiếu không sử dụng nó trong các trọng số của họ: việc xác định đảng (tự) bị rối với sự lựa chọn của cử tri theo cách làm cho nó ít hữu ích hơn.
Nhiều trang phục bỏ phiếu cũng báo cáo kết quả của họ trong số "các cử tri có khả năng". Trong đó, người trả lời được lựa chọn hoặc cân nhắc dựa trên khả năng họ thực sự sẽ tham gia các cuộc thăm dò. Mô hình này chắc chắn cũng dựa trên dữ liệu, nhưng sự lựa chọn chính xác của các yếu tố cho phép một số linh hoạt. Ví dụ, bao gồm các tương tác giữa ứng cử viên và chủng tộc (hoặc giới tính) thậm chí không hợp lý cho đến năm 2008 hoặc 2016, nhưng tôi nghi ngờ họ có một số sức mạnh dự đoán ngay bây giờ.
Về lý thuyết, bạn có thể bao gồm tất cả các loại như yếu tố trọng số: sở thích âm nhạc, màu mắt, v.v. Tuy nhiên, yếu tố nhân khẩu học là lựa chọn phổ biến cho các yếu tố trọng lượng vì:
- Theo kinh nghiệm, họ tương quan tốt với hành vi cử tri. Rõ ràng, không có luật sắt nào 'buộc' những người đàn ông da trắng phải là đảng Cộng hòa gầy gò, nhưng trong năm mươi năm qua, họ đã có xu hướng.
- Các giá trị dân số được biết đến (ví dụ, từ điều tra dân số hoặc Hồ sơ quan trọng)
Tuy nhiên, những người thăm dò ý kiến cũng thấy những tin tức tương tự mà mọi người khác làm và có thể điều chỉnh các biến trọng số nếu cần thiết.
Ngoài ra còn có một số "yếu tố gian lận" đôi khi được viện dẫn để giải thích kết quả thăm dò ý kiến. Ví dụ, người trả lời đôi khi không muốn đưa ra câu trả lời "không mong muốn về mặt xã hội". Các Bradley Hiệu lực thi hành thừa nhận rằng cử tri da trắng đôi khi hạ thấp vai trò ủng hộ cho ứng cử viên trắng chạy chống lại một thiểu số để tránh xuất hiện phân biệt chủng tộc. Nó được đặt theo tên của Tom Bradley, một ứng cử viên đội trưởng người Mỹ gốc Phi, người đã thua cuộc trong cuộc bầu cử mặc dù đã dẫn đầu một cách thoải mái trong các cuộc thăm dò.
Cuối cùng, bạn hoàn toàn chính xác rằng chính hành động hỏi ý kiến của ai đó có thể thay đổi nó. Các công ty bỏ phiếu cố gắng viết câu hỏi của họ một cách trung lập. Để tránh các vấn đề với thứ tự phản hồi có thể xảy ra, tên của các ứng cử viên có thể được liệt kê theo thứ tự ngẫu nhiên. Nhiều phiên bản của một câu hỏi đôi khi cũng được kiểm tra lẫn nhau. Hiệu ứng này cũng có thể được khai thác cho các kết thúc bất chính trong một cuộc thăm dò dư luận , trong đó người phỏng vấn không thực sự quan tâm đến việc thu thập các câu trả lời mà ảnh hưởng đến họ. Ví dụ: một cuộc thăm dò ý kiến có thể hỏi "Bạn có bầu cho [Ứng cử viên A] ngay cả khi được báo cáo rằng anh ta là một kẻ lạm dụng tình dục trẻ em không?".
* Bạn cũng có thể đặt mục tiêu rõ ràng cho mẫu của mình, như bao gồm 500 nam và 500 nữ. Điều này được gọi là
lấy mẫu phân tầng - dân số được phân tầng thành các nhóm khác nhau và mỗi nhóm sau đó được lấy mẫu ngẫu nhiên. Trong thực tế, điều này không được thực hiện thường xuyên cho các cuộc thăm dò, bởi vì bạn cần phân tầng thành nhiều nhóm đầy đủ (ví dụ: những người đàn ông có trình độ đại học từ 18-24 ở Urban Texas).