Tại sao nên / không (?) Lấy mẫu thống kê làm việc cho chính trị (ví dụ như Gallup)?


14

Các cuộc thăm dò ngoài kia (giả sử, Gallup) lấy mẫu một số người thấp một cách vô lý so với quy mô dân số (ví dụ có thể một ngàn người trong số hàng trăm triệu người).

Bây giờ, với tôi, lấy mẫu dân số làm phương tiện để ước tính số liệu thống kê dân số có ý nghĩa khi bạn có lý do chính đáng để tin rằng các mẫu là đại diện cho dân số (hoặc, tương tự, của các mẫu khác ) .

Ví dụ, lấy mẫu rõ ràng có ý nghĩa đối với các nghiên cứu y học, bởi vì chúng ta biết một tiên nghiệm rằng con người đều có bộ gen khá giống nhau và yếu tố này làm cho cơ thể của họ hoạt động tương tự nhau.
Lưu ý rằng đây không phải là một loại khớp nối lỏng lẻo - bộ gen là một yếu tố quyết định khá mạnh mẽ .

Tuy nhiên, tôi chỉ không hiểu những gì biện minh cho việc sử dụng cỡ mẫu thấp cho những thứ như các cuộc thăm dò chính trị.

Tôi có thể mua rằng có thể 80-90% người dân trong bất kỳ khu phố nào được bầu chọn tương tự cho tổng thống (do nền tảng kinh tế xã hội / giáo dục tương tự), nhưng điều này dường như khó biện minh cho số lượng mẫu thấp một cách vô lý. Thực sự không có lý do thuyết phục nào (ít nhất là với tôi) tại sao 1000 cử tri ngẫu nhiên nên cư xử như 200 triệu cử tri khác.

Đối với tôi, bạn cần ít nhất là (giả sử) 100 × số tiền đó. Tại sao? Tôi có thể nghĩ ra một loạt các lý do, ví dụ:

  1. Có ~ 22.000 khu vực chỉ ở California . Mọi người lớn lên rất khác nhau trong nền tảng kinh tế và giáo dục của họ đến mức một cuộc thăm dò kích thước 1000 dường như rất nhỏ. Làm thế nào bạn có thể tóm tắt toàn bộ khu vực trung bình với <1 người?

  2. Mọi người thường không thể thay đổi phản ứng của cơ thể đối với y học, nhưng họ có thể thay đổi ý kiến ​​của họ về chính trị chỉ bằng cách nghĩ về nó. Theo cách tôi thấy, không có yếu tố ép buộc nào giống với DNA trong y học khi bạn làm việc với chính trị. Tại tốt nhất Tôi muốn tưởng tượng nên có túi nhỏ tương quan.

Tuy nhiên, bằng cách nào đó, các cuộc thăm dò như thế này dường như ... làm việc? Hoặc ít nhất mọi người dường như nghĩ rằng họ làm?
Nhưng tại sao họ nên? Có lẽ tôi chỉ không hiểu mẫu ? Ai đó có thể giải thích?
Tôi chỉ không thể thực hiện bất kỳ cuộc thăm dò nào mà tôi thấy nghiêm túc, nhưng tôi cảm thấy như mình ít nhiều cô đơn trong việc này ...


4
"Lấy mẫu rõ ràng có ý nghĩa đối với các nghiên cứu y học, bởi vì chúng ta biết một tiên nghiệm rằng con người đều có bộ gen khá giống nhau" Tôi không có nền tảng y học, nhưng thực sự DNA của chúng ta có khác biệt ít hơn so với quan điểm chính trị của chúng ta không? Nếu vậy, tại sao việc nghiên cứu di truyền lại khó khăn đến vậy và tại sao chúng ta không có hiểu biết đầy đủ về nó? Tôi cá rằng nếu bạn lấy hai người ngẫu nhiên thì họ sẽ có cùng quan điểm chính trị, thì cùng một DNA.
Tim

3
@Tim: "Tôi đã đặt cược rằng nếu bạn lấy hai người ngẫu nhiên thì họ sẽ có cùng quan điểm chính trị, sau đó là cùng một DNA." Bạn muốn đặt cược bao nhiêu? google.com/search?q=dna+similarity+b
between + humans

2
Nhưng không phải sự khác biệt 0,5% điều quan trọng nhất khi bạn so sánh như vậy sao? Ngoài ra, chúng tôi chia sẻ 60% gen với ruồi , vì vậy tôi đoán chúng ta có thể lấy mẫu con người và ruồi có thể trao đổi để nghiên cứu y học? So sánh: năm 2008 Obama nhận được 53% phiếu bầu trong cuộc bầu cử tổng thống Mỹ. Hơn nữa, tôi cho rằng khi nghiên cứu thuốc cứu người nhưng có khả năng gây nguy hiểm, bạn nên cẩn thận hơn trong việc lấy mẫu sau đó khi nghiên cứu về sở thích sử dụng xà phòng do công ty A so với B sản xuất hoặc cho nhóm ý kiến.
Tim

2
@ user2338816: "Thật thuyết phục bởi vì nó đã được chính xác trong lịch sử" ít giống như toán học và giống như khoa học hơn. Tôi hoàn toàn sẵn sàng mua nó trên cơ sở khoa học (vì đó là cách khoa học cuộn), nhưng không phải trên cơ sở toán học thuần túy (dựa trên bằng chứng).
dùng541686

1
Tôi thách thức tuyên bố (thận trọng) rằng các cuộc thăm dò ý kiến ​​làm việc cho các cuộc bầu cử. Tôi không nhớ các cuộc thăm dò thậm chí gần với kết quả thực tế của cuộc bầu cử nơi tôi đến. Đơn giản là có quá nhiều yếu tố bạn không thể thực sự giải thích - ví dụ, với tỷ lệ tham dự ~ 60% của chúng tôi, bạn gần như có khả năng lấy mẫu một người sẽ không bỏ phiếu hơn một người không tham gia. Tham gia vào một cuộc khảo sát ít nỗ lực hơn so với bỏ phiếu và đôi khi bạn thậm chí được trả tiền cho nó. Một số đảng có sự tham dự cao hơn nhiều so với những người khác (như đảng cộng sản). Bạn cần trích dẫn độ lệch cũng như "kết quả" trong bất kỳ lấy mẫu nào.
Luaan

Câu trả lời:


13

Có vẻ như bạn đang tưởng tượng một mô hình lấy mẫu rất đơn giản.

Mô hình đơn giản nhất để lấy mẫu được gọi là Lấy mẫu ngẫu nhiên đơn giản khéo léo . Bạn chọn một tập hợp con của dân số (ví dụ: bằng cách quay số điện thoại một cách ngẫu nhiên) và hỏi bất kỳ ai trả lời họ đang bầu chọn như thế nào. Nếu 487 nói bà Clinton, 463 nói Trump và phần còn lại cho bạn một số câu trả lời kỳ quặc, thì công ty bỏ phiếu sẽ báo cáo rằng 49% cử tri thích bà Clinton, trong khi 46% thích ông Trump. Tuy nhiên, các công ty bỏ phiếu làm nhiều hơn thế. Một mẫu ngẫu nhiên đơn giản cho trọng số bằng nhau cho mọi điểm dữ liệu. Tuy nhiên, giả sử mẫu của bạn chứa - tình cờ - 600 nam và 400 nữ, rõ ràng không phải là đại diện cho toàn bộ dân số. Nếu đàn ông như một nhóm nghiêng một chiều, trong khi phụ nữ nghiêng người khác, điều này sẽ làm sai lệch kết quả của bạn. Tuy nhiên, vì chúng tôi có số liệu thống kê nhân khẩu học khá tốt, bạn có thể cân *các câu trả lời bằng cách đếm phản ứng của phụ nữ nhiều hơn một chút và đàn ông ít hơn một chút, để phản ứng có trọng số thể hiện dân số tốt hơn. Các tổ chức bỏ phiếu có các mô hình cân phức tạp hơn có thể làm cho một mẫu không đại diện giống với mẫu đại diện hơn.

Ý tưởng về trọng số của các phản hồi được lấy mẫu là trên cơ sở thống kê khá vững chắc, nhưng có một sự linh hoạt trong việc lựa chọn yếu tố nào đóng góp cho trọng số. Hầu hết những người thăm dò ý kiến ​​làm lại dựa trên các yếu tố nhân khẩu học như giới tính, tuổi tác và chủng tộc. Vì điều này, bạn có thể nghĩ rằng cũng nên đưa vào nhận dạng đảng (Dân chủ, Cộng hòa, v.v.), nhưng hóa ra hầu hết các công ty bỏ phiếu không sử dụng nó trong các trọng số của họ: việc xác định đảng (tự) bị rối với sự lựa chọn của cử tri theo cách làm cho nó ít hữu ích hơn.

Nhiều trang phục bỏ phiếu cũng báo cáo kết quả của họ trong số "các cử tri có khả năng". Trong đó, người trả lời được lựa chọn hoặc cân nhắc dựa trên khả năng họ thực sự sẽ tham gia các cuộc thăm dò. Mô hình này chắc chắn cũng dựa trên dữ liệu, nhưng sự lựa chọn chính xác của các yếu tố cho phép một số linh hoạt. Ví dụ, bao gồm các tương tác giữa ứng cử viên và chủng tộc (hoặc giới tính) thậm chí không hợp lý cho đến năm 2008 hoặc 2016, nhưng tôi nghi ngờ họ có một số sức mạnh dự đoán ngay bây giờ.

Về lý thuyết, bạn có thể bao gồm tất cả các loại như yếu tố trọng số: sở thích âm nhạc, màu mắt, v.v. Tuy nhiên, yếu tố nhân khẩu học là lựa chọn phổ biến cho các yếu tố trọng lượng vì:

  • Theo kinh nghiệm, họ tương quan tốt với hành vi cử tri. Rõ ràng, không có luật sắt nào 'buộc' những người đàn ông da trắng phải là đảng Cộng hòa gầy gò, nhưng trong năm mươi năm qua, họ đã có xu hướng.
    • Các giá trị dân số được biết đến (ví dụ, từ điều tra dân số hoặc Hồ sơ quan trọng)

Tuy nhiên, những người thăm dò ý kiến ​​cũng thấy những tin tức tương tự mà mọi người khác làm và có thể điều chỉnh các biến trọng số nếu cần thiết.

Ngoài ra còn có một số "yếu tố gian lận" đôi khi được viện dẫn để giải thích kết quả thăm dò ý kiến. Ví dụ, người trả lời đôi khi không muốn đưa ra câu trả lời "không mong muốn về mặt xã hội". Các Bradley Hiệu lực thi hành thừa nhận rằng cử tri da trắng đôi khi hạ thấp vai trò ủng hộ cho ứng cử viên trắng chạy chống lại một thiểu số để tránh xuất hiện phân biệt chủng tộc. Nó được đặt theo tên của Tom Bradley, một ứng cử viên đội trưởng người Mỹ gốc Phi, người đã thua cuộc trong cuộc bầu cử mặc dù đã dẫn đầu một cách thoải mái trong các cuộc thăm dò.

Cuối cùng, bạn hoàn toàn chính xác rằng chính hành động hỏi ý kiến ​​của ai đó có thể thay đổi nó. Các công ty bỏ phiếu cố gắng viết câu hỏi của họ một cách trung lập. Để tránh các vấn đề với thứ tự phản hồi có thể xảy ra, tên của các ứng cử viên có thể được liệt kê theo thứ tự ngẫu nhiên. Nhiều phiên bản của một câu hỏi đôi khi cũng được kiểm tra lẫn nhau. Hiệu ứng này cũng có thể được khai thác cho các kết thúc bất chính trong một cuộc thăm dò dư luận , trong đó người phỏng vấn không thực sự quan tâm đến việc thu thập các câu trả lời mà ảnh hưởng đến họ. Ví dụ: một cuộc thăm dò ý kiến ​​có thể hỏi "Bạn có bầu cho [Ứng cử viên A] ngay cả khi được báo cáo rằng anh ta là một kẻ lạm dụng tình dục trẻ em không?".


* Bạn cũng có thể đặt mục tiêu rõ ràng cho mẫu của mình, như bao gồm 500 nam và 500 nữ. Điều này được gọi là lấy mẫu phân tầng - dân số được phân tầng thành các nhóm khác nhau và mỗi nhóm sau đó được lấy mẫu ngẫu nhiên. Trong thực tế, điều này không được thực hiện thường xuyên cho các cuộc thăm dò, bởi vì bạn cần phân tầng thành nhiều nhóm đầy đủ (ví dụ: những người đàn ông có trình độ đại học từ 18-24 ở Urban Texas).


2
Tôi chắc chắn hiểu rằng họ không thực hiện lấy mẫu ngẫu nhiên đơn giản, nhưng câu hỏi của tôi là liệu những gì họ đang làm có tốt chỉ vì điều đó xảy ra rằng các giả định của họ là đúng (nghĩa là linh cảm hợp lý nhưng chủ quan), hoặc liệu các giả định đó có phải là thống kê hay không chính đáng Xem bình luận của tôi về câu trả lời khác ở đây .
dùng541686

3
Cả hai, tôi nghĩ. Trọng số mẫu là điều chính xác về mặt thống kê để làm, nhưng có .... linh hoạt trong việc quyết định cách chọn yếu tố nào đi vào trọng số. Ví dụ, chủng tộc, giới tính và giáo dục đều hữu ích, nhưng hóa ra nhận dạng đảng thường không (ví dụ: theguardian.com/commentisfree/2012/sep/27/ ,), có lẽ vì nó gắn liền với ứng cử viên của cử tri sự lựa chọn
Matt Krause

1
Tương tự, các trọng số đôi khi bao gồm một ước tính về khả năng người được hỏi bỏ phiếu: những người trẻ tuổi gây ra nhiều tiếng ồn, nhưng không phải lúc nào cũng xuất hiện; người cao tuổi hiếm khi tham dự các cuộc mít tinh nhưng lại xuất hiện đáng tin cậy tại các cuộc thăm dò. Điều này có thể được ước tính từ dữ liệu lịch sử (cuộn cử tri đôi khi được công khai), nhưng tôi có thể tưởng tượng một số nơi đã điều chỉnh nó cho người Mỹ gốc Phi năm 2008 và cho phụ nữ vào năm 2016.
Matt Krause

Cảm ơn! Có thể là tốt để đề cập rằng "linh hoạt" trong câu trả lời của bạn quá :) 1
user541686

10

Có một định lý toán học gọi là "định luật số lượng lớn". Hãy tưởng tượng rằng bạn muốn xác định xác suất mà một đồng xu sẽ xuất hiện. "Dân số" của các đồng xu lật là vô cùng - lớn hơn nhiều so với hơn 300.000.000 người ở Hoa Kỳ. Nhưng theo Luật số lớn, bạn càng thực hiện nhiều đồng xu, ước tính của bạn sẽ càng chính xác.

Cuộc thăm dò lý tưởng: Trong cuộc thăm dò lý tưởng, những người thăm dò ý kiến ​​sẽ chọn ngẫu nhiên tên từ Điều tra dân số Hoa Kỳ, họ sẽ tìm ra nơi những người đó sống, sau đó họ sẽ đi và gõ cửa. Nếu người đó nói họ đang lên kế hoạch bỏ phiếu, người thăm dò hỏi họ đang bầu cho ai và ghi lại câu trả lời của họ. Bỏ phiếu như thế này được đảm bảo về mặt toán học để hoạt động và số lượng lỗi trong phép đo của bạn cho bất kỳ mức độ tin cậy nhất định có thể được tính dễ dàng .

Đây là lỗi có nghĩa là gì: Giả sử dựa trên cuộc thăm dò ý kiến ​​của bạn, bạn đã nhận thấy rằng có một cơ hội 52% Ứng viên Awesome McPerinf sẽ giành chiến thắng, với sai số 3% với độ tin cậy 98%. Điều đó có nghĩa là bạn có thể tin tưởng 98% rằng phần cử tri thực sự ủng hộ ứng cử viên Awesome McPerinf nằm trong khoảng từ 49% đến 55%.

Lưu ý về Lỗi và Độ tin cậy Đối với một cỡ mẫu nhất định, bạn càng tự tin, lỗi của bạn sẽ càng lớn. Hãy suy nghĩ về điều đó - bạn tin tưởng 100% rằng tỷ lệ thực sự hỗ trợ candited Awesome nằm trong khoảng từ 0% đến 100% (hầu hết có thể xảy ra lỗi) và bạn tin tưởng 0% rằng tỷ lệ thực sự hỗ trợ candited Awesome chính xác là 52,0932840985028390984308% (không có lỗi). Tự tin hơn có nghĩa là nhiều lỗi hơn, ít tự tin hơn có nghĩa là ít lỗi hơn. Tuy nhiên, mối quan hệ giữa sự tự tin và lỗi là KHÔNG tuyến tính! (Xem: https://en.wikipedia.org/wiki/Confidence_interval )

Thăm dò ý kiến ​​trong thế giới thực: Bởi vì rất tốn kém khi những người thăm dò máy bay trực thăng ra khắp mọi miền đất nước để gõ cửa những người ngẫu nhiên (mặc dù tôi rất muốn thấy điều đó xảy ra; nếu bạn là tỷ phú và bạn thấy điều này, xin vui lòng xem xét tài trợ này), các cuộc thăm dò trong thế giới thực phức tạp hơn. Hãy xem xét một trong những chiến lược phổ biến hơn - kêu gọi cử tri ngẫu nhiên và hỏi họ xem họ sẽ bầu cho ai. Đó là một chiến lược tốt, nhưng nó có một số thất bại được biết đến nhiều:

  1. Mọi người thường chọn không trả lời điện thoại và trả lời người gây ô nhiễm (ví dụ: tôi)
  2. Một số nhân khẩu học có nhiều khả năng có điện thoại cố định (ví dụ: cử tri lớn tuổi)
  3. Một số nhân khẩu học có nhiều khả năng phản ứng với những người bỏ phiếu (ví dụ như cử tri lớn tuổi)

Do các nhân khẩu học khác nhau bỏ phiếu theo những cách khác nhau, những người thăm dò ý kiến ​​phải cố gắng hết sức để kiểm soát sự khác biệt trong dữ liệu thô của họ (dựa trên người quyết định trả lời điện thoại) và kết quả của các cuộc bầu cử thực tế. Ví dụ: nếu 10% số người nhấc điện thoại là người gốc Tây Ban Nha, nhưng 30% cử tri trong cuộc bầu cử vừa qua là người gốc Tây Ban Nha, thì họ sẽ tăng gấp ba lần trọng lượng cho cử tri gốc Tây Ban Nha trong cuộc thăm dò của họ. Nếu 50% số người trả lời điện thoại đã trên 60 tuổi, nhưng chỉ 30% số người bỏ phiếu trong cuộc bầu cử trước đã hơn 60 tuổi, họ sẽ giảm cân cho những cử tri lớn tuổi hơn trả lời. Nó không hoàn hảo, nhưng nó có thể dẫn đến một số dự đoán ấn tượng (Nate Silver dự đoán chính xác kết quả ở mỗi 50 bang trong cuộc bầu cử năm 2012 bằng cách sử dụng số liệu thống kê,

Một lời cảnh báo cho người khôn ngoan: Những người gây ô nhiễm đưa ra những dự đoán tốt nhất mà họ có thể dựa trên cách mọi thứ diễn ra trong quá khứ. Nói chung , mọi thứ diễn ra giống như hiện tại giống như họ đã làm trong quá khứ, hoặc ít nhất là sự thay đổi đủ chậm để quá khứ gần đây (mà họ tập trung nhiều nhất) sẽ giống với hiện tại. Tuy nhiên, đôi khi có những thay đổi nhanh chóng trong cuộc bầu cử và mọi thứ đi sai. Có thể các cử tri của Trump ít có khả năng trả lời điện thoại trung bình của bạn hơn một chút và trọng số của nhân khẩu học không tính đến điều đó. Hoặc có thể những người trẻ tuổi (những người ủng hộ Hillary) thậm chí còn nhiều hơnkhông thể trả lời điện thoại hơn các mô hình dự đoán và những người trả lời điện thoại có nhiều khả năng là người cộng hòa. Hoặc có lẽ ngược lại với cả hai là đúng - chúng ta không biết. những thứ như thế là những biến ẩn không xuất hiện trong nhân khẩu học thường được thu thập.

Chúng tôi sẽ biết nếu chúng tôi gửi những người gây ô nhiễm đến gõ cửa ngẫu nhiên (ahem, tỷ tỷ tưởng tượng đọc được điều này), kể từ đó chúng tôi sẽ không phải cân nhắc mọi thứ dựa trên nhân khẩu học, nhưng cho đến lúc đó, ngón tay vượt qua.


3
Tôi đánh giá cao câu trả lời, nhưng nó hơi cơ bản một chút so với câu hỏi tôi đang cố gắng hỏi và lý lịch của tôi (không chắc bạn có để ý không, nhưng tôi không hoàn toàn mới đối với những điều cơ bản về xác suất / thống kê); Tôi không nghĩ câu trả lời cho câu hỏi của tôi ở đây là cơ bản như của bạn. Ví dụ: một giả định cho luật cổ điển của một số lượng lớn là chúng ta có các biến ngẫu nhiên với phân bố giống hệt nhau ... nhưng tôi không thấy một biện minh cho nó trong một bối cảnh chính trị: tại sao nên sự phân bố bạn đưa vào lá phiếu của tôi và của bạn được giống nhau ở tất cả ?
dùng541686

Ngoài ra, tôi thậm chí không chắc chắn luật của số lượng lớn biện minh cho điều bạn đang cố gắng biện minh ngay cả khi các giả định của nó được thỏa mãn. Câu hỏi là về kích thước mẫu mà luật số lượng lớn không thực sự giải quyết (ít nhất là không theo kiểu bạn đề xuất); chúng ta cần một số khái niệm về phương sai hoặc tốc độ hội tụ ở đây, không chỉ là sự hội tụ của giá trị trung bình ở vô cực. Có lẽ bạn có ý định gọi định lý giới hạn trung tâm hơn là định luật số lượng lớn? (Mặc dù vui lòng xem nhận xét trước đây của tôi vì đây có thể là tranh luận.)
user541686 7/11/2016

2
Phân phối không được áp dụng cho phiếu bầu cá nhân. Phiếu bầu cá nhân không ngẫu nhiên. Chúng được áp dụng cho toàn bộ hành vi bỏ phiếu của dân chúng. Nó giống như vẽ các quả bóng màu từ một chiếc bình - mỗi quả bóng được xác định trước là màu đỏ hoặc màu xanh lam, nhưng bạn có thể có xác suất vẽ từng màu và do đó bạn có thể tạo một bản phân phối cho khả năng vẽ một màu bóng nhất định dựa trên mẫu của những quả bóng trong chiếc bình
J. Antonio Perez

1
Hãy nhìn vào một cái gì đó khác hơn là chính trị với mọi người. Hương vị kem yêu thích của ai đó phụ thuộc vào nhiều thứ như quan điểm chính trị của họ. Nó có thể phụ thuộc vào sở thích của bạn bè, những kỷ niệm đẹp thời thơ ấu của họ, những trải nghiệm tốt hay xấu tại cửa hàng kem. Có lẽ họ thích một hương vị vì họ đã có nó trong buổi hẹn hò đầu tiên với vợ hoặc chồng. Có lẽ họ không thích một hương vị bởi vì nó nhắc nhở họ về người yêu cũ. Nhưng nếu tôi tham gia một cuộc thăm dò ngẫu nhiên người ở Mỹ, bạn có đồng ý rằng tôi có thể đánh giá hương vị kem yêu thích hàng đầu ở Mỹ không?
J. Antonio Perez

1
"Biến ngẫu nhiên" là người được người thăm dò chọn để hỏi sở thích của họ. Sở thích của một cá nhân không phải là ngẫu nhiên; cá nhân mà người thăm dò chọn là ngẫu nhiên.
J. Antonio Perez

7

Thứ nhất, đây là ngoài những điểm chính của bạn nhưng nó đáng được đề cập. Trong thử nghiệm y tế, bạn có thể có 1000 người thử nghiệm một loại thuốc có thể được cung cấp cho 10000 người bị bệnh hàng năm. Bạn có thể nhìn vào đó và nghĩ rằng "Điều đó đã được thử nghiệm trên 10% dân số", thực tế dân số không phải là 10000 người, tất cả bệnh nhân trong tương lai nên quy mô dân số là vô hạn. 1000 người không lớn so với những người sử dụng thuốc tiềm năng vô hạn nhưng các loại nghiên cứu này hoạt động. Không quan trọng bạn kiểm tra 10%, 1% hay 0,1% dân số; Điều quan trọng là kích thước tuyệt đối của mẫu không lớn như thế nào so với dân số.

Tiếp theo, điểm chính của bạn là có rất nhiều biến số gây nhiễu có thể ảnh hưởng đến việc bỏ phiếu của mọi người. Bạn đang đối xử với 22000 quận của California như 22000 biến nhưng thực sự chúng chỉ là một số biến (thu nhập và giáo dục như bạn đã đề cập). Bạn không cần một mẫu đại diện từ mỗi quận, bạn chỉ cần đủ mẫu để trang trải sự thay đổi do thu nhập, giáo dục, ect.

kknnσ2nkkσ2n

kn

Biên tập:

Công thức trên đã giả định rằng mỗi biến gây nhiễu đều quan trọng như nhau. Nếu chúng tôi muốn xem xét hàng trăm điều có thể làm thay đổi kết quả thì giả định này không hợp lệ (ví dụ: có thể người dùng twitter hỗ trợ thêm một ứng cử viên, nhưng chúng tôi biết rằng việc sử dụng twitter không quan trọng bằng giới tính).

σ20.9σ20.92σ2n=0σ20.9n=10σ2 .

Với kiểu xem xét cho các biến số nhỏ, chúng tôi đã kết thúc với phương sai với 10 lần biến thiên của giới tính. Vì vậyn10σ2n0,9


Cảm ơn câu trả lời! Về điểm đầu tiên, tôi đoán đó là sự thật, nhưng quan điểm của tôi là nó thậm chí không quan trọng kích thước của dân số con người vì bạn có yếu tố cưỡng bức (DNA, v.v.) sẽ làm cho kết quả khá giống nhau bất kỳ mẫu. Tuy nhiên, về vấn đề thứ hai: tôi có thể mua rằng có thể có một vài biến trong thực tế, nhưng cách duy nhất để biện minh cho giả định đó về mặt toán học và sử dụng nó sau này là thực sự lấy mẫu một số lượng lớn người trước và chứng minh điều đó, phải không? Không có điều đó, kết luận không còn có vẻ nghiêm ngặt về mặt thống kê hay chính đáng.
dùng541686

Chúng tôi đã thiết lập bằng thí nghiệm rằng tuổi tác, giới tính, thu nhập và một vài yếu tố khác là yếu tố chính trong mô hình bỏ phiếu của mọi người và chúng tôi cũng biết điều này chỉ từ kiến ​​thức chung. Bạn đúng rằng có thể có hàng trăm yếu tố nhỏ khác ảnh hưởng đến phiếu bầu và về lý thuyết họ có thể bổ sung vào một điều gì đó quan trọng nhưng kiến ​​thức chung của chúng tôi cho chúng ta biết rằng chúng không quan trọng. Tại thời điểm này, người mẫu không được biện minh nghiêm ngặt nhưng ai sẽ kiểm tra các yếu tố nhỏ như "Việc tóc vàng có khiến mọi người bỏ phiếu cho bà Clinton không? Việc đội tóc giả có khiến mọi người bỏ phiếu cho Trump không?".
Hugh

"nhưng ai sẽ kiểm tra các yếu tố nhỏ như [...]" - nhưng đó là vấn đề ở đây. Nếu câu trả lời là "vì đó là tốt nhất chúng ta thực tế có thể làm / bởi vì nó chỉ như vậy xảy đến làm việc / vì nó tốn kém khác / etc.", Đó là một câu trả lời hoàn toàn tốt đẹp cho câu hỏi của "Tại sao không phải họ bỏ phiếu 100.000 người? ", Nhưng nó không thực sự là một câu trả lời cho" Làm thế nào 1.000 người có thể được thống kê chính đáng? ". Đó là lý do tại sao tôi hỏi điều này trên Stats.SE trái ngược với Chính trị.SE ... Tôi không quan tâm nếu nhiều mẫu hơn là không thực tế; Câu hỏi của tôi là tại sao mọi người nghĩ rằng các phương pháp hiện tại là hợp lý thống kê.
dùng541686

Tuy nhiên, một vài câu đầu tiên trong bình luận cuối cùng dường như là một câu trả lời hợp lý, nếu bạn nói rằng loại nghiên cứu đó đã được thực hiện trên quy mô lớn (~ hàng trăm ngàn nếu không phải là hàng triệu người) và đó là nền tảng của các giả định của chúng tôi. Nếu vậy, tôi nghĩ rằng họ nên được thêm vào câu trả lời của bạn vì họ giải quyết mấu chốt của câu hỏi của tôi (lý tưởng với một số trích dẫn, mặc dù tôi thực sự không quá kén chọn vì nó hơi rắc rối và đây không phải là Chính trị. ).
dùng541686

Bạn đúng khi kiểm tra các yếu tố nhỏ là không thực tế nhưng có liên quan đến toán học. Tôi đã chỉnh sửa câu trả lời của mình để đưa ra một số lý do về lý do tại sao chúng tôi không quan tâm đến hàng trăm yếu tố nhỏ ảnh hưởng đến kết quả. Tôi chắc rằng bạn có thể tìm thấy nghiên cứu được thực hiện về ảnh hưởng của yếu tố chính.
Hugh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.