Trong một cuộc bầu cử, làm thế nào chúng ta có thể nói chắc chắn rằng một ứng cử viên sẽ là người chiến thắng?


14

Có một cuộc tổng tuyển cử nơi tôi sống hôm qua và mạng lưới truyền hình bắt đầu kêu gọi những người chiến thắng từ lâu trước khi tất cả các lá phiếu được mở.

Họ bật ra ngay trên tất cả các tài khoản, và tôi không thực sự ngạc nhiên họ đã làm. Tôi biết rằng số liệu thống kê là hoàn toàn khả thi. Tuy nhiên, tôi tò mò. Giả định:

  • chúng tôi đã mở ra khỏi lá phiếu j ;ij
  • chúng tôi có thí sinh có điểm số hiện tại là ;nc1,c2,c3,...cn

Làm thế nào chúng ta có thể tính toán sự chắc chắn mà ứng cử viên hàng đầu là người chiến thắng?


1
Hãy nhớ rằng họ thường có quyền truy cập vào dữ liệu bỏ phiếu rộng rãi và các dữ liệu khác mà họ có thể sử dụng để dự đoán kết quả. Họ chỉ cần đủ xác nhận từ số lượng đến để đảm bảo rằng chúng không bị mất dấu do lỗi lấy mẫu. Chắc chắn có những phức tạp liên quan và số lượng đến nói chung là một mẫu thiên vị, nhưng các cuộc thăm dò ý kiến ​​đi một chặng đường dài hướng tới việc giúp họ giải quyết một số vấn đề đó.
gung - Phục hồi Monica

1
Nếu "với sự chắc chắn" có nghĩa là được thực hiện theo nghĩa đen, thì số liệu thống kê có thể (gần như?) Không bao giờ trả lời một câu hỏi "một cách chắc chắn". Nhưng chúng tôi có thể đưa ra câu trả lời với mức độ tin cậy cao rằng câu trả lời sẽ đúng. (Nói cách khác, nếu chúng ta có được dữ liệu của chúng tôi và làm những phân tích của chúng tôi một cách chính xác, chúng ta có thể nói những câu như, "Câu trả lời của tôi chỉ sẽ là sai lầm về x% thời gian.")
Emil Friedman

Câu trả lời:


14

Khó khăn chính trong thực tế không phải là sự không chắc chắn về mặt thống kê rằng một chuỗi may mắn sẽ mang lại cho một ứng cử viên nhiều phiếu hơn. Khó khăn chính, theo một mức độ lớn hơn hoặc nhiều hơn, là các lá phiếu đã được mở hầu như không bao giờ là một mẫu không thiên vị của các phiếu bầu. Nếu bạn bỏ qua hiệu ứng này, bạn sẽ gặp phải lỗi nổi tiếng "Dewey đánh bại Truman" , xảy ra với một mẫu sai lệch lớn.

Trong thực tế, các cử tri ủng hộ một ứng cử viên này so với một ứng cử viên khác không được phân bổ theo khu vực, bằng cách họ làm việc vào ban ngày hay bằng cách họ sẽ được triển khai ở nước ngoài do đó sẽ bỏ phiếu bằng cách bỏ phiếu kín. Đây là những khác biệt không nhỏ.

Tôi nghĩ những gì các tổ chức tin tức làm bây giờ là chia dân số thành các nhóm và sử dụng kết quả để ước tính cách mỗi nhóm bỏ phiếu (bao gồm cả kết quả bỏ phiếu). Những điều này có thể dựa trên các mô hình và các giả định trước dựa trên các cuộc bầu cử trước đó, không chỉ là dữ liệu từ cuộc bầu cử này. Những điều này có thể không tính đến những điều kỳ lạ như những lá phiếu bướm của Palm Beach.


3
Ở Úc cho đến khoảng 10 - 15 năm trước, các đảng bảo thủ thường bắt đầu mạnh mẽ trong thời gian đầu, với các đảng tiến bộ trở lại muộn. Các mạng truyền hình có thể biết những gì đang xảy ra, nhưng sự thay đổi có thể được thực hiện cho nhiều bộ phim truyền hình hơn. Tất cả đã thay đổi khi một nhà phân tích tên Antony Green bắt đầu sử dụng gian hàng theo kết quả gian hàng để giải thích cho thực tế rằng các gian hàng nhỏ ở khu vực nông thôn có xu hướng hoàn thành công việc của họ và kết quả sớm, và họ có xu hướng bỏ phiếu thận trọng hơn. Antony nổi tiếng gọi một cách chính xác một kết quả bầu cử hàng giờ trước khi bất cứ ai khác sử dụng điều này.
Bogdanovist

1
Gian hàng theo kết quả gian hàng từ các năm trước có thể được sử dụng để hiệu chỉnh rất chính xác các ước tính của tổng kết quả.
Peter Ellis

@DoumundZare Tôi nghĩ bạn có nghĩa là các lá phiếu hiện đang mở không phải là một mẫu ngẫu nhiên.
Michael R. Chernick

1
@Michael Chernick: Sự khác biệt giữa mẫu không ngẫu nhiên và mẫu sai lệch là gì? vi.wikipedia.org/wiki/Sampling_bias dường như sử dụng chúng làm từ đồng nghĩa.
Douglas Zare

1
@DoumundZare Tôi thấy từ liên kết của bạn rằng wikipedia sử dụng mẫu thiên vị làm từ đồng nghĩa cho không ngẫu nhiên. Tôi nghĩ rằng đó là một sự lựa chọn kém. Xu hướng chung đề cập đến kỳ vọng của một người ước tính không bằng giá trị thực của tham số. Trong bối cảnh lấy mẫu, một mẫu không ngẫu nhiên không ngụ ý sai lệch cho một ước tính cụ thể. Nó có thể hoặc không thể dẫn đến sai lệch.
Michael R. Chernick

0

Trong khảo sát lấy mẫu, sai số chuẩn của ước tính tỷ lệ là cần thiết. Nó phụ thuộc nhiều vào tôi hơn j. Ngoài ra, nó yêu cầu các lá phiếu mở i được chọn ngẫu nhiên. Nếu p là tỷ lệ cuối cùng thực sự cho ứng viên A, thì phương sai của ước tính là

(1-Tôij)p(1-p)Tôi

(1-Tôij)được gọi là hệ số hiệu chỉnh dân số hữu hạn. Để ước tính phương sai này, ước tính thông thường cho p được thay thế cho p trong công thức. Các lỗi tiêu chuẩn được nhận bằng cách lấy căn bậc hai. Để dự đoán người chiến thắng, người bỏ phiếu có thể sử dụng ước tính cộng hoặc trừ 3 lỗi tiêu chuẩn. Nếu 0,5 không có trong khoảng, thì Ứng viên A được tuyên bố là người chiến thắng nếu 0,5 dưới giới hạn dưới hoặc đối thủ của anh ta được tuyên bố là người chiến thắng nếu 0,5 vượt quá giới hạn trên. Tất nhiên điều này chỉ nói với sự tự tin rất cao ai là người chiến thắng sẽ trong trường hợp 0,5 nằm ngoài khoảng. Mức độ tin cậy là 0,99 nếu ba lỗi tiêu chuẩn là những gì bạn sử dụng (dựa trên xấp xỉ bình thường với nhị thức). Nếu 0,5 nằm trong khoảng thời gian, không ai được tuyên bố là người chiến thắng và người bỏ phiếu chờ thêm dữ liệu để tích lũy.

Khi thực hiện dự đoán, những người thăm dò ý kiến ​​có thể chọn một mẫu ngẫu nhiên phân tầng từ số phiếu tích lũy để tránh sai lệch tiềm năng xảy ra nếu một người nhìn vào tất cả các phiếu bầu được tính. Vấn đề với việc xem xét tất cả các phiếu bầu tích lũy là các khu vực nhất định hoàn thành việc đếm so với những người khác và họ có thể không đại diện cho dân số.

Bài viết ở đây cung cấp bảo hiểm tốt của vấn đề và nhiều tài liệu tham khảo.

Nó đã được chỉ ra rằng phiếu bầu tích lũy có thể cung cấp các ước tính tỷ lệ sai lệch bởi vì các khu vực chưa được báo cáo là các khu vực có xu hướng ủng hộ đảng với ứng cử viên đang theo dõi hoặc bỏ phiếu kín có khả năng ủng hộ ứng cử viên đang theo dõi và những phiếu bầu được tính cuối cùng. Những người gây ô nhiễm tinh vi như Harris và Gallup không rơi vào những cái bẫy như vậy. Phân tích đơn giản về xây dựng khoảng tin cậy dựa trên số phiếu tích lũy mà tôi đã vạch ra chỉ là một yếu tố được sử dụng. Những người thăm dò ý kiến ​​có rất nhiều thông tin theo ý của họ. Họ có các cuộc thăm dò được thực hiện ngay trước cuộc bầu cử và họ có các mẫu biểu quyết của tất cả các khu bầu cử và phiếu bầu vắng mặt được thực hiện trong các cuộc bầu cử trong những năm gần đây.

Vì vậy, nếu có những thành kiến ​​rõ ràng có thể xoay chuyển một cuộc bầu cử chặt chẽ theo hướng ngược lại, những người bỏ phiếu sẽ nhận ra điều này và giữ dự phóng một người chiến thắng.

Ở Mỹ, những lá phiếu vắng mặt chủ yếu đến từ quân đội ở nước ngoài và những sinh viên đại học đang ở trường xa nhà. Trong khi quân đội có thể có xu hướng bảo thủ hơn và có khả năng bỏ phiếu cho đảng Cộng hòa, các sinh viên dòng dõi có xu hướng tự do hơn và có khả năng bỏ phiếu Dân chủ. Tất cả những cân nhắc này được đưa vào tài khoản.

Sự quan tâm và tinh tế của việc bỏ phiếu hiện đại là lý do mà các lỗi thô thiển như cuộc thăm dò ý kiến ​​văn học năm 1936 hay sự nhượng bộ sớm của tờ báo Chicago về cuộc bầu cử năm 1948 cho Dewey đã không xảy ra kể từ đó.


2
Mặc dù sự tương tự ngầm với lấy mẫu khảo sát là thích hợp, nhưng câu hỏi này không thêm các yếu tố phức tạp? Đầu tiên là khả năng có nhiều hơn hai ứng cử viên. Thứ hai là đây là một vấn đề quyết định liên tiếp : không giống như người bỏ phiếu, người thường chỉ định kích thước cuộc thăm dò và đưa ra một quyết định dựa trên mẫu, tại mỗi thời điểm, mạng có một mẫu đang phát triển và phải quyết định nên gọi cuộc bầu cử hay chờ thêm thông tin. Các ứng dụng khảo sát mà bạn trích dẫn ở đây dường như không thể áp dụng cho tình huống năng động này. Và tại sao mạng sẽ sử dụng 3 SE? (Danh tiếng của nó đang bị đe dọa.)
whuber

1
@whuber Tôi đồng ý rằng có những biến chứng có thể không được xem xét trong thực tế. Tôi đã chọn cho đơn giản một trường hợp hai ứng cử viên trong đó phần lớn là một chiến thắng. Tôi nghĩ rằng đây là tình huống mà OP đã nghĩ đến. Chiến thắng theo số nhiều với ba ứng cử viên trở lên sẽ liên quan đến việc cho thấy "ứng cử viên chiến thắng có tỷ lệ cao hơn đối thủ của mình. Chắc chắn nếu bạn thực hiện cuộc thăm dò nhiều hơn một lần tính chất tuần tự của việc lấy mẫu. Tôi không chắc chắn rằng đúng vậy.
Michael R. Chernick

1
Sự lựa chọn 3 SE của tôi là vì tôi nghĩ những người thăm dò ý kiến ​​muốn "rất chắc chắn" rằng họ đúng trước khi tuyên bố người chiến thắng. Do đó tôi nghĩ rằng 3 sẽ được sử dụng trên 2. Nếu bạn muốn có rủi ro lỗi nhỏ hơn nữa, bạn có thể tăng cao hơn 3. Tôi đã sử dụng công thức cho lỗi tiêu chuẩn để cung cấp cho OP ý tưởng về mức độ chắc chắn phụ thuộc vào tôi và j một cách đơn giản. Để làm phức tạp tình hình sẽ làm cho kết quả phức tạp hơn và sự phụ thuộc I i và j sẽ không được nhìn thấy rõ ràng.
Michael R. Chernick

2
(1) Điều quan trọng cần lưu ý đây không phải là một cuộc thăm dò: đó là cuộc bầu cử thực sự ("đã có một cuộc tổng tuyển cử ..."). (2) Tham chiếu đến "n" thay vì 2cho thấy sự quan tâm trong các cuộc bầu cử nhiều ứng cử viên. (3) Một sự phức tạp nghiêm trọng khác xảy ra với tôi: trong một cuộc bầu cử, "dân số" bao gồm tất cả các lá phiếu. Trước khi tất cả được mở, mạng chỉ có thể ước tính số lượng phiếu bầu. Điều đó không gây khó khăn (nếu không thể) áp dụng hệ số hiệu chỉnh dân số hữu hạn?
whuber

3
Vì tôi đang nhận được một số downvote, liệu ai đó sẽ giải thích sự biện minh cho nó?
Michael R. Chernick
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.