Khoảng tin cậy so với cỡ mẫu?

Tôi hoàn toàn mới đối với các số liệu thống kê và lĩnh vực khoảng tin cậy. Vì vậy, điều này có thể rất tầm thường hoặc thậm chí âm thanh ngu ngốc. Tôi sẽ đánh giá cao nếu bạn có thể giúp tôi hiểu hoặc chỉ cho tôi một số tài liệu / văn bản / blog giải thích điều này tốt hơn.

Tôi thấy trên các trang tin tức khác nhau như CNN, Fox news, Politico, v.v. về các cuộc thăm dò của họ về cuộc đua Tổng thống Hoa Kỳ 2012. Mỗi cơ quan tiến hành một số cuộc thăm dò và báo cáo một số thống kê của mẫu:

CNN: Mức độ phổ biến của Obama là X% với tỷ lệ sai số +/- x1%. Cỡ mẫu 600. FOX: Mức độ phổ biến của Obama là Y% với tỷ lệ sai số +/- y1%. Cỡ mẫu 800. XYZ: Mức độ phổ biến của Obama là Z% với tỷ lệ sai số +/- z1%. Cỡ mẫu 300.

Đây là những nghi ngờ của tôi:

Làm thế nào để tôi quyết định tin tưởng cái nào? Có nên dựa trên khoảng tin cậy hay tôi nên cho rằng vì Fox có cỡ mẫu lớn hơn, nên ước tính của nó đáng tin cậy hơn? Có một mối quan hệ ngầm giữa độ tin cậy và kích thước mẫu sao cho chỉ định cái này làm giảm nhu cầu chỉ định cái kia không?
Tôi có thể xác định độ lệch chuẩn từ khoảng tin cậy không? Nếu vậy, nó có hợp lệ luôn luôn hay chỉ hợp lệ đối với các bản phân phối nhất định (như Gaussian)?
Có cách nào để tôi có thể "hợp nhất" hoặc "kết hợp" ba ước tính trên và có được ước tính của riêng mình cùng với khoảng tin cậy không? Tôi nên yêu cầu cỡ mẫu nào trong trường hợp đó?

Tôi đã chỉ đề cập đến CNN / Fox để giải thích rõ hơn về ví dụ của tôi. Tôi không có ý định bắt đầu một cuộc tranh luận của đảng Dân chủ và Cộng hòa ở đây.

Xin hãy giúp tôi hiểu những vấn đề mà tôi đã nêu ra.

confidence-interval sample-size

— Nik
nguồn

Câu trả lời:

Ngoài câu trả lời tuyệt vời của Peter, đây là một số câu trả lời cho các câu hỏi cụ thể của bạn:

Ai tin tưởng cũng sẽ phụ thuộc vào người đang thực hiện cuộc thăm dò ý kiến và nỗ lực của họ để có được cuộc thăm dò chất lượng tốt. Kích thước mẫu lớn hơn sẽ không tốt hơn nếu mẫu không đại diện, thực hiện một cuộc thăm dò lớn, nhưng chỉ trong một, trạng thái không xoay sẽ không cho kết quả rất tốt.

Có một mối quan hệ giữa kích thước mẫu và chiều rộng của khoảng tin cậy, nhưng những thứ khác cũng ảnh hưởng đến chiều rộng, chẳng hạn như tỷ lệ phần trăm gần với 0, 1 hoặc 0,5; những điều chỉnh sai lệch nào đã được sử dụng, cách thức lấy mẫu (phân cụm, phân tầng, v.v.). Nguyên tắc chung là độ rộng của khoảng tin cậy sẽ tỷ lệ với , vì vậy để giảm một nửa khoảng thời gian bạn cần gấp 4 lần kích thước mẫu. $\frac{1}{\sqrt{n}}$
Nếu bạn biết đủ về cách thu thập mẫu và công thức nào được sử dụng để tính khoảng thời gian thì bạn có thể giải quyết độ lệch chuẩn (bạn cũng cần biết mức độ tin cậy được sử dụng, thường là 0,05). Nhưng công thức là khác nhau cho các mẫu phân tầng so với mẫu cụm. Ngoài ra hầu hết các cuộc thăm dò nhìn vào tỷ lệ phần trăm, vì vậy sẽ sử dụng phân phối nhị thức.
Có nhiều cách để kết hợp thông tin, nhưng nhìn chung bạn sẽ cần biết điều gì đó về cách các mẫu được thu thập, hoặc sẵn sàng đưa ra một số dạng giả định về cách các khoảng thời gian được xây dựng. Một cách tiếp cận Bayes là một cách.

— Greg tuyết
nguồn

+1. Nhưng triển vọng cho # 3 thực sự quá ảm đạm hay khó khăn? Nếu tôi có một tập hợp các ước tính độc lập, mỗi ước tính có một lỗi sai riêng, tại sao tôi không thể (ít nhất là đại khái) kết hợp chúng theo cách thông thường (như một trung bình có trọng số, được cân bằng nghịch với các MoE bình phương) và kết hợp các lỗi tiêu chuẩn của chúng như tốt (sử dụng công thức phương sai)? Nó sẽ không hoàn hảo, nhưng nó tốt hơn là chọn một cuộc thăm dò để dựa vào, phải không?

— whuber

Cảm ơn Greg! Tôi đánh giá cao câu trả lời của bạn. Bạn đã đề cập trong câu trả lời của mình cho câu hỏi 3 rằng "Cách tiếp cận Bayes là một cách". Bạn có thể chỉ cho tôi một số tài liệu cung cấp thêm thông tin về điều này?

— Nik

@whuber: Cảm ơn bình luận của bạn. Đó là những gì tôi đã nghĩ làm. Bạn có nghĩ rằng việc kết hợp những ước tính này theo cách này là hợp lý? Có thể không hoàn toàn, nhưng đến một mức độ lớn?

— Nik

@whuber, tôi không có ý vẽ nó ảm đạm, chỉ để đảm bảo rằng người đăng đã nhận thức được và có thể sống với những giả định cần thiết.

— Greg Snow

@Nik, có rất nhiều hướng dẫn trên web về thống kê Bayes. Một cách tiếp cận đơn giản (giả định rằng các mẫu đều là các mẫu ngẫu nhiên đơn giản hoặc thiết kế khảo sát sao cho giả định SRS không còn xa) sẽ bắt đầu với phiên bản beta trước, sau đó sử dụng từng cuộc thăm dò với khả năng nhị thức cập nhật và nhận được một hậu thế mới. Một điều thú vị về phương pháp Bayes là bạn có thể giảm hiệu quả của các nghiên cứu trước đây nếu bạn không muốn chúng có ảnh hưởng nhiều như cuộc thăm dò gần đây nhất.

— Greg Snow

Đây là một chủ đề lớn, nhưng về cơ bản có hai vấn đề:

1) Độ chính xác - điều này được xác định bởi cỡ mẫu. Các mẫu lớn hơn cho các ước tính chính xác hơn với sai số chuẩn thấp hơn và khoảng tin cậy chặt chẽ hơn

2) Xu hướng - mà, trong thống kê, không nhất thiết phải có ý nghĩa tiêu cực như ở nơi khác. Trong các cuộc thăm dò, họ cố gắng lấy một mẫu ngẫu nhiên của XXXX (đôi khi có thể là cử tri, đôi khi là cử tri đã đăng ký). Nhưng, họ không. Một số cuộc thăm dò chỉ sử dụng đường đất. Các nhóm người khác nhau ít nhiều có khả năng trả lời. Các nhóm khác nhau ít nhiều có khả năng chỉ cúp máy.

Vì vậy, tất cả những người bỏ phiếu cân nhắc phản ứng của họ. Đó là, họ cố gắng điều chỉnh kết quả của mình để phù hợp với sự thật đã biết về cử tri. Nhưng tất cả họ làm điều đó một chút khác nhau. Vì vậy, ngay cả với cùng một dữ liệu đầu vào bỏ phiếu, họ sẽ đưa ra các số khác nhau.

Ai tin tưởng? Chà, nếu bạn nhìn vào công việc của Nate Silver vào năm 538, anh ta có những đánh giá về mức độ chính xác của những người gây ô nhiễm trong các cuộc bầu cử trước đó. Nhưng điều đó không có nghĩa là chúng sẽ chính xác như nhau bây giờ.

— Peter Flom
nguồn

Cảm ơn Peter. Vì vậy, một ước tính với biên sai số thấp hơn là 'chính xác'. Có cách nào để biết mức độ sai lệch của nó chỉ từ tỷ lệ lỗi X% +/- x1% không? Tôi đoán điều đó là không thể trừ khi bạn biết sở thích của từng mẫu, phải không?

— Nik

Vâng đúng vậy. Tất nhiên, một số người thăm dò ý kiến đã biết thành kiến (theo hướng này hay hướng khác). Các cuộc thăm dò nội bộ (được điều hành bởi một bên hoặc bên kia) thường bị sai lệch. Một cách họ có thể làm điều này là bằng cách thực hiện một số cuộc thăm dò và chỉ phát hành những cuộc thăm dò thuận lợi. Sau đó, toàn bộ vấn đề "thăm dò ý kiến" trong đó các câu hỏi về một ứng cử viên được mở đầu bằng các câu hỏi tiêu cực về anh ấy hoặc cô ấy.

— Peter Flom

Điều này rơi vào khu vực lấy mẫu khảo sát. Về nguyên tắc các phương pháp hoạt động vì ngẫu nhiên được sử dụng. Dưới đây là những điều có thể khác nhau trong các cuộc thăm dò dựa trên các quyết định chủ quan.

Lấy mẫu khung. Tôi nên rút mẫu từ cử tri nào?
Làm thế nào để tôi xử lý sự biến động của cử tri chưa quyết định, người có thể thay đổi quan điểm của ông về Obama vs Romney dựa trên cuộc thăm dò ngày hôm qua hoặc tuần tới?
Peter đã chạm vào thiên vị. Cuộc thăm dò tiêu hóa văn học năm 1936 là một thảm họa. Nó chọn ứng cử viên Đảng Cộng hòa trên FDR vì khung lấy mẫu dựa trên lựa chọn ngẫu nhiên các số điện thoại. Năm 1936 chỉ có tầng lớp trung lưu thượng lưu và những người giàu có có điện thoại. Nhóm đó bị chi phối bởi những người Cộng hòa có xu hướng bỏ phiếu cho ứng cử viên Cộng hòa. Roosevelt giành chiến thắng sau một trận lở đất nhận được phiếu bầu của ông từ những người nghèo và tầng lớp trung lưu có xu hướng trở thành một nhóm rất nhiều đảng Dân chủ! Điều đó minh họa cho sự thiên vị do sự lựa chọn kém tinh tế của khung lấy mẫu.
Khảo sát lấy mẫu khảo sát với dân số hữu hạn. Kích thước quần thể là N. Nói một mẫu ngẫu nhiên đơn giản được rút ra từ quần thể đó và có kích thước n. Để đơn giản, giả sử chỉ có Obama và Romney đang chạy. Tỷ lệ phiếu bầu mà Obama sẽ nhận được cho khung lấy mẫu này là trung bình của các biến nhị phân (nói 1 nếu người trả lời chọn Obama và 0 cho Romney). Phương sai của trung bình mẫu cho biến này là [p (1-p) / n] [Nn] / N trong đó p là tỷ lệ dân số thực sự sẽ chọn Obama. [Nn] / N là hiệu chỉnh dân số hữu hạn. trong hầu hết các cuộc thăm dò N lớn hơn N và chính xác có thể bỏ qua. Nhìn vào p (1-p) / n, chúng ta thấy phương sai đi xuống với n. Vì vậy, nếu n lớn, khoảng tin cậy ở một mức độ tin cậy nhất định sẽ trở nên nhỏ.

Những người gây ô nhiễm khác lấy mẫu khảo sát và thống kê tại Cục điều tra dân số Hoa Kỳ đều có những công cụ thống kê này và họ thực hiện các phương pháp phức tạp và chính xác hơn (lấy mẫu ngẫu nhiên theo cụm và lấy mẫu ngẫu nhiên phân tầng để đề cập đến một vài phương pháp).

Khi các giả định mô hình hóa của chúng là hợp lệ, các phương thức hoạt động rất tốt. Bỏ phiếu là một ví dụ điển hình. Vào ngày bầu cử, bạn sẽ thấy các mạng chiến thắng dự án chính xác ở hầu hết mọi tiểu bang từ lâu trước khi tính gần cuối cùng. Đó là bởi vì sự thay đổi ngày trước khi kết thúc đã biến mất. Họ biết về mặt lịch sử cách mọi người có xu hướng bỏ phiếu và họ có thể xác định các khu vực được chọn theo cách tránh sự thiên vị. Các mạng đôi khi khác nhau. Điều này có thể là do một cuộc thi để chọn người chiến thắng trước tâm lý của người khác. Trong một số trường hợp hiếm hoi cũng có thể là do cuộc bỏ phiếu cực kỳ gần (ví dụ Bầu cử Tổng thống năm 2000 tại Florida).

Tôi hy vọng điều này cung cấp cho bạn một hình ảnh rõ ràng hơn về những gì đang diễn ra. Chúng ta không còn thấy những sai lầm thô thiển như "Dewey đánh bại Truman" vào năm 1948 hay thất bại tiêu hóa văn học năm 1936. Nhưng thống kê không hoàn hảo và các nhà thống kê không bao giờ có thể nói rằng họ chắc chắn.

— Michael R. Chernick
nguồn

Cảm ơn vì lời giải thích chi tiết. Điều này thực sự có ích!

— Nik

Chúng ta không còn thấy những sai lầm thô thiển? Vậy bà đã thắng năm 2016 phải không? Tôi lấy những ẩn số đã biết của bạn và nuôi bạn một con thiên nga đen . Giống như cha tôi thường nói, "Đó là những gì bạn không biết sẽ giết chết bạn."

— Carl

Câu trả lời của tôi không liên quan gì đến bà Clinton và cuộc bầu cử năm 2016 có nhiều vấn đề lạ. (1) Sự can thiệp của Nga, (2) Clinton đã giành được phiếu phổ thông và (3) một số cử tri của Trump đã tỏ ra thận trọng khi thừa nhận rằng họ sẽ bỏ phiếu cho Trump. Có lẽ tôi nên thêm rằng các cuộc thăm dò ý kiến có thể sai khi cử tri đi bầu không như mong đợi.

— Michael R. Chernick