Tính toán động số lượng mẫu cần thiết để ước tính giá trị trung bình


9

Tôi đang cố gắng ước tính giá trị trung bình của phân phối Gaussian nhiều hơn hoặc ít hơn thông qua lấy mẫu. Tôi không có kiến ​​thức trước về ý nghĩa hoặc phương sai của nó. Mỗi mẫu là đắt tiền để có được. Làm cách nào để tôi tự động quyết định có bao nhiêu mẫu tôi cần để có được mức độ tin cậy / chính xác nhất định? Ngoài ra, làm thế nào để tôi biết khi nào tôi có thể ngừng lấy mẫu?

Tất cả các câu trả lời cho các câu hỏi như thế này mà tôi có thể tìm thấy dường như có một số kiến ​​thức về phương sai, nhưng tôi cũng cần khám phá điều đó trên đường đi. Những người khác đang hướng tới việc tham gia các cuộc thăm dò ý kiến ​​và tôi không rõ ràng (người mới bắt đầu là tôi) làm thế nào mà khái quát hóa - ý tôi không phải là w / in [0,1], v.v.

Tôi nghĩ rằng đây có lẽ là một câu hỏi đơn giản với một câu trả lời nổi tiếng, nhưng Google-fu của tôi đang làm tôi thất vọng. Thậm chí chỉ cần cho tôi biết những gì cần tìm kiếm sẽ hữu ích.


Bất kỳ lý do tại sao bạn đánh dấu này là CW? Câu hỏi dường như đủ cụ thể để cho phép một câu trả lời đúng và do đó không nên là CW.

1
@josh không sao đâu. Tôi chỉ tò mò về sự lựa chọn của bạn.

1
Google "lấy mẫu thích ứng" và "lấy mẫu liên tiếp". Nếu bạn vẫn bị mắc kẹt, hãy đưa "Wald" làm từ khóa và sau đó tiếp tục sử dụng (ví dụ: xem các bài viết tham khảo công việc của Wald về lấy mẫu liên tiếp, sau đó xem các bài viết tham khảo chúng, v.v.).
whuber

1
@Rulk McKilliam: Nhưng bạn sử dụng dữ liệu nào? Câu hỏi này xuất hiện trước khi bất kỳ dữ liệu đã được thu thập. Nếu bạn thu thập từng giá trị một lần và tính toán CI sau mỗi lần thêm mới vào tập dữ liệu, bạn không thể sử dụng các công thức tiêu chuẩn cho các khoảng thời gian do nhiều so sánh tương quan bạn đang thực hiện. Do đó, bạn cần một quy tắc dừng tối ưu hóa tổng rủi ro thống kê của công cụ ước tính của bạn và chi phí thu thập từng mẫu bổ sung.
whuber

1
@ xin cảm ơn! Tôi vẫn đang tiêu hóa tài liệu, nhưng tôi nghĩ rằng đây chính xác là những gì tôi đang tìm kiếm. Nếu đây là một câu trả lời, tôi sẽ chấp nhận nó ...
Josh Bleecher Snyder

Câu trả lời:


2

Bạn cần tìm kiếm 'thiết kế thích nghi Bayes'. Ý tưởng cơ bản là như sau:

  1. Bạn khởi tạo trước cho các tham số quan tâm.

    Trước khi thu thập dữ liệu, các linh mục của bạn sẽ được khuếch tán. Khi dữ liệu bổ sung xuất hiện, bạn đặt lại trước thành dữ liệu tương ứng với dữ liệu 'trước + cho đến thời điểm đó'.

  2. Thu thập dữ liệu.

  3. Tính toán các hậu thế dựa trên dữ liệu + linh mục. Sau đó, phần sau được sử dụng làm bước trước trong bước 1 nếu bạn thực sự thu thập dữ liệu bổ sung.

  4. Đánh giá xem tiêu chí dừng của bạn có được đáp ứng không

    ±ε

Sau đó, bạn lặp lại các bước 1, 2 và 3 cho đến khi các tiêu chí dừng của bạn từ bước 4 được đáp ứng.


0

Thông thường bạn sẽ muốn ít nhất 30 để gọi định lý giới hạn trung tâm (mặc dù điều này hơi tùy tiện). Không giống như trong trường hợp với các cuộc thăm dò, v.v., được mô hình hóa bằng phân phối nhị thức, bạn không thể xác định kích thước mẫu trước để đảm bảo mức độ chính xác với quy trình Gaussian - nó phụ thuộc vào số dư mà bạn nhận được để xác định lỗi tiêu chuẩn.

Cần lưu ý rằng nếu bạn có một chiến lược lấy mẫu mạnh mẽ, bạn có thể nhận được kết quả chính xác hơn nhiều so với cỡ mẫu lớn hơn nhiều với chiến lược kém.


3
Tại sao người ta cần phải gọi CLT khi lấy mẫu từ một phân phối Gaussian đã biết (hoặc giả định)? Giá trị trung bình của một mẫu sẽ được phân phối bình thường!
whuber

Điểm tốt! Không RTQ đúng cách.
James
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.