Làm thế nào để tạo mẫu đại diện từ một bộ dữ liệu tổng thể lớn?

10

Các kỹ thuật thống kê để tạo ra một bộ mẫu, đại diện cho toàn bộ dân số (với mức độ tin cậy đã biết) là gì?

Cũng thế,

Làm thế nào để xác nhận, nếu mẫu phù hợp với tập dữ liệu tổng thể?
Có thể, mà không phân tích toàn bộ dữ liệu (có thể là hàng tỷ hồ sơ)?

sampling sample-size validation

— Mohit Ranka
nguồn

8

Nếu bạn không muốn phân tích toàn bộ tập dữ liệu thì có lẽ bạn không thể sử dụng lấy mẫu phân tầng , vì vậy tôi khuyên bạn nên lấy một mẫu ngẫu nhiên đơn giản lớn . Bằng cách lấy một mẫu ngẫu nhiên , trung bình bạn đảm bảo rằng mẫu sẽ đại diện cho toàn bộ tập dữ liệu và các biện pháp thống kê tiêu chuẩn về độ chính xác như sai số chuẩn và khoảng tin cậy sẽ cho bạn biết khả năng ước tính mẫu của bạn có thể vượt xa vì vậy, không có nhu cầu thực sự để xác nhận rằng một mẫu là đại diện cho dân số trừ khi bạn có một số lo ngại thực sự được lấy mẫu một cách ngẫu nhiên.

Làm thế nào lớn một mẫu ngẫu nhiên đơn giản? Chà, mẫu càng lớn, ước tính của bạn sẽ càng chính xác. Vì bạn đã có dữ liệu, các phép tính kích thước mẫu thông thường không thực sự có thể áp dụng - bạn cũng có thể sử dụng càng nhiều dữ liệu của mình càng tốt cho máy tính. Trừ khi bạn có kế hoạch thực hiện một số phân tích phức tạp sẽ khiến thời gian tính toán trở thành một vấn đề, một cách tiếp cận đơn giản là làm cho mẫu ngẫu nhiên đơn giản lớn đến mức có thể được phân tích trên PC của bạn mà không dẫn đến phân tranghoặc các vấn đề bộ nhớ khác. Một nguyên tắc nhỏ là giới hạn kích thước của tập dữ liệu của bạn không quá một nửa RAM máy tính của bạn để có không gian để thao tác và để lại không gian cho HĐH và có thể là một vài ứng dụng nhỏ khác (như trình chỉnh sửa và trình duyệt web ). Một hạn chế khác là các hệ điều hành Windows 32 bit sẽ không cho phép không gian địa chỉ cho bất kỳ ứng dụng nào lớn hơn byte = 2.1GB, vì vậy nếu bạn đang sử dụng Windows 32 bit, 1GB có thể là một giới hạn hợp lý về kích thước của một tập dữ liệu. $2^{31}$

Sau đó, đây là vấn đề của một số số học đơn giản để tính toán số lượng quan sát bạn có thể lấy mẫu dựa trên số lượng biến bạn có cho mỗi quan sát và mỗi biến số chiếm bao nhiêu byte.

— trên đỉnh
nguồn

Cảm ơn câu trả lời của bạn. Tôi đoán tôi đang tìm kiếm mẫu phân tầng. (Tôi đang tìm kiếm các thuật toán, mà không phải tính toán rất tốn kém, như không phân tích toàn bộ dân số, để thực hiện một bộ đại diện, thậm chí không có ý nghĩa :-).)

— Mohit Ranka

2

Trước câu hỏi thứ hai của bạn, bạn có thể hỏi, "dữ liệu được nhập như thế nào?" Nếu bạn nghĩ rằng dữ liệu được nhập theo cách tương đối độc đoán (nghĩa là độc lập với bất kỳ đặc điểm có thể quan sát hoặc không quan sát được nào của các quan sát của bạn có thể ảnh hưởng đến phân tích cuối cùng của bạn bằng cách sử dụng dữ liệu), thì bạn có thể xem xét 5 triệu đầu tiên, tuy nhiên, hoặc nhiều bạn cảm thấy thoải mái khi làm việc với tư cách là đại diện của mẫu đầy đủ và chọn ngẫu nhiên từ nhóm này để tạo một mẫu mà bạn có thể làm việc cùng.

Để so sánh hai phân phối theo kinh nghiệm, bạn có thể sử dụng qq-lô và thử nghiệm không tham số KolmogorovTHER Smirnov hai mẫu cho sự khác biệt trong phân phối (xem, ví dụ: tại đây: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Trong trường hợp này, bạn sẽ kiểm tra phân phối của từng biến trong mẫu của bạn so với phân phối của biến đó trong bộ dữ liệu "đầy đủ" của bạn (một lần nữa, nó có thể chỉ là 5 triệu quan sát từ mẫu đầy đủ của bạn). Thử nghiệm KS có thể bị ảnh hưởng bởi công suất thấp (nghĩa là khó từ chối giả thuyết không có sự khác biệt giữa các nhóm), nhưng, với nhiều quan sát đó, bạn sẽ ổn thôi.

— Charlie
nguồn