Nếu bạn không muốn phân tích toàn bộ tập dữ liệu thì có lẽ bạn không thể sử dụng lấy mẫu phân tầng , vì vậy tôi khuyên bạn nên lấy một mẫu ngẫu nhiên đơn giản lớn . Bằng cách lấy một mẫu ngẫu nhiên , trung bình bạn đảm bảo rằng mẫu sẽ đại diện cho toàn bộ tập dữ liệu và các biện pháp thống kê tiêu chuẩn về độ chính xác như sai số chuẩn và khoảng tin cậy sẽ cho bạn biết khả năng ước tính mẫu của bạn có thể vượt xa vì vậy, không có nhu cầu thực sự để xác nhận rằng một mẫu là đại diện cho dân số trừ khi bạn có một số lo ngại thực sự được lấy mẫu một cách ngẫu nhiên.
Làm thế nào lớn một mẫu ngẫu nhiên đơn giản? Chà, mẫu càng lớn, ước tính của bạn sẽ càng chính xác. Vì bạn đã có dữ liệu, các phép tính kích thước mẫu thông thường không thực sự có thể áp dụng - bạn cũng có thể sử dụng càng nhiều dữ liệu của mình càng tốt cho máy tính. Trừ khi bạn có kế hoạch thực hiện một số phân tích phức tạp sẽ khiến thời gian tính toán trở thành một vấn đề, một cách tiếp cận đơn giản là làm cho mẫu ngẫu nhiên đơn giản lớn đến mức có thể được phân tích trên PC của bạn mà không dẫn đến phân tranghoặc các vấn đề bộ nhớ khác. Một nguyên tắc nhỏ là giới hạn kích thước của tập dữ liệu của bạn không quá một nửa RAM máy tính của bạn để có không gian để thao tác và để lại không gian cho HĐH và có thể là một vài ứng dụng nhỏ khác (như trình chỉnh sửa và trình duyệt web ). Một hạn chế khác là các hệ điều hành Windows 32 bit sẽ không cho phép không gian địa chỉ cho bất kỳ ứng dụng nào lớn hơn byte = 2.1GB, vì vậy nếu bạn đang sử dụng Windows 32 bit, 1GB có thể là một giới hạn hợp lý về kích thước của một tập dữ liệu.231
Sau đó, đây là vấn đề của một số số học đơn giản để tính toán số lượng quan sát bạn có thể lấy mẫu dựa trên số lượng biến bạn có cho mỗi quan sát và mỗi biến số chiếm bao nhiêu byte.