Tôi cảm thấy hai câu hỏi. Một về kích thước mẫu (25%, tại sao không phải là đa số) và một về kỹ thuật lấy mẫu (có thực sự ngẫu nhiên, lấy mẫu ngẫu nhiên 25% trên toàn bộ công ty, lấy mẫu ngẫu nhiên 25% ở mỗi bộ phận hoặc sử dụng một số phân phối khác).
1) Cỡ mẫu không cần phải chiếm đa số. Cỡ mẫu yêu cầu có thể là bất cứ thứ gì trong khoảng từ 0 đến 100% tùy thuộc vào độ chính xác cần thiết cho tỷ lệ tin cậy hoặc khả năng nhất định.
Không bao giờ chắc chắn 100% (cũng không phải với tập hợp con 50% hoặc lớn hơn). Đạt được độ chính xác cao như vậy cũng không phải là điểm lấy mẫu và ước tính.
Xem thêm về kích thước mẫu: https://en.wikipedia.org/wiki/Sample_size_determination
Nếu bạn có luật số lượng lớn, bạn cũng có thể có một ý tưởng trực quan.
Phân phối trung bình của tất cả các tập hợp con có thể (và mẫu của bạn sẽ là một trong số chúng), sẽ trở nên nhỏ hơn và gần với giá trị trung bình của phân phối ban đầu, nếu kích thước của tập hợp con tăng. Nếu bạn chọn một người thì có một số cơ hội hợp lý mà bạn tìm thấy một ngoại lệ, nhưng để tìm ra một ngoại lệ tương tự theo cùng một hướng hai lần sẽ trở nên ít khả năng hơn. Và như vậy, kích thước của tập hợp con được lấy mẫu càng lớn thì cơ hội của một tập hợp con đặc biệt càng nhỏ.
n
Lưu ý quan trọng! Ước tính của bạn sẽ không phụ thuộc vào quy mô dân số mà bạn lấy mẫu, mà phụ thuộc vào sự phân bố dân số đó.
Trong trường hợp của bộ phận kích thước 500 của bạn. Độ lệch trung bình của các tập con ngẫu nhiên (có kích thước 125) sẽ nhỏ hơn 11 lần so với độ lệch ban đầu. Lưu ý rằng sai số trong phép đo (độ lệch trung bình của các tập hợp con được chọn ngẫu nhiên), không phụ thuộc vào kích thước của bộ phận. Nó có thể là 500, 5000 hoặc 50000, trong mọi trường hợp, ước tính sẽ không bị ảnh hưởng miễn là chúng có cùng phân phối (bây giờ một bộ phận nhỏ có thể có một số phân phối lạ, nhưng nó bắt đầu biến mất cho các nhóm lớn hơn).
2) Việc lấy mẫu không cần phải hoàn toàn ngẫu nhiên. Bạn có thể đưa nhân khẩu học vào tài khoản.
Cuối cùng, bạn sẽ đối xử với từng bộ phận riêng biệt trong loại này phân tích và chính xác cho các biến thể trong các phòng ban và làm thế nào bạn đã lấy mẫu trong đó, khác nhau có kích thước, các phòng ban.
Trong sự điều chỉnh này có hai điểm khác biệt quan trọng. Người ta có thể giả sử phân phối giữa các nhóm là một biến ngẫu nhiên hoặc không. Nếu bạn coi nó như một biến ngẫu nhiên thì phân tích trở nên mạnh mẽ hơn (lấy ra một số mức độ tự do trong mô hình) nhưng có thể là một giả định sai nếu các nhóm khác nhau không thể trao đổi thành các thực thể ngẫu nhiên không có hiệu ứng cụ thể (dường như là trường hợp của bạn, như tôi tưởng tượng rằng các phòng ban có chức năng khác nhau và có thể có tình cảm khác nhau rộng rãi không phải là ngẫu nhiên trong mối quan hệ với bộ phận).