Sự khác biệt giữa dân số và mẫu là gì?


38

Sự khác biệt giữa dân số và mẫu là gì? Những biến số và thống kê phổ biến nào được sử dụng cho từng loại và làm thế nào để chúng liên quan đến nhau?


Câu trả lời:


36

Dân số là tập hợp các thực thể đang nghiên cứu. Ví dụ, chiều cao trung bình của nam giới. Đây là một dân số giả thuyết bởi vì nó bao gồm tất cả những người đàn ông đã sống, đang sống và sẽ sống trong tương lai. Tôi thích ví dụ này bởi vì nó lái xe về nhà mà chúng tôi, với tư cách là nhà phân tích, chọn dân số mà chúng tôi muốn nghiên cứu. Thông thường, không thể khảo sát / đo lường toàn bộ dân số vì không phải tất cả các thành viên đều có thể quan sát được (ví dụ như những người đàn ông sẽ tồn tại trong tương lai). Nếu có thể liệt kê toàn bộ dân số, việc này thường rất tốn kém và sẽ mất rất nhiều thời gian. Trong ví dụ trên, chúng ta có một dân số "đàn ông" và một thông số quan tâm, chiều cao của họ.

Thay vào đó, chúng ta có thể lấy một tập hợp con của dân số này được gọi là mẫu và sử dụng mẫu này để rút ra những suy luận về dân số đang nghiên cứu, với một số điều kiện. Do đó, chúng ta có thể đo chiều cao trung bình của nam giới trong một mẫu dân số mà chúng ta gọi là thống kê và sử dụng số liệu này để rút ra những suy luận về thông số quan tâm trong dân số. Đó là một suy luận bởi vì sẽ có một số sự không chắc chắn và không chính xác liên quan đến việc đưa ra kết luận về dân số dựa trên một mẫu. Điều này là hiển nhiên - chúng tôi có ít thành viên trong mẫu hơn dân số của chúng tôi do đó chúng tôi đã mất một số thông tin.

Có nhiều cách để chọn một mẫu và nghiên cứu về điều này được gọi là lý thuyết lấy mẫu. Một phương pháp thường được sử dụng được gọi là Lấy mẫu ngẫu nhiên đơn giản (SRS). Trong SRS, mỗi thành viên của dân số có xác suất được đưa vào mẫu bằng nhau, do đó thuật ngữ "ngẫu nhiên". Có nhiều phương pháp lấy mẫu khác, ví dụ lấy mẫu phân tầng, lấy mẫu cụm, v.v ... tất cả đều có ưu điểm và nhược điểm.

Điều quan trọng cần nhớ là mẫu chúng ta rút ra từ dân số chỉ là một trong số lượng lớn các mẫu tiềm năng. Nếu mười nhà nghiên cứu đều nghiên cứu về cùng một quần thể, tự vẽ mẫu thì họ có thể có được câu trả lời khác nhau. Trở lại ví dụ trước đây của chúng tôi, mỗi trong số mười nhà nghiên cứu có thể đưa ra chiều cao trung bình khác nhau của nam giới, nghĩa là thống kê trong câu hỏi (chiều cao trung bình) khác nhau của mẫu - mẫu có phân phối gọi là phân phối mẫu. Chúng ta có thể sử dụng phân phối này để hiểu sự không chắc chắn trong ước tính của chúng tôi về tham số dân số.

Phân phối mẫu của giá trị trung bình mẫu được biết là phân phối chuẩn với độ lệch chuẩn bằng độ lệch chuẩn mẫu chia cho kích thước mẫu. Bởi vì điều này có thể dễ dàng bị nhầm lẫn với độ lệch chuẩn của mẫu, nên phổ biến hơn để gọi độ lệch chuẩn của phân phối mẫu là lỗi tiêu chuẩn .


7
Không phải là một chút vô nghĩa khi sử dụng "tất cả đàn ông" như một dân số sao? Ý tôi là, thậm chí không có sự đồng thuận nào về việc homo sapiens bao nhiêu tuổi , hay liệu homo neanderthalensis là một loài riêng biệt, chứ đừng nói đến việc con đực của công cụ đá sử dụng homo habilis có được coi là "đàn ông" hay không. Có lẽ những vấn đề tương tự cũng sẽ đối mặt với chúng ta trong tương lai.
ness101

Trong đoạn cuối, tôi nghĩ rằng có một chút khó khăn và nó nên đọc ... "bằng độ lệch chuẩn mẫu chia cho [căn bậc hai] của cỡ mẫu" liên quan đến lỗi tiêu chuẩn .
Antoni Parellada

13

Dân số là toàn bộ tập hợp các giá trị hoặc cá nhân mà bạn quan tâm. Mẫu là tập hợp con của dân số và là tập hợp các giá trị bạn thực sự sử dụng trong ước tính của mình.

Vì vậy, ví dụ, nếu bạn muốn biết chiều cao trung bình của cư dân Trung Quốc, đó là dân số của bạn, tức là dân số Trung Quốc. Vấn đề là, đây là một con số khá lớn và bạn sẽ không thể lấy dữ liệu cho mọi người ở đó. Vì vậy, bạn vẽ một mẫu, nghĩa là bạn có được một số quan sát hoặc chiều cao của một số người ở Trung Quốc (một tập hợp dân số, mẫu) và suy luận của bạn dựa trên đó.


Câu trả lời tốt. Tôi nghĩ bạn nên đi sâu hơn vào ý của bạn bằng cách "thực hiện suy luận của bạn dựa trên điều đó". Đó là phần thứ hai trong câu hỏi của tôi.
Baltimark

mmm ... Tôi không thực sự hiểu ý của bạn về các biến và thống kê phổ biến là gì ... Ồ, ý bạn là bạn sử dụng phân phối z nếu bạn có phương sai dân số và phân phối t nếu bạn chỉ có phương sai mẫu và cỡ mẫu nhỏ? Một cái gì đó dọc theo những dòng?
Vivi

Những gì tôi đã nhận được là giá trị trung bình và độ lệch chuẩn là các tham số liên quan đến dân số, nhưng chúng được ước tính theo giá trị trung bình mẫu ((1 / N) * \ sum (x_i)) và độ lệch chuẩn mẫu ((1 / ( N-1)) * \ sum (x_i - x ^ bar) ^ 2).
Baltimark

8

Dân số là tất cả mọi thứ trong nhóm nghiên cứu. Ví dụ: nếu bạn đang nghiên cứu giá cổ phiếu của Apple, thì đó là giá cổ phiếu trong quá khứ, hiện tại và thậm chí là trong tương lai. Hoặc, nếu bạn điều hành một nhà máy trứng, đó là tất cả những quả trứng được sản xuất bởi nhà máy.

Bạn không phải luôn luôn lấy mẫu và làm các bài kiểm tra thống kê. Nếu dân số của bạn là gia đình sống ngay lập tức của bạn, bạn không cần phải lấy mẫu vì dân số nhỏ.

Lấy mẫu là phổ biến vì nhiều lý do:

  • nó rẻ hơn so với điều tra dân số (lấy mẫu toàn bộ dân số)
  • bạn không có quyền truy cập vào dữ liệu trong tương lai, vì vậy phải lấy mẫu quá khứ
  • bạn phải phá hủy một số vật phẩm bằng cách kiểm tra chúng và không muốn phá hủy tất cả chúng (giả sử, trứng)

2

Khi chúng ta nghĩ về thuật ngữ dân số, thì chúng ta thường nghĩ về những người trong thị trấn, vùng, tiểu bang hoặc quốc gia của họ và các đặc điểm tương ứng của họ như giới tính, tuổi tác, tình trạng hôn nhân, thành viên dân tộc, tôn giáo, v.v. Trong thống kê, thuật ngữ dân số cộng đồng có nghĩa là hơi khác một chút. Dân số trong các số liệu thống kê, bao gồm tất cả các thành viên của một nhóm xác định mà chúng tôi đang nghiên cứu hoặc thu thập thông tin về các quyết định dựa trên dữ liệu.

Một phần của dân số được gọi là một mẫu. Nó là một tỷ lệ dân số, một lát cắt của nó, một phần của nó và tất cả các đặc điểm của nó. Một mẫu là một nhóm được vẽ một cách khoa học thực sự có các đặc điểm giống như dân số - nếu nó được rút ngẫu nhiên. (Điều này có thể khiến bạn khó tin, nhưng đó là sự thật!)

Các mẫu được rút ngẫu nhiên phải có hai đặc điểm:

* Mọi người đều có cơ hội như nhau để được chọn cho mẫu của bạn; và,

* Lựa chọn một người là độc lập với lựa chọn của một người khác.

Điều tuyệt vời về các mẫu ngẫu nhiên là bạn có thể khái quát hóa cho dân số mà bạn quan tâm. Vì vậy, nếu bạn lấy mẫu 500 hộ gia đình trong cộng đồng của mình, bạn có thể khái quát cho 50.000 hộ gia đình sống ở đó. Nếu bạn khớp một số đặc điểm nhân khẩu học của 500 với 50.000, bạn sẽ thấy rằng chúng giống nhau một cách đáng ngạc nhiên.


2
Điều này về cơ bản là chính xác, nếu giải thích đúng. Tôi lo lắng rằng một số độc giả có thể bị nhầm lẫn khi nghĩ rằng các mẫu ngẫu nhiên đơn giản với sự thay thế (đó là loại mẫu ngẫu nhiên mà bạn mô tả; có các loại khác) tái tạo chính xác tất cả các đặc điểm của dân số. Trong thực tế, họ hiếm khi làm. Điểm lấy mẫu ngẫu nhiên là sự khác biệt (không thể tránh khỏi) giữa các đặc điểm của mẫu và đặc điểm của dân số có thể được quy cho quá trình chọn ngẫu nhiên.
whuber

0

Một quần thể bao gồm tất cả các yếu tố từ một tập hợp dữ liệu. Một mẫu bao gồm một hoặc nhiều quan sát từ dân số. BOA, A. (2012, 17)


2
Khi tất cả các yếu tố của một "tập hợp dữ liệu" được coi là một dân số, bộ dữ liệu đó được gọi là điều tra dân số. Vô cùng ít bộ dữ liệu là cuộc tổng điều tra.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.