Làm thế nào để phân phối mẫu của mẫu có nghĩa là gần đúng dân số có nghĩa là gì?


16

Tôi đang cố gắng học thống kê vì tôi thấy rằng nó phổ biến đến mức nó cấm tôi học một số thứ nếu tôi không hiểu đúng. Tôi gặp khó khăn trong việc hiểu khái niệm này về phân phối mẫu của phương tiện mẫu. Tôi không thể hiểu cách một số sách và trang web đã giải thích nó. Tôi nghĩ rằng tôi có một sự hiểu biết nhưng không chắc chắn nếu nó chính xác. Dưới đây là nỗ lực của tôi để hiểu nó.

Khi chúng ta nói về một số hiện tượng có một phân phối bình thường, nó thường (không phải luôn luôn) liên quan đến dân số.

Chúng tôi muốn sử dụng số liệu thống kê suy luận để dự đoán một số nội dung về một số dân, nhưng không có tất cả dữ liệu. Chúng tôi sử dụng lấy mẫu ngẫu nhiên và mỗi mẫu có kích thước n đều có khả năng được chọn như nhau.

Vì vậy, chúng tôi lấy rất nhiều mẫu, giả sử 100 và sau đó phân phối phương tiện của các mẫu đó sẽ xấp xỉ bình thường theo định lý giới hạn trung tâm. Giá trị trung bình của phương tiện mẫu sẽ xấp xỉ trung bình dân số.

Bây giờ điều tôi không hiểu là rất nhiều lần bạn thấy "Một mẫu gồm 100 người" Chúng ta sẽ không cần 10 hay 100 mẫu của 100 người để ước tính dân số trung bình? Hay đó là trường hợp chúng ta có thể lấy một mẫu đủ lớn, nói 1000 và sau đó nói nghĩa đó sẽ gần đúng với dân số? HOẶC chúng tôi lấy một mẫu 1000 người và sau đó lấy 100 mẫu ngẫu nhiên 100 người trong mỗi mẫu từ 1000 người ban đầu mà chúng tôi đã lấy và sau đó sử dụng đó làm xấp xỉ?

Có phải lấy một mẫu đủ lớn để xấp xỉ giá trị trung bình (gần như) luôn hoạt động không? Có phải dân số thậm chí cần phải bình thường để làm việc này?

Câu trả lời:


9

Tôi nghĩ rằng bạn có thể nhầm lẫn phân phối mẫu dự kiến ​​của một giá trị trung bình (mà chúng ta sẽ tính toán dựa trên một mẫu) với quy trình (thường là giả thuyết) mô phỏng những gì sẽ xảy ra nếu chúng ta lặp đi lặp lại mẫu từ cùng một quần thể nhiều lần.

Đối với bất kỳ kích thước mẫu nhất định (thậm chí n = 2), chúng tôi sẽ nói rằng giá trị trung bình của mẫu (từ hai người) ước tính trung bình dân số. Nhưng độ chính xác của ước tính - nghĩa là, chúng tôi đã thực hiện tốt công việc ước tính dân số như thế nào dựa trên dữ liệu mẫu của chúng tôi, như được phản ánh trong lỗi tiêu chuẩn của giá trị trung bình - sẽ kém hơn so với khi chúng tôi có 20 hoặc 200 người trong mẫu của chúng tôi. Điều này là tương đối trực quan (các mẫu lớn hơn cho độ chính xác ước tính tốt hơn).

Sau đó, chúng tôi sẽ sử dụng sai số chuẩn để tính khoảng tin cậy, trong đó (trong trường hợp này) dựa trên phân phối chuẩn (có thể chúng tôi sẽ sử dụng phân phối t trong các mẫu nhỏ do độ lệch chuẩn của dân số thường bị đánh giá thấp trong một mẫu nhỏ, dẫn đến lỗi tiêu chuẩn quá lạc quan.)

Để trả lời cho câu hỏi cuối cùng của bạn, không phải lúc nào chúng tôi cũng không cần dân số phân phối thông thường để áp dụng các phương pháp ước tính này - định lý giới hạn trung tâm chỉ ra rằng phân phối lấy mẫu của một giá trị trung bình (ước tính, một lần nữa, từ một mẫu duy nhất) sẽ có xu hướng tuân theo phân phối bình thường ngay cả khi dân số cơ bản có phân phối không bình thường. Điều này thường thích hợp cho cỡ mẫu "lớn hơn".

Phải nói rằng, khi bạn có một dân số không bình thường mà bạn đang lấy mẫu, giá trị trung bình có thể không phải là một thống kê tóm tắt thích hợp, ngay cả khi phân phối lấy mẫu cho giá trị trung bình đó có thể được coi là đáng tin cậy.


Vì vậy, về cơ bản tôi chỉ quá nôn nao trong việc tìm hiểu nền tảng lý thuyết này về cách thức một số công cụ này hoạt động? Là điều thú vị thực sự ở đây khoảng tin cậy? Nói cách khác, nếu tôi muốn xuất bản một nghiên cứu về giả sử số giờ người trưởng thành trung bình ở Mỹ ngủ và tôi lấy mẫu 5.000 và khoảng tin cậy của tôi là 99,9%, trung bình là từ 6,46 đến 6,54 thì tôi có thể đi phía trước và công bố nghiên cứu của tôi nói rằng "tự tin" rằng trung bình của người trưởng thành ở Mỹ ngủ 6,5 giờ?
sáp nhập

2
Nơi bạn nói: " nói" tự tin "rằng trung bình người trưởng thành ở Mỹ ngủ được 6,5 giờ ". Chà, không, bạn có thể khá tự tin rằng nó thực sự không phải là 6,5 giờ. Bạn chỉ có thể tự tin rằng nó khá gần 6,5 giờ hoặc bạn có thể tự tin rằng đó là '6,5 giờ đến 5 phút gần nhất', hoặc một số như vậy. Chỉ phạm vi sẽ có một số mức độ tự tin liên quan đến chúng.
Glen_b -Reinstate Monica

1
@Glen_b đi vào trọng tâm của vấn đề - chúng tôi không bao giờ có thể nói rằng chúng tôi tự tin rằng chúng tôi đã ước tính giá trị dân số chính xác, nhưng chúng tôi có một số ý tưởng về tính chính xác của quy trình ước tính của chúng tôi.
James Stanley

@angrymonkey Tôi nghĩ rằng vẫn hữu ích để có được các khái niệm bên dưới phương pháp lấy mẫu lặp lại (mô phỏng). Ngoài ra, để ước tính có nghĩa là người ta không cần kích thước mẫu "khổng lồ" - công thức cho sai số chuẩn của giá trị trung bình là sample std deviation / square root(n)- căn bậc hai của phần n cho chúng ta biết rằng chúng ta nhận được lợi nhuận giảm dần về độ chính xác ước tính cho gia số cố định theo cỡ mẫu trở nên lớn hơn (ví dụ: di chuyển từ 10 đến 20 người trong một mẫu giúp cải thiện độ chính xác của ước tính nhiều hơn so với đi từ 210 đến 220 người.)
James Stanley

thật tuyệt ... cảm ơn bạn rất nhiều vì sự giúp đỡ Vì vậy, một CI chỉ cho phép chúng tôi nói rằng tôi chắc chắn 95% người bình thường ngủ trong khoảng từ 6,45 đến 6,56 giờ một đêm? Vậy thì tại sao một số bài báo đưa ra những tuyên bố dứt khoát như một người bình thường xem 4,5 giờ tv mỗi ngày? chắc chắn khoảng tin cậy là khoảng 95% 4,43 và 4,56
sáp nhập vào

10
  • Nếu phân phối ban đầu là bình thường, giá trị trung bình mẫu cũng sẽ bình thường, với phương sai , trong đó là kích thước mẫu. Khi càng lớn, phương sai của phân bố trung bình càng nhỏ, do đó trong giới hạn, giá trị trung bình của mẫu có xu hướng theo giá trị trung bình của dân số.σ2/nnn
  • Nếu bạn lấy một số mẫu độc lập, mỗi giá trị trung bình của mẫu sẽ là bình thường và giá trị trung bình của phương tiện sẽ là bình thường và có xu hướng trung bình thực.
  • Nếu các mẫu của bạn thực sự có cùng phân phối (ví dụ 100 mẫu 10 mẫu), bạn sẽ thực hiện các suy luận giống như khi bạn lấy một mẫu lớn 1000. (Nhưng trong thế giới thực, các mẫu riêng biệt có thể khác nhau theo cách mà một không thể bỏ qua; xem "thiết kế khối ngẫu nhiên".)
  • Nếu dữ liệu không bình thường, nhưng từ một phân phối có phương sai hữu hạn, thì định lý giới hạn trung tâm ngụ ý rằng tất cả các tuyên bố đưa ra ở trên là gần đúng, theo nghĩa là phân phối giới hạn sẽ là bình thường. Lớn hơn , gần với bình thường, bạn sẽ có.n
  • Nếu bạn lấy 100 mẫu trong số 10 mẫu, mỗi phương tiện mẫu sẽ có phân phối trông bình thường hơn dữ liệu gốc, nhưng ít bình thường hơn phân phối của trung bình tổng thể.
  • Lấy một mẫu lớn cũng sẽ giúp bạn gần với sự bình thường.
  • Nếu bạn muốn ước tính trung bình dân số, sẽ không có sự khác biệt (về lý thuyết) nếu bạn lấy một mẫu lớn gồm 1000 hoặc 100 mẫu 10.
  • Nhưng trong thực tế, lý thuyết lấy mẫu mọi người có thể tách mẫu vì lý do phân cụm, phân tầng và các vấn đề khác. Sau đó, họ đưa sơ đồ lấy mẫu vào tài khoản khi thực hiện ước tính của họ. Nhưng đó thực sự là vấn đề cho một câu hỏi khác.

trong hầu hết các sách giáo khoa, họ đưa bạn qua khái niệm phân phối mẫu của phương tiện mẫu. Về bản chất, điều này cho bạn biết, "này, nếu bạn lấy nhiều mẫu, nó có xu hướng bình thường và sẽ gần đúng với dân số". Sau đó, họ nói với bạn rằng nếu bạn lấy mẫu đủ lớn, bạn chỉ có thể lấy một mẫu. Là phân phối mẫu của mẫu có nghĩa là làm cho bạn tin rằng bạn có thể lấy một mẫu lớn? Nói cách khác, mục đích của việc hiểu nó là gì? Có phải chỉ để giúp bạn nắm bắt trực giác đằng sau việc lấy một mẫu lớn? bỏ qua ý tưởng lấy mẫu theo
sáp nhập

Tôi nghĩ rằng @ "James Stanley" trả lời rất tốt. Trong mọi trường hợp thực tế, bạn lấy một mẫu, tính giá trị trung bình của mẫu và đó là ước tính của bạn.
Placidia

1

Phân phối mẫu của giá trị trung bình là phân phối TẤT CẢ các mẫu có kích thước nhất định. Giá trị trung bình của dist lấy mẫu bằng với giá trị trung bình của dân số. Khi chúng ta nói về việc lấy mẫu trung bình đối với các mẫu có kích thước nhất định, chúng ta không nói về một mẫu hoặc thậm chí một nghìn mẫu mà là Tất cả các mẫu.


0

Khoảng cách lấy mẫu của giá trị trung bình không liên quan gì đến khoảng tin cậy. Đó là một khái niệm khác. Để lấy mẫu dist, dân số có thể bình thường hoặc không bình thường a) Nếu pop là bình thường thì độ lệch trung bình của giá trị trung bình sẽ là bình thường đối với mọi cỡ mẫu. b) Nếu pop không bình thường thì 1) khoảng cách lấy mẫu của giá trị trung bình CANNOT được coi là bình thường, trừ khi cỡ mẫu là 30 trở lên. Sau đó, Định lý giới hạn trung tâm cho chúng ta biết khoảng cách lấy mẫu có thể được coi là bình thường.

Bạn nói về dự đoán. Dự đoán không có gì để làm với điều này. Bạn đang chèn quá nhiều trong samp dist. Samp dist chỉ đơn giản là Tất cả các mẫu và sau đó giá trị trung bình được lấy. Và giá trị trung bình của tất cả các mẫu này, mu sub x bar, bằng trung bình của dân số, mu và lấy mẫu dev od tiêu chuẩn dist, sigma sub x bar = sigma chia cho căn bậc hai của n. (Chúng tôi sẽ không nói về yếu tố hiệu chỉnh pop hữu hạn. Hãy lấy chỉ số của bạn cho mệnh giá. Đừng đọc quá nhiều vào một khái niệm. Nắm tay hiểu khái niệm cơ bản.

PS Các samp dist của trung bình không có gì ro làm abput pr


Tôi tự hỏi nếu câu trả lời này có thể được kết hợp với câu trả lời đầu tiên của bạn, chứ không phải là câu trả lời khác. Chúng tôi thường thích bạn có 1 câu trả lời cho mỗi chủ đề. (Tuy nhiên, vẫn có trường hợp ngoại lệ.) Bạn có thể thêm tài liệu vào câu trả lời hiện có hoặc thực hiện thay đổi bằng cách nhấp vào "chỉnh sửa" màu xám ở dưới cùng bên trái.
gung - Phục hồi Monica

0

Tôi đã suy nghĩ về các vấn đề dữ liệu lớn, và xem xét một số bài viết sáng nay. Tôi không nghĩ đây là một vấn đề nhỏ, sự khác biệt giữa việc phân tích 1000 dữ liệu là một bộ so với phân tích 10 bộ 100. Về lý thuyết , nếu giả thuyết null là đúng thì dữ liệu là iid, nó không có Sự khác biệt. Tuy nhiên, việc phân cụm và các mẫu trong dữ liệu hoàn toàn không được xử lý nếu chỉ đơn giản là lấy giá trị trung bình của 1000 dữ liệu và trích dẫn trung bình ước tính và lỗi tiêu chuẩn liên quan.

Kết luận mà tôi đã đưa ra, xem xét một số trang trên stackexchange và wikipedia, là dữ liệu lớn cho phép nhìn thấy rõ ràng . Nếu có bất kỳ tính năng thú vị nào trong toàn bộ dân số, một bộ dữ liệu lớn sẽ hiển thị chúng rõ ràng như ban ngày. Vì vậy, nếu tôi có một bộ dữ liệu rất lớn, mà tôi có thể nhìn trực quan, tôi sẽ không nhảy vào và thực hiện các biện pháp tóm tắt ngắn gọn mà không cần tìm kiếm các tính năng rất rõ ràng trước tiên. Từ những bài học đầu tiên của tôi về suy luận thống kê, tôi đã được dạy để xem biểu đồ và hình dung của dữ liệu như là một bước đầu tiên. Tôi không thể nhấn mạnh điều đó đủ. Nếu tập dữ liệu quá lớn để con người nhìn vào màn hình, thì nó nên được lấy mẫu phụ từ độ phân giải có thể đọc được.


Vui lòng không ký các bài đăng của bạn - đó là tên người dùng ở dưới cùng bên phải của bài đăng của bạn.
Glen_b -Reinstate Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.