Tại sao tất cả xem xét lấy mẫu mà không thay thế trong một ứng dụng thực tế?


12

Lấy mẫu với thay thế có hai ưu điểm so với lấy mẫu mà không thay thế như tôi thấy:

1) Bạn không cần phải lo lắng về việc điều chỉnh dân số hữu hạn.

2) Có khả năng các yếu tố trong dân số được rút ra nhiều lần - sau đó bạn có thể tái chế các phép đo và tiết kiệm thời gian.

Tất nhiên từ một POV học thuật người ta phải điều tra cả hai phương pháp. Nhưng từ một POV thực tế, tôi không thấy lý do tại sao người ta sẽ xem xét lấy mẫu mà không thay thế với những lợi thế của việc thay thế.

Nhưng tôi là người mới bắt đầu thống kê nên có thể có nhiều lý do chính đáng tại sao không thay thế có thể là lựa chọn ưu việt - ít nhất là cho các trường hợp sử dụng cụ thể. Xin đừng tin tôi!


3
Gợi ý: Xem xét hiệu quả của việc áp dụng hiệu chỉnh dân số hữu hạn là gì, và tại sao điều đó có thể là lợi thế. (Cũng lưu ý rằng (1) làm tiền là hầu như luôn luôn ít rắc rối & chi phí so với việc thu thập dữ liệu; (2) nếu bạn có thể phân biệt cá nhân bạn không nên "tái chế" đo, nhưng suy luận cơ sở duy nhất trên những cá nhân riêng biệt.)
Scortchi - Phục hồi Monica

Thành thật mà nói, tôi không thực sự hiểu bất kỳ khẳng định nào của bạn. FPC bù các hậu quả bằng số của sự thiếu độc lập của các phép đo. Nhưng tôi không biết tại sao điều này là thuận lợi. (1) làm thế nào điều này liên quan đến câu hỏi của tôi? (2) Tại sao "không nên" bạn tái chế một phép đo? Không làm như vậy hậu quả logic trực tiếp của việc ngẫu nhiên rút ra hai lần cùng một mặt hàng khi lấy mẫu thay thế?
Raffael

Câu trả lời:


12

Mở rộng về câu trả lời của @Scortchi. . .

Giả sử dân số có 5 thành viên và bạn có ngân sách để lấy mẫu 5 cá nhân. Bạn quan tâm đến ý nghĩa dân số của một biến X, một đặc điểm của các cá nhân trong dân số này. Bạn có thể làm theo cách của bạn, và lấy mẫu ngẫu nhiên với sự thay thế. Phương sai của giá trị trung bình mẫu sẽ là V (X) / 5.

Mặt khác, giả sử bạn lấy mẫu năm cá nhân mà không cần thay thế. Sau đó, phương sai của trung bình mẫu là 0. Bạn đã lấy mẫu toàn bộ dân số, mỗi cá nhân chính xác một lần, do đó không có sự phân biệt giữa "trung bình mẫu" và "trung bình dân số". Họ là những điều tương tự.

Trong thế giới thực, bạn nên nhảy lên vì niềm vui mỗi khi bạn phải thực hiện chỉnh sửa dân số hữu hạn bởi vì (trống ..) Nó làm cho phương sai của công cụ ước tính của bạn đi xuống mà bạn không phải thu thập thêm dữ liệu. Hầu như không có gì làm điều này. Nó giống như ma thuật: ma thuật tốt.

Nói chính xác điều tương tự trong toán học (chú ý đến <và giả sử cỡ mẫu lớn hơn 1):

finite sample correction=NnN1<N1N1=1

Hiệu chỉnh <1 có nghĩa là áp dụng hiệu chỉnh làm cho phương sai đi xuống, vì bạn áp dụng hiệu chỉnh bằng cách nhân nó với phương sai. Phương sai XUỐNG == tốt.

Di chuyển theo hướng ngược lại, hoàn toàn tránh xa toán học, suy nghĩ về những gì bạn đang yêu cầu. Nếu bạn muốn tìm hiểu về dân số và bạn có thể lấy mẫu 5 người từ đó, có vẻ như bạn sẽ học được nhiều hơn bằng cách lấy mẫu của cùng một người 5 lần hoặc có vẻ như bạn sẽ học được nhiều hơn bằng cách đảm bảo Bạn lấy mẫu 5 người khác nhau?

Trường hợp thực tế gần như ngược lại với những gì bạn đang nói. Hầu như không bao giờ bạn lấy mẫu với sự thay thế --- chỉ khi bạn đang làm những việc đặc biệt như bootstrapping. Trong trường hợp đó, bạn thực sự đang cố gắng làm hỏng công cụ ước tính và đưa ra phương sai "quá lớn".


Trong phần "bootstrapping" tôi hiểu việc sử dụng một tham số của mẫu thay cho tham số của dân số (mà bạn thực sự sẽ phải sử dụng) để ước tính một tham số của dân số. Tại sao bạn lại quan tâm đến việc "làm hỏng" công cụ ước tính và đưa ra phương sai "quá lớn"?
Raffael

1
@ Affael Tôi đang nói về bootstrapping không tham số. Bạn lấy mẫu của mình (ví dụ kích thước 100), lấy mẫu lại từ mẫu đó bằng thay thế (100 lần lấy mẫu bootstrap có kích thước 100), sau đó tính lại công cụ ước tính của bạn. Bạn đang coi mẫu như một quần thể đồ chơi, mô phỏng vẽ một mẫu từ nó, tính toán một công cụ ước tính. Nếu bạn lấy mẫu từ quần thể đồ chơi mà không thay thế, bạn sẽ sao chép chính xác quần thể đồ chơi trong mẫu, lấy ước tính ban đầu làm ước tính mới (tức là phương sai = 0). Để tránh điều này, vì vậy bạn lấy mẫu với sự thay thế.
Hóa đơn

5

Độ chính xác của ước tính thường cao hơn để lấy mẫu mà không thay thế so với lấy mẫu với thay thế.

Ví dụ, chỉ có thể chọn một yếu tố lần khi việc lấy mẫu được thực hiện với sự thay thế trong trường hợp cực đoan. Điều đó có thể dẫn đến ước tính rất không chính xác về thông số dân số quan tâm. Một tình huống như vậy là không thể được lấy mẫu mà không cần thay thế. Vì vậy, phương sai thường thấp hơn cho các ước tính được thực hiện từ lấy mẫu mà không thay thế.n


2

Tôi không nghĩ rằng câu trả lời ở đây là hoàn toàn đầy đủ và dường như họ tranh luận về trường hợp giới hạn trong đó lượng dữ liệu của bạn rất thấp.

Với một mẫu đủ lớn, điều này hoàn toàn không đáng lo ngại, đặc biệt là với nhiều mẫu bootstrap (~ 1000). Nếu tôi đã lấy mẫu từ bản phân phối thực sự một tập dữ liệu có kích thước 10.000 và tôi lấy mẫu lại với thay thế 1.000 lần, thì phương sai tôi đạt được (trái ngược với phương sai tôi sẽ có được bằng cách không thay thế) là không đáng kể.

Tôi muốn nói rằng câu trả lời chính xác hơn là đây: lấy mẫu lại mà không thay thế là điều cần thiết khi ước tính độ tin cậy của thống kê bậc hai . Ví dụ: nếu tôi đang sử dụng bootstrap để ước tính độ không đảm bảo mà tôi có trong phép đo phân tán. Vẽ với sự thay thế cho một số lượng như vậy có thể sai lệch một cách giả tạo các phân tán thu hồi thấp.

Để biết ví dụ cụ thể với dữ liệu thực, nếu bạn muốn, hãy xem bài viết này https://arxiv.org/abs/1612.02827

nó thảo luận ngắn gọn về câu hỏi của bạn ở trang 10


0

Tôi có một kết quả điều trị mà không cần thay thế thực tế như với sự thay thế và loại bỏ tất cả những khó khăn. Lưu ý rằng với các tính toán thay thế dễ dàng hơn nhiều. Vì vậy, nếu một xác suất liên quan đến p và q, xác suất thành công và thất bại, trong trường hợp thay thế, xác suất tương ứng không có trường hợp thay thế được lấy chỉ bằng cách thay thế p ^ aq ^ b bằng (Nab) C (Ra) cho bất kỳ a và b, trong đó N, R là tổng số bóng và số lượng bóng trắng. Hãy nhớ rằng p được coi là R / N.

K.Balasubramanian


có một thiếu sót. (Nab) C (Ra) / (NCR) là biểu thức đúng. Ví dụ: np trung bình trở thành n (N-1-0) / (R-1) / NCR. bạn có thể kiểm tra bất kỳ kết quả như vậy.
Krish Balasubramanian
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.