Kích thước của mẫu bootstrap

Tôi đang tìm hiểu về bootstrapping như một phương tiện để ước tính phương sai của thống kê mẫu. Tôi có một nghi ngờ cơ bản.

Trích dẫn từ http://web.stanford.edu/group/psych252/tutorials/doBootstrapPrimer.pdf :

• Có bao nhiêu quan sát chúng ta nên lấy mẫu lại? Một gợi ý tốt là kích thước mẫu ban đầu.

Làm thế nào chúng ta có thể lấy mẫu lại nhiều quan sát như trong mẫu ban đầu?
Nếu tôi có cỡ mẫu là 100 và tôi đang cố ước tính phương sai của giá trị trung bình. Làm cách nào tôi có thể nhận được nhiều mẫu bootstrap có kích thước 100 từ tổng kích thước mẫu là 100? Chỉ có 1 mẫu bootstrap trong trường hợp này tương đương với mẫu ban đầu phải không?

Tôi rõ ràng đang hiểu nhầm một cái gì đó rất cơ bản. Tôi hiểu rằng số của lý tưởng mẫu bootstrap luôn là vô hạn, và để xác định số lượng mẫu bootstrap cần thiết cho dữ liệu của tôi, tôi sẽ phải kiểm tra cho tụ giữ độ chính xác cần thiết của tôi trong tâm trí.
Nhưng tôi thực sự bối rối về kích thước của từng mẫu bootstrap riêng lẻ .

sampling bootstrap resampling

— người dùng1265125
nguồn

Đỉnh của p. 3, và các minh họa ở đó, quy định rõ ràng và nổi bật rằng việc lấy lại mẫu là thay thế.

— whuber

Nhưng nếu kích thước mẫu bootstrap của tôi bằng tổng số quan sát tôi có, tôi phải thay thế bằng gì?

— dùng1265125

Ví dụ đơn giản - vì vậy nếu tôi có 4,1,3,7,5 như tập mẫu của mình. Làm cách nào để tạo nhiều mẫu bootstrap cỡ 5? Mẫu bootstrap cỡ 5 duy nhất sẽ là 4,1,3,7,5 tức là bộ mẫu ban đầu.

— dùng1265125

Đợi đã, tôi hiểu - "• Để mô phỏng phân phối lấy mẫu, chúng ta chỉ cần lấy các mẫu ngẫu nhiên lặp đi lặp lại từ quần thể này, được tạo thành từ nhiều bản sao của mẫu"

— user1265125

Câu trả lời:

Bootstrap được tiến hành bằng cách lấy mẫu với sự thay thế . Có vẻ như thuật ngữ "thay thế" không rõ ràng đối với bạn. Theo ghi nhận của whuber , minh họa lấy mẫu với sự thay thế được đưa ra trên p. 3 bài báo bạn tham khảo (sao chép dưới đây).

(nguồn: http://web.stanford.edu/group/psych252/tutorials/doBootstrapPrimer.pdf )

Ý tưởng chung của việc lấy mẫu với sự thay thế là bất kỳ trường hợp nào cũng có thể được lấy mẫu nhiều lần (đá cẩm thạch màu xanh lá cây trên hình ảnh đầu tiên ở trên; viên bi màu xanh và màu tím trên hình ảnh cuối cùng). Nếu bạn muốn tưởng tượng mình quá trình này, hãy nghĩ về một cái bát chứa đầy những viên bi đầy màu sắc. Nói rằng bạn muốn rút một số viên bi từ cái bát này. Nếu bạn lấy mẫu mà không thay thế, thì bạn sẽ chỉ cần lấy viên bi ra khỏi bát và đặt những cái đã lấy mẫu sang một bên. Nếu bạn lấy mẫu bằng vật thay thế, thì bạn sẽ lấy mẫu từng viên một, bằng cách lấy đá cẩm thạch ra khỏi bát, ký tên màu vào sổ ghi chép của bạn và sau đó trả lạiđến bát. Vì vậy, khi lấy mẫu với thay thế cùng một đá cẩm thạch có thể được lấy mẫu nhiều lần.

Vì vậy, khi lấy mẫu mà không thay thế, bạn chỉ có thể lấy mẫu viên bi trong bát chứa viên bi, trong khi trong trường hợp lấy mẫu bằng vật thay thế, bạn có thể lấy mẫu bất kỳ số bi nào (thậm chí lớn hơn ) từ quần thể hữu hạn. Nếu bạn lấy mẫu trong số viên bi mà không thay thế, bạn sẽ kết thúc với cùng một mẫu nhưng theo thứ tự xáo trộn. Nếu bạn lấy mẫu trong số viên bi bằng vật thay thế, mỗi lần bạn có thể lấy mẫu một viên bi khác nhau. $n$ $n$ $n$ $n$ $n$ $n$ $n$

Có cách lấy mẫu mà không thay thế trường hợp ngoài dân số có kích thước và cách lấy mẫu với thay thế. Nếu bạn muốn đọc thêm về toán học đằng sau nó, bạn có thể kiểm tra 2.1. Chương kết hợp giới thiệu về Cẩm nang xác suất trực tuyến của tác giả Hossein Pishro-Nik. Ngoài ra còn có một chiếc áo choàng tiện dụng trên trang WolframMathWorld . $n \choose k$ $k$ $n$ $n+k-1 \choose k$

— Tim
nguồn

Có bao nhiêu quan sát chúng ta nên lấy mẫu lại? Một gợi ý tốt là kích thước mẫu ban đầu.

Khi kích thước mẫu ban đầu quá lớn và bạn không muốn / không thể đào tạo một mô hình trên bộ dữ liệu đầy đủ, "đề xuất tốt" không tốt lắm.

PS: Tôi muốn thêm điều này như một bình luận cho câu hỏi nhưng tôi không được phép thêm bất kỳ bình luận nào ...

— daruma
nguồn

Tại sao bạn muốn thêm đề xuất này? Nếu điều này là do các bộ dữ liệu quá lớn cho các nỗ lực tính toán thường xuyên, thì đó là một vấn đề thực tế có liên quan, nhưng nó không thực sự áp dụng cho lý thuyết về bootstrapping đã được hỏi ở đây. Hơn nữa, đây là về "ước tính phương sai của một thống kê mẫu". Điều đó có thực sự liên quan đến việc đào tạo một mô hình nói chung không? (NB. Không phải là thô lỗ, tôi hiểu bạn chưa thể đăng bình luận, nhưng điều đó không khiến bạn không cung cấp câu trả lời có liên quan khi đăng như vậy. Bạn phải rõ ràng hơn rất nhiều, HOẶC đăng câu hỏi của riêng bạn)

— IWS