Bootstrapping - ai đó có thể cung cấp một lời giải thích đơn giản để giúp tôi bắt đầu?


9

Mặc dù có nhiều nỗ lực đọc về bootstrapping, tôi dường như luôn va vào một bức tường gạch. Tôi tự hỏi nếu bất cứ ai có thể đưa ra một định nghĩa hợp lý phi kỹ thuật của bootstrapping?

Tôi biết nó không phải là có thể trong diễn đàn này để cung cấp đủ chi tiết để cho phép tôi để hiểu đầy đủ nó, nhưng một push nhẹ nhàng đi đúng hướng với mục tiêu chính và cơ chế bootstrapping sẽ được nhiều đánh giá cao! Cảm ơn.

Câu trả lời:


8

Mục nhập Wikipedia trên Bootstrapping thực sự rất tốt:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistic%29

Lý do phổ biến nhất bootstrapping được áp dụng là khi hình thức phân phối cơ bản mà từ đó một mẫu được lấy không xác định. Các nhà thống kê truyền thống giả định phân phối bình thường (vì những lý do rất tốt liên quan đến định lý giới hạn trung tâm), nhưng các thống kê (như độ lệch chuẩn, khoảng tin cậy, tính toán công suất, v.v.) ước tính thông qua lý thuyết phân phối bình thường chỉ có giá trị nghiêm ngặt nếu phân bố dân số cơ bản là bình thường

Bằng cách liên tục lấy mẫu lại mẫu, bootstrapping cho phép các ước tính độc lập với phân phối. Theo truyền thống, mỗi "mẫu lại" của mẫu ban đầu sẽ chọn ngẫu nhiên cùng số lượng quan sát như trong mẫu ban đầu. Tuy nhiên những thứ này được chọn với sự thay thế. Nếu mẫu có N quan sát, mỗi mẫu lại bootstrap sẽ có N quan sát, với nhiều mẫu ban đầu được lặp lại và nhiều mẫu bị loại trừ.

Tham số quan tâm (ví dụ: tỷ lệ chênh lệch, v.v.) sau đó có thể được ước tính từ mỗi mẫu bootstrapping. Lặp lại bootstrap cho biết 1000 lần cho phép ước tính khoảng "trung bình" và khoảng tin cậy 95% trên thống kê (ví dụ tỷ lệ chênh lệch) bằng cách chọn phân vị thứ 2,5, 50 và 97,5.


8

Nhà khoa học người Mỹ gần đây đã có một bài viết hay của Cosma Shalizi trên bootstrap , nó khá dễ đọc và cung cấp cho bạn những điều cần thiết để nắm bắt khái niệm này.


7

Rất rộng: trực giác, cũng như nguồn gốc của tên ("tự kéo mình lên bằng bootstraps"), xuất phát từ quan sát rằng trong việc sử dụng các thuộc tính của mẫu để rút ra suy luận về dân số (vấn đề "nghịch đảo" của thống kê suy luận), chúng tôi hy vọng sẽ sai. Để tìm ra bản chất của lỗi đó, hãy coi chính mẫu đó là một quần thể và nghiên cứu cách thức quy trình suy luận của bạn hoạt động khi bạn lấy mẫu từ nó. Đó là một "chuyển tiếp" Vấn đề: Bạn có biết tất cả về sample- của bạn qua-population và không phải đoán bất cứ điều gì về nó. Nghiên cứu của bạn sẽ đề xuất (a) mức độ mà thủ tục suy luận của bạn có thể bị sai lệch và (b) kích thước và bản chất của lỗi thống kê của quy trình của bạn. Vì vậy, sử dụng thông tin này để điều chỉnh ước tính ban đầu của bạn. Trong nhiều tình huống (nhưng chắc chắn không phải tất cả), độ lệch điều chỉnh thấp hơn rất nhiều.

Một cái nhìn sâu sắc được cung cấp bởi mô tả sơ đồ này là bootstrapping không yêu cầu mô phỏng hoặc lấy mẫu lặp lại: những cách đó chỉ là omnibus, những cách dễ tính toán để nghiên cứu bất kỳ loại thủ tục thống kê nào khi dân số được biết đến. Có rất nhiều ước tính bootstrap có thể được tính toán bằng toán học.

Câu trả lời này nợ rất nhiều cuốn sách của Peter Hall "The Bootstrap and Edgeworth Expansion" (Springer 1992), đặc biệt là mô tả của ông về "Nguyên tắc chính" của bootstrapping.


Tôi thích cách tiếp cận "nguyên bản" này (wrt. Các mục khác). Tuy nhiên, tôi luôn cảm thấy khó giải thích tại sao bootstrap hoạt động trong thực tế ...
chl

4

Wiki về bootstrapping đưa ra mô tả sau:

Bootstrapping cho phép một người thu thập nhiều phiên bản thay thế của thống kê duy nhất thường được tính toán từ một mẫu. Ví dụ, giả sử chúng ta quan tâm đến chiều cao của mọi người trên toàn thế giới. Vì chúng tôi không thể đo lường tất cả dân số, chúng tôi chỉ lấy mẫu một phần nhỏ của nó. Từ mẫu đó, chỉ có thể thu được một giá trị của một thống kê, nghĩa là một giá trị trung bình hoặc một độ lệch chuẩn, v.v., và do đó chúng ta không thấy số liệu thống kê đó thay đổi bao nhiêu. Khi sử dụng bootstrapping, chúng tôi trích xuất ngẫu nhiên một mẫu mới có độ cao từ dữ liệu được lấy mẫu N, trong đó mỗi người có thể được chọn nhiều lần nhất. Bằng cách làm điều này nhiều lần, chúng tôi tạo ra một số lượng lớn các bộ dữ liệu mà chúng tôi có thể đã thấy và tính toán thống kê cho từng bộ dữ liệu này. Do đó, chúng tôi có được một ước tính về sự phân phối của thống kê.

Tôi sẽ cung cấp thêm chi tiết nếu bạn có thể làm rõ phần nào trong phần mô tả ở trên mà bạn không hiểu.


4

Tôi thích nghĩ về nó như sau: Nếu bạn có được một tập dữ liệu mẫu ngẫu nhiên từ một quần thể, thì có lẽ mẫu đó sẽ có các đặc điểm gần giống với dân số nguồn. Vì vậy, nếu bạn quan tâm đến việc đạt được các khoảng tin cậy về một tính năng cụ thể của phân phối, ví dụ, độ lệch của nó, bạn có thể coi mẫu là một quần thể giả mà từ đó bạn có thể có được nhiều bộ mẫu giả ngẫu nhiên, tính toán giá trị của các tính năng quan tâm trong mỗi. Giả định rằng mẫu ban đầu gần khớp với dân số cũng có nghĩa là bạn có thể lấy mẫu giả bằng cách lấy mẫu từ dân số giả "bằng thay thế" (ví dụ: bạn lấy mẫu một giá trị, ghi lại, sau đó đặt lại; có cơ hội được quan sát nhiều lần.).


3

Bootstrap về cơ bản là một mô phỏng của thí nghiệm lặp lại; giả sử bạn có một hộp có các quả bóng muốn có kích thước trung bình của quả bóng - vì vậy bạn vẽ một số trong số chúng, đo và lấy ý nghĩa. Bây giờ bạn muốn lặp lại nó để lấy bản phân phối, ví dụ để có độ lệch chuẩn - nhưng bạn phát hiện ra rằng ai đó đã đánh cắp hộp.
Những gì có thể được thực hiện bây giờ là sử dụng những gì bạn có - một loạt các phép đo. Ý tưởng là đặt các quả bóng vào hộp mới và mô phỏng thí nghiệm ban đầu bằng cách vẽ cùng số lượng bóng với sự thay thế - cả hai đều có cùng cỡ mẫu và một số biến thiên. Bây giờ điều này có thể được nhân rộng nhiều lần để có được một loạt các phương tiện cuối cùng có thể được sử dụng để xấp xỉ phân phối trung bình.


3

Đây là bản chất của bootstrapping: lấy các mẫu dữ liệu khác nhau của bạn, lấy số liệu thống kê cho từng mẫu (ví dụ: giá trị trung bình, trung bình, tương quan, hệ số hồi quy, v.v.) và sử dụng biến thiên trong thống kê qua các mẫu để chỉ ra điều gì đó về sai số chuẩn và khoảng tin cậy cho thống kê. - Bootstrapping và gói khởi động trong R

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.