Theo trực giác, bootstrap hoang dã hoạt động như thế nào?

Tôi đang cố gắng để hiểu được trực giác đằng sau bootstrap hoang dã. Nó thực sự đang làm gì? Tôi cần có khả năng hiểu những gì nó đang cố gắng làm so với hồi quy thông thường.

Dữ liệu của tôi có độ không đồng nhất và phương pháp tôi sử dụng thực hiện 5000 lần sao chép.

Làm thế nào để nó tạo ra 5000 dữ liệu bổ sung?

regression bootstrap intuition

— Đức Phanxicô Origi
nguồn

Giả sử bạn có tập huấn luyện gồm cặp ví dụ . $\mathcal{T}$ $n$ $(y_i, \vec{x}_i)$

Một bootstrap bình thường là một tập hợp gồm cặp ví dụ , trong đó là một chuỗi gồm số nguyên ngẫu nhiên được lấy mẫu thống nhất từ 1 đến . Cụ thể, lưu ý rằng mọi ví dụ trong hoàn toàn giống với một trong các ví dụ từ và một số ví dụ được lặp lại. Nhưng điều này hơi lạ, đặc biệt là khi biến phản hồi liên tục, bởi vì nếu chúng ta lấy mẫu lại dân số ban đầu, chúng ta gần như chắc chắn sẽ không nhận được một bản sao chính xác , trong khi bootstrap có thể có nhiều. $\mathcal{B}$ $n$ $(y_{r_i}, \vec{x}_{r_i})$ $r_i$ $n$ $n$ $\mathcal{B}$ $\mathcal{T}$

Để tránh trùng lặp, chúng ta cần các ví dụ về không phải là bản sao carbon của các ví dụ từ , mà là các ví dụ tổng hợp trông giống như những gì chúng ta sẽ lấy từ dân số ban đầu. Điều này đòi hỏi phải đưa ra một giả định về sự phân bố dân số ban đầu. $\mathcal{B}$ $\mathcal{T}$

Nếu chúng ta giả sử tính đồng nhất và khớp một mô hình tuyến tính với có phần dư thì chúng ta có thể xây dựng các ví dụ tổng hợp mới bằng cách thay thế phần dư được trang bị từ mỗi ví dụ bằng phần dư từ một ví dụ đào tạo khác . Nếu phần dư thực sự là iid, sẽ không có vấn đề gì khi đổi cái này sang cái khác. Chúng tôi thực hiện thay thế này bằng cách trừ phần dư tìm thấy cho ví dụ đào tạo và thêm phần dư cho một số ví dụ khác: $\mathcal{T}$ $e_i$ $(y_i, \vec{x}_i)$

\begin{matrix} (1) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + e_{r'_i} \tag{1}$

Trong đó và là hai mô hình độc lập và khác nhau. Sau đó chúng ta có thể tạo bootstrap theo cách thông thường: $r_i$ $r'_i$

\begin{matrix} (2) & B = {(y_{i}^{*}, {\vec{x}}_{i})}_{i = 1}^{n} \end{matrix}

$\mathcal{B} = \{\, (y^*_i, \vec{x}_i)\, \}_{i=1}^n \tag{2}$

Đây được gọi là bootstrap dư và có thể được coi là chọn phần dư mới từ hàm phân phối theo kinh nghiệm của phần dư.

Để làm giảm các giả định iid và homoskedasticity hơn nữa, chúng ta có thể sử dụng bootstrap hoang dã , trong đó chúng ta tính toán biến phản ứng mới thậm chí nhiều hơn một cách ngẫu nhiên bằng cách nhân số dư ngẫu nhiên được chọn với một biến ngẫu nhiên khác . $v_i$

\begin{matrix} (3) & y_{i}^{*} = y_{r_{i}} - e_{r_{i}} + v_{i} e_{r_{i}^{'}} \end{matrix}

$y^*_i = y_{r_i} - e_{r_i} + v_i e_{r'_i} \tag{3}$

Thường thì phân phối chuẩn được sử dụng nhưng các lựa chọn khác là có thể. Ví dụ: đôi khi được chọn đơn giản với xác suất bằng nhau từ , chỉ đơn giản là lật ngẫu nhiên dấu hiệu một nửa thời gian, buộc phân phối dư phải đối xứng. Vấn đề là lấy các ví dụ đào tạo gần với những gì chúng ta đã rút ra từ dân số ban đầu mà không cần sao chép nhân tạo được giới thiệu bởi bootstrap. $v_i \sim \mathcal{N}(0, 1)$ $v_i$ $\{-1,1\}$

— olooney
nguồn

Vì vậy, về cơ bản, chúng ta tạo ra các lỗi hoạt động giống như phần dư thực tế và sau đó nhận dữ liệu thực tế thực hiện theo cách tương tự như dữ liệu thực tế? Bất kỳ sách giáo khoa để giới thiệu?

— Francis Origi

Vậy thì, chúng ta phải làm gì với tất cả dữ liệu bổ sung này? Làm thế nào để chúng ta nhân các số liệu thống kê t vv?

— Francis Origi