Để phản hồi của @ ziggystar về thuật ngữ máy học: ý tưởng đằng sau các kỹ thuật tổng hợp bootstrap (ví dụ Rừng ngẫu nhiên) là để phù hợp với nhiều mô hình sai lệch thấp, sai lệch cao với dữ liệu với một số yếu tố "ngẫu nhiên" hoặc "không ổn định". Trong trường hợp rừng ngẫu nhiên, tính không ổn định được thêm vào thông qua bootstrapping và bằng cách chọn một bộ tính năng ngẫu nhiên để phân chia từng nút của cây. Tính trung bình trên các cây ồn ào, nhưng độ lệch thấp này làm giảm bớt phương sai cao của bất kỳ cây riêng lẻ nào.
Trong khi cây hồi quy / phân loại là mô hình "độ lệch thấp, độ sai lệch cao", mô hình hồi quy tuyến tính thường ngược lại - "độ lệch cao, độ sai lệch thấp". Do đó, vấn đề người ta thường gặp phải với các mô hình tuyến tính là giảm sai lệch, không giảm phương sai. Tổng hợp Bootstrap đơn giản là không được thực hiện để làm điều này.
Một vấn đề khác là bootstrapping có thể không cung cấp đủ "tính ngẫu nhiên" hoặc "không ổn định" trong một mô hình tuyến tính điển hình. Tôi hy vọng cây hồi quy sẽ nhạy hơn với tính ngẫu nhiên của các mẫu bootstrap, vì mỗi lá thường chỉ chứa một số điểm dữ liệu. Ngoài ra, cây hồi quy có thể được tăng trưởng ngẫu nhiên bằng cách chia cây trên một tập hợp con ngẫu nhiên của các biến tại mỗi nút. Xem câu hỏi trước đây để biết tại sao điều này lại quan trọng: Tại sao Rừng ngẫu nhiên được chia tách dựa trên các tính năng ngẫu nhiên?
Tất cả những gì đang được nói, bạn chắc chắn có thể sử dụng bootstrapping trên các mô hình tuyến tính [LINK] và điều này có thể rất hữu ích trong các bối cảnh nhất định. Tuy nhiên, động lực khác nhiều so với các kỹ thuật tổng hợp bootstrap.
a_0 + a_1 * x_1 + ... + a_d * x_d
, hàm tuyến tính trung bình kết quả (sau khi tổng hợp bootstrap) vẫn có dạng hàm tuyến tính giống như bạn bắt đầu (ví dụ: 'người học cơ sở').