Bắt đầu với câu hỏi thứ hai của bạn dễ dàng hơn và sau đó chuyển sang câu hỏi thứ nhất.
Đóng bao
Random Forest là một thuật toán đóng bao. Nó làm giảm phương sai.
Nói rằng bạn có các mô hình rất không đáng tin cậy, chẳng hạn như Cây quyết định. (Tại sao không đáng tin cậy? Bởi vì nếu bạn thay đổi dữ liệu của mình một chút, cây quyết định được tạo có thể rất khác nhau.) Trong trường hợp như vậy, bạn có thể xây dựng một mô hình mạnh mẽ (giảm phương sai) thông qua đóng gói - đóng bao là khi bạn tạo các mô hình khác nhau bằng cách lấy lại dữ liệu của bạn để làm cho mô hình kết quả mạnh mẽ hơn.
Rừng ngẫu nhiên là những gì chúng ta gọi để đóng bao được áp dụng cho các cây quyết định, nhưng nó không khác gì so với thuật toán đóng bao khác.
Tại sao bạn muốn làm điều này? Nó phụ thuộc vào vấn đề. Nhưng thông thường, nó rất mong muốn cho mô hình ổn định.
Tăng cường
Tăng cường làm giảm phương sai, và cũng làm giảm sự thiên vị. Nó làm giảm phương sai vì bạn đang sử dụng nhiều mô hình (đóng bao). Nó làm giảm sự thiên vị bằng cách đào tạo mô hình tiếp theo bằng cách cho anh ta biết những lỗi mà các mô hình trước đó đã gây ra (phần tăng cường).
Có hai thuật toán chính:
- Adaboost: đây là thuật toán gốc; bạn nói với các mô hình tiếp theo để trừng phạt các quan sát nặng nề hơn bị nhầm lẫn bởi các mô hình trước đó
- Tăng cường độ dốc: bạn huấn luyện từng mô hình tiếp theo bằng cách sử dụng phần dư (sự khác biệt giữa giá trị dự đoán và giá trị thực)
Trong những bản hòa tấu này, người học cơ sở của bạn phải yếu. Nếu nó vượt qua dữ liệu, sẽ không có bất kỳ lỗi hoặc sai sót nào cho các mô hình tiếp theo được xây dựng. Tại sao những mô hình tốt? Chà, hầu hết các cuộc thi trong các trang web như Kaggle đã giành chiến thắng bằng cách sử dụng cây tăng cường độ dốc. Khoa học dữ liệu là một khoa học thực nghiệm, "bởi vì nó hoạt động" là đủ tốt. Dù sao đi nữa, hãy lưu ý rằng các mô hình tăng cường có thể phù hợp hơn (mặc dù về mặt thực nghiệm nó không phổ biến lắm).
Một lý do khác tại sao tăng cường độ dốc, đặc biệt, cũng khá tuyệt: bởi vì nó làm cho nó rất dễ sử dụng các hàm mất khác nhau, ngay cả khi đạo hàm không lồi. Chẳng hạn, khi sử dụng dự báo xác suất, bạn có thể sử dụng các công cụ như hàm pinball làm chức năng mất của bạn; một cái gì đó khó hơn nhiều với các mạng thần kinh (vì đạo hàm luôn luôn không đổi).
[Ghi chú lịch sử thú vị: Boosting ban đầu là một phát minh lý thuyết được thúc đẩy bởi câu hỏi " chúng ta có thể xây dựng một mô hình mạnh hơn bằng cách sử dụng các mô hình yếu hơn "]
Lưu ý: Đôi khi mọi người nhầm lẫn giữa rừng ngẫu nhiên và cây tăng cường độ dốc, chỉ vì cả hai đều sử dụng cây quyết định, nhưng chúng là hai họ rất khác nhau.