Hồi quy tuyến tính là một mô hình tuyến tính, có nghĩa là nó hoạt động thực sự độc đáo khi dữ liệu có hình dạng tuyến tính. Nhưng, khi dữ liệu có hình dạng phi tuyến tính, thì mô hình tuyến tính không thể nắm bắt được các tính năng phi tuyến tính.
Vì vậy, trong trường hợp này, bạn có thể sử dụng các cây quyết định, công việc tốt hơn trong việc nắm bắt sự phi tuyến tính trong dữ liệu bằng cách chia không gian thành các không gian con nhỏ hơn tùy thuộc vào các câu hỏi được hỏi.
Giả sử bạn rất thiếu quyết đoán, vì vậy bất cứ khi nào bạn muốn xem phim, bạn sẽ hỏi bạn mình Willow nếu cô ấy nghĩ bạn sẽ thích nó. Để trả lời, trước tiên Willow cần tìm ra những bộ phim bạn thích, vì vậy bạn đưa cho cô ấy một loạt phim và nói cho cô ấy biết bạn có thích từng phim hay không (nghĩa là bạn đưa cho cô ấy một bộ huấn luyện có nhãn). Sau đó, khi bạn hỏi cô ấy rằng cô ấy có thích phim X hay không, cô ấy chơi một trò chơi giống như 20 câu hỏi với IMDB, hỏi những câu như "X có phải là một bộ phim lãng mạn không?", "Johnny Depp có đóng vai chính trong X không?" , và như thế. Cô ấy hỏi nhiều câu hỏi thông tin hơn trước (nghĩa là cô ấy tối đa hóa mức tăng thông tin của mỗi câu hỏi) và đưa ra câu trả lời có / không ở cuối.
Do đó, Willow là một cây quyết định cho sở thích phim của bạn.
Nhưng Willow chỉ là con người, vì vậy cô ấy không phải lúc nào cũng khái quát sở thích của bạn rất tốt (ví dụ, cô ấy mặc trang phục). Để nhận được các đề xuất chính xác hơn, bạn muốn hỏi một nhóm bạn bè của mình và xem phim X nếu hầu hết họ nói rằng họ nghĩ bạn sẽ thích nó. Đó là, thay vì chỉ hỏi Liễu, bạn cũng muốn hỏi Woody, Apple và Cartman, và họ bỏ phiếu xem bạn có thích phim không (ví dụ: bạn xây dựng một bộ phân loại đồng bộ, hay còn gọi là rừng trong trường hợp này).
Bây giờ bạn không muốn mỗi người bạn của mình làm điều tương tự và cho bạn câu trả lời giống nhau, vì vậy trước tiên bạn cung cấp cho mỗi người trong số họ dữ liệu hơi khác nhau. Rốt cuộc, bạn không hoàn toàn chắc chắn về sở thích của mình - bạn đã nói với Willow rằng bạn yêu Titanic, nhưng có lẽ bạn rất vui vì ngày đó là sinh nhật của bạn, vì vậy có lẽ một số bạn bè của bạn không nên sử dụng thực tế là bạn thích Titanic trong việc đưa ra khuyến nghị của họ. Hoặc có thể bạn nói với cô ấy rằng bạn yêu Lọ Lem, nhưng thực sự bạn thực sự thực sựYêu nó, vì vậy một số bạn bè của bạn nên cho Cinderella thêm trọng lượng. Vì vậy, thay vì cung cấp cho bạn bè của bạn cùng dữ liệu bạn đã cung cấp cho Liễu, bạn cung cấp cho họ các phiên bản hơi nhiễu. Bạn không thay đổi quyết định yêu / ghét của mình, bạn chỉ nói rằng bạn yêu / ghét một số phim ít nhiều (bạn cung cấp cho mỗi người bạn của bạn một phiên bản khởi động của dữ liệu đào tạo ban đầu của bạn). Ví dụ, trong khi bạn nói với Willow rằng bạn thích Black Swan và Harry Potter và không thích Avatar, bạn nói với Woody rằng bạn thích Black Swan rất nhiều, bạn đã xem nó hai lần, bạn không thích Avatar và không đề cập đến Harry Potter.
Bằng cách sử dụng bộ đồng phục này, bạn hy vọng rằng trong khi mỗi người bạn của bạn đưa ra các đề xuất có phần bình dị (Willow nghĩ rằng bạn thích phim ma cà rồng hơn bạn, Woody nghĩ rằng bạn thích phim Pixar và Cartman nghĩ rằng bạn chỉ ghét mọi thứ), các lỗi đã bị loại bỏ đa số. Do đó, bạn bè của bạn bây giờ tạo thành một khu rừng đóng gói (tổng hợp bootstrap) theo sở thích phim của bạn.
Tuy nhiên, vẫn còn một vấn đề với dữ liệu của bạn. Mặc dù bạn yêu thích cả Titanic và Inception, nhưng đó không phải vì bạn thích những bộ phim có sự tham gia của Leonardio DiCaprio. Có thể bạn thích cả hai bộ phim vì những lý do khác. Do đó, bạn không muốn bạn bè của mình dựa trên tất cả các đề xuất của họ về việc Leo có tham gia phim hay không. Vì vậy, khi mỗi người bạn hỏi IMDB một câu hỏi, chỉ một tập hợp con ngẫu nhiên của các câu hỏi có thể được cho phép (nghĩa là khi bạn xây dựng cây quyết định, tại mỗi nút bạn sử dụng một số ngẫu nhiên trong việc chọn thuộc tính để phân tách, nói bằng cách chọn ngẫu nhiên một thuộc tính hoặc bằng cách chọn một thuộc tính từ một tập hợp con ngẫu nhiên). Điều này có nghĩa là bạn bè của bạn không được phép hỏi liệu Leonardo DiCaprio có tham gia bộ phim bất cứ khi nào họ muốn hay không. Vì vậy, trong khi trước đó bạn đã tiêm ngẫu nhiên ở cấp dữ liệu,
Và vì vậy, bạn bè của bạn bây giờ tạo thành một khu rừng ngẫu nhiên.