Khi nào nên chọn hồi quy tuyến tính hoặc cây quyết định hoặc hồi quy rừng ngẫu nhiên? [đóng cửa]


10

Tôi đang làm việc trên một dự án và tôi gặp khó khăn trong việc quyết định chọn thuật toán nào regression. Tôi muốn biết trong những điều kiện nào người ta nên chọn một linear regressionhoặc Decision Tree regressionhay Random Forest regression? Có bất kỳ đặc điểm cụ thể nào của dữ liệu sẽ đưa ra quyết định hướng tới một thuật toán cụ thể trong số các cây được đề cập ở trên không? Những đặc điểm mà tôi nên xem trong tập dữ liệu của mình để đưa ra quyết định là gì? Và có một số lý do sẽ khiến người ta chọn một thuật toán decision treehoặc random forestngay cả khi có thể đạt được độ chính xác tương tự linear regression?


Điều này quá rộng - bắt đầu với một mô tả về dữ liệu của bạn và những hạn chế của bạn là gì?
Sean Owen

Câu trả lời:


10

Hãy để tôi giải thích nó bằng cách sử dụng một số ví dụ cho trực giác rõ ràng:

Khi nào bạn sử dụng hồi quy tuyến tính so với Cây quyết định?

Hồi quy tuyến tính là một mô hình tuyến tính, có nghĩa là nó hoạt động thực sự độc đáo khi dữ liệu có hình dạng tuyến tính. Nhưng, khi dữ liệu có hình dạng phi tuyến tính, thì mô hình tuyến tính không thể nắm bắt được các tính năng phi tuyến tính.

Vì vậy, trong trường hợp này, bạn có thể sử dụng các cây quyết định, công việc tốt hơn trong việc nắm bắt sự phi tuyến tính trong dữ liệu bằng cách chia không gian thành các không gian con nhỏ hơn tùy thuộc vào các câu hỏi được hỏi.

Khi nào bạn sử dụng Rừng ngẫu nhiên và Cây quyết định?

Tôi đoán câu trả lời Quora ở đây sẽ làm việc tốt hơn tôi, khi giải thích sự khác biệt giữa chúng và các ứng dụng của chúng. Hãy để tôi trích dẫn điều đó cho bạn:

Giả sử bạn rất thiếu quyết đoán, vì vậy bất cứ khi nào bạn muốn xem phim, bạn sẽ hỏi bạn mình Willow nếu cô ấy nghĩ bạn sẽ thích nó. Để trả lời, trước tiên Willow cần tìm ra những bộ phim bạn thích, vì vậy bạn đưa cho cô ấy một loạt phim và nói cho cô ấy biết bạn có thích từng phim hay không (nghĩa là bạn đưa cho cô ấy một bộ huấn luyện có nhãn). Sau đó, khi bạn hỏi cô ấy rằng cô ấy có thích phim X hay không, cô ấy chơi một trò chơi giống như 20 câu hỏi với IMDB, hỏi những câu như "X có phải là một bộ phim lãng mạn không?", "Johnny Depp có đóng vai chính trong X không?" , và như thế. Cô ấy hỏi nhiều câu hỏi thông tin hơn trước (nghĩa là cô ấy tối đa hóa mức tăng thông tin của mỗi câu hỏi) và đưa ra câu trả lời có / không ở cuối.

Do đó, Willow là một cây quyết định cho sở thích phim của bạn.

Nhưng Willow chỉ là con người, vì vậy cô ấy không phải lúc nào cũng khái quát sở thích của bạn rất tốt (ví dụ, cô ấy mặc trang phục). Để nhận được các đề xuất chính xác hơn, bạn muốn hỏi một nhóm bạn bè của mình và xem phim X nếu hầu hết họ nói rằng họ nghĩ bạn sẽ thích nó. Đó là, thay vì chỉ hỏi Liễu, bạn cũng muốn hỏi Woody, Apple và Cartman, và họ bỏ phiếu xem bạn có thích phim không (ví dụ: bạn xây dựng một bộ phân loại đồng bộ, hay còn gọi là rừng trong trường hợp này).

Bây giờ bạn không muốn mỗi người bạn của mình làm điều tương tự và cho bạn câu trả lời giống nhau, vì vậy trước tiên bạn cung cấp cho mỗi người trong số họ dữ liệu hơi khác nhau. Rốt cuộc, bạn không hoàn toàn chắc chắn về sở thích của mình - bạn đã nói với Willow rằng bạn yêu Titanic, nhưng có lẽ bạn rất vui vì ngày đó là sinh nhật của bạn, vì vậy có lẽ một số bạn bè của bạn không nên sử dụng thực tế là bạn thích Titanic trong việc đưa ra khuyến nghị của họ. Hoặc có thể bạn nói với cô ấy rằng bạn yêu Lọ Lem, nhưng thực sự bạn thực sự thực sựYêu nó, vì vậy một số bạn bè của bạn nên cho Cinderella thêm trọng lượng. Vì vậy, thay vì cung cấp cho bạn bè của bạn cùng dữ liệu bạn đã cung cấp cho Liễu, bạn cung cấp cho họ các phiên bản hơi nhiễu. Bạn không thay đổi quyết định yêu / ghét của mình, bạn chỉ nói rằng bạn yêu / ghét một số phim ít nhiều (bạn cung cấp cho mỗi người bạn của bạn một phiên bản khởi động của dữ liệu đào tạo ban đầu của bạn). Ví dụ, trong khi bạn nói với Willow rằng bạn thích Black Swan và Harry Potter và không thích Avatar, bạn nói với Woody rằng bạn thích Black Swan rất nhiều, bạn đã xem nó hai lần, bạn không thích Avatar và không đề cập đến Harry Potter.

Bằng cách sử dụng bộ đồng phục này, bạn hy vọng rằng trong khi mỗi người bạn của bạn đưa ra các đề xuất có phần bình dị (Willow nghĩ rằng bạn thích phim ma cà rồng hơn bạn, Woody nghĩ rằng bạn thích phim Pixar và Cartman nghĩ rằng bạn chỉ ghét mọi thứ), các lỗi đã bị loại bỏ đa số. Do đó, bạn bè của bạn bây giờ tạo thành một khu rừng đóng gói (tổng hợp bootstrap) theo sở thích phim của bạn.

Tuy nhiên, vẫn còn một vấn đề với dữ liệu của bạn. Mặc dù bạn yêu thích cả Titanic và Inception, nhưng đó không phải vì bạn thích những bộ phim có sự tham gia của Leonardio DiCaprio. Có thể bạn thích cả hai bộ phim vì những lý do khác. Do đó, bạn không muốn bạn bè của mình dựa trên tất cả các đề xuất của họ về việc Leo có tham gia phim hay không. Vì vậy, khi mỗi người bạn hỏi IMDB một câu hỏi, chỉ một tập hợp con ngẫu nhiên của các câu hỏi có thể được cho phép (nghĩa là khi bạn xây dựng cây quyết định, tại mỗi nút bạn sử dụng một số ngẫu nhiên trong việc chọn thuộc tính để phân tách, nói bằng cách chọn ngẫu nhiên một thuộc tính hoặc bằng cách chọn một thuộc tính từ một tập hợp con ngẫu nhiên). Điều này có nghĩa là bạn bè của bạn không được phép hỏi liệu Leonardo DiCaprio có tham gia bộ phim bất cứ khi nào họ muốn hay không. Vì vậy, trong khi trước đó bạn đã tiêm ngẫu nhiên ở cấp dữ liệu,

Và vì vậy, bạn bè của bạn bây giờ tạo thành một khu rừng ngẫu nhiên.


7
when the data has a non-linear shape, then a linear model cannot capture the non-linear featuresĐây là một quan niệm sai lầm phổ biến. Trước hết, một hồi quy tuyến tính đơn giản có thể mô hình hóa các chỉ số chuỗi hài hòa.stackexchange.com/questions/60500/ . Thứ hai, tương tác tính năng có thể được giới thiệu và, tất nhiên, có mô hình tuyến tính tổng quát trong đó một hàm phi tuyến tính trên các thuật ngữ tuyến tính được giới thiệu (ví dụ, hồi quy logistic).
Ricardo Cruz

2

Theo tôi biết, không có quy tắc nào để nói thuật toán nào hoạt động cho tập dữ liệu nào. Chỉ cần đảm bảo rằng tập dữ liệu và các biến quan tâm của bạn đáp ứng các giả định trước khi chạy từng thuật toán và thử nó. Ví dụ, hồi quy tuyến tính có một số giả định trước như tính quy tắc của tính tương đồng, tính đồng nhất (độ biến thiên của biến trả lời là giống nhau ở tất cả các cấp của biến giải thích), v.v. Chỉ cần kiểm tra các biến này cho các biến của bạn và thử thuật toán.

Bạn có thể sử dụng một điểm và nhấp vào phần mềm để xem kết quả mà không cần tham gia vào cài đặt mã và tham số. Nếu bạn là người dùng R, gói rigs sẽ là một công cụ rất hữu ích ở giai đoạn này. Bạn thực hiện công việc của mình ở chế độ điểm và nhấp và bạn có quyền truy cập vào mã phía sau nó.


Nguyên tắc duy nhất tôi đã đọc là hồi quy xử lý nhiễu tốt hơn rừng ngẫu nhiên, điều này nghe có vẻ đúng vì cây quyết định là mô hình rời rạc, nhưng tôi chưa bao giờ thấy thử nghiệm định lượng này.
Ricardo Cruz
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.