Hồi quy dựa trên cây có thể thực hiện kém hơn hồi quy tuyến tính đơn giản?


9

Xin chào, tôi đang nghiên cứu kỹ thuật hồi quy.

Dữ liệu của tôi có 15 tính năng và 60 triệu ví dụ (nhiệm vụ hồi quy).

Khi tôi thử nhiều kỹ thuật hồi quy đã biết (cây tăng cường độ dốc, hồi quy cây quyết định, AdaBoostRegressor, v.v.), hồi quy tuyến tính thực hiện tuyệt vời.

Ghi gần như tốt nhất trong số các thuật toán.

Điều gì có thể là lý do cho điều này? Bởi vì dữ liệu của tôi có rất nhiều ví dụ nên phương pháp dựa trên DT có thể phù hợp tốt.

  • sườn hồi quy tuyến tính chính quy, lasso thực hiện tồi tệ hơn

Bất cứ ai có thể cho tôi biết về các thuật toán hồi quy hiệu suất tốt khác?

  • Là máy Factorization và hỗ trợ hồi quy vector kỹ thuật hồi quy tốt để thử?

2
Điều này có liên quan nhiều đến dữ liệu của bạn hơn thuật toán. Cấu trúc của hồi quy tuyến tính chỉ phù hợp với dữ liệu của bạn.
Matthew Drury

cảm ơn bạn đã trả lời @MatthewDrury. bằng cách quan sát các đặc điểm này, tôi đang cố gắng tìm các đặc điểm của dữ liệu của mình. Nó rõ ràng có các tính năng nhỏ và rất nhiều ví dụ. và làm việc tốt nhất trên hồi quy mạng thần kinh đơn giản. và bởi thực tế các mô hình không tham số như tăng cường độ dốc hoạt động kém hơn một chút so với hồi quy tham số (giả sử hình dạng của hàm), tôi có thể nói rằng dữ liệu của tôi không thể cung cấp nhiều thông tin chi tiết cho dữ liệu chưa biết cho dù tôi có bao nhiêu ví dụ? Tôi gặp rắc rối với việc khấu trừ đặc tính dữ liệu của tôi từ kết quả.
amityaffliction

Làm việc đầu tiên với nhiều hồi quy tuyến tính và sau đó, nghiên cứu các lô dư và như vậy để thực sự hiểu sự phù hợp. Sau đó, bạn có thể thấy những cách phù hợp là xấu. Đừng chỉ ném dữ liệu vào các thuật toán khác nhau, hãy làm việc chăm chỉ để hiểu sự phù hợp.
kjetil b halvorsen

@kjetilbhalvorsen cảm ơn đã trả lời. Tôi có 15 biến độc lập. Vì vậy, làm thế nào tôi có thể vẽ hoặc nhận được cái nhìn sâu sắc từ phù hợp còn lại. Bạn có thể giúp tôi được không?
amityaffliction

Câu trả lời:


11

Bạn không nên chỉ ném dữ liệu vào các thuật toán khác nhau và xem xét chất lượng của các dự đoán. Bạn cần hiểu dữ liệu của bạn tốt hơn, và cách tiếp cận đó là trước tiên, trực quan hóa dữ liệu của bạn (phân phối cận biên). Ngay cả khi cuối cùng bạn chỉ quan tâm đến các dự đoán, bạn sẽ ở vị trí tốt hơn để tạo ra các mô hình tốt hơn nếu bạn hiểu dữ liệu tốt hơn. Vì vậy, trước tiên, hãy cố gắng hiểu dữ liệu (và các mô hình đơn giản phù hợp với dữ liệu), và sau đó bạn ở vị trí tốt hơn nhiều để tạo ra các mô hình phức tạp hơn và hy vọng tốt hơn.

rTôi= =YTôi-Y^Tôi,Tôi= =1,2,Giáo dục,n

Để biết những gì cần kiểm tra, bạn cần hiểu các giả định đằng sau hồi quy tuyến tính, xem danh sách đầy đủ các giả định thông thường cho hồi quy tuyến tính là gì?

rTôiY^Tôi

Các giả định khác là tuyến tính . Để kiểm tra những cái đó, hãy vẽ các phần dư so với từng yếu tố dự đoán trong mô hình. Nếu bạn thấy bất kỳ sự hấp dẫn nào trong các lô đó, đó là bằng chứng chống lại tuyến tính. Nếu bạn tìm thấy phi tuyến tính, bạn có thể thử một số phép biến đổi hoặc (hiện đại hơn) bao gồm bộ dự báo phi tuyến tính đó trong mô hình theo cách phi tuyến tính, có thể sử dụng spline (bạn có 60 triệu ví dụ nên hoàn toàn khả thi! ).

xTôizTôixz

Một điều trị dài bằng sách là R Dennis Cook & Sanford Weisberg: "Dư lượng và ảnh hưởng trong hồi quy", Chapman & Hall. Một cách xử lý thời lượng sách hiện đại hơn là Frank Harrell: "Chiến lược mô hình hồi quy".

Và, đến với câu hỏi trong tiêu đề: "Hồi quy dựa trên cây có thể thực hiện tồi tệ hơn hồi quy tuyến tính đơn giản không?" Vâng, tất nhiên nó có thể. Các mô hình dựa trên cây có chức năng hồi quy là một hàm bước rất phức tạp. Nếu dữ liệu thực sự đến từ (hoạt động như mô phỏng từ) một mô hình tuyến tính, thì các hàm bước có thể là một xấp xỉ xấu. Và, như được thể hiện bằng các ví dụ trong câu trả lời khác, các mô hình dựa trên cây có thể ngoại suy xấu ngoài phạm vi của các dự đoán quan sát được. Bạn cũng có thể thử Randomforrest và xem nó tốt hơn bao nhiêu so với một cây.


3
Chỉ cần làm rõ: Khi bạn nói "phân phối biên", bạn cũng có thể nói nhìn vào phân phối đơn biến của từng biến, đúng không? Chúng là "cận biên" theo nghĩa là các bản phân phối sẽ xuất hiện trên lề của một biểu đồ phân tán hoặc một cái gì đó.
Đánh dấu trắng

Một câu hỏi khác: Bạn nói "Bạn không nên ném dữ liệu vào các thuật toán khác nhau và xem xét chất lượng của các dự đoán." Câu hỏi của tôi là: Tại sao? Nếu bạn đang kiểm tra độ chính xác trên dữ liệu thử nghiệm, đó là. Nếu chúng ta quan tâm nhiều hơn đến dự đoán, thì chúng ta không cần phải lo lắng về lỗi Loại I hoặc bất cứ điều gì tương tự sẽ là vấn đề nếu chúng ta quan tâm đến ý nghĩa thống kê và nhiều thử nghiệm.
Đánh dấu trắng

Ngay cả khi cuối cùng bạn chỉ quan tâm đến các dự đoán, bạn sẽ ở vị trí tốt hơn với các mô hình tốt hơn nếu bạn hiểu dữ liệu tốt hơn. Vì vậy, trước tiên, hãy cố gắng hiểu dữ liệu (và các mô hình đơn giản được trang bị dữ liệu) tốt hơn, và sau đó bạn ở vị trí tốt hơn nhiều để tạo ra các mô hình phức tạp hơn và hy vọng tốt hơn.
kjetil b halvorsen

9

Peter Ellis có một ví dụ rất đơn giản

Hình ảnh được tải lên từ trang web được liên kết

trong đó hồi quy tuyến tính thực hiện tốt hơn cây hồi quy, ngoại suy các giá trị quan sát được trong mẫu.

Trong ảnh này, các điểm đen là các giá trị được quan sát và các điểm màu là các giá trị dự đoán. Dữ liệu thực tế được tạo theo một dòng đơn giản với một số nhiễu, do đó hồi quy tuyến tính và mạng nơ ron thực hiện tốt công việc ngoại suy ngoài dữ liệu được quan sát. Các mô hình dựa trên cây không.

Giờ đây, với 60 triệu điểm dữ liệu, bạn có thể không lo lắng về điều này. (Tương lai luôn làm tôi ngạc nhiên!) Nhưng đó là một minh họa trực quan cho một tình huống trong đó cây sẽ thất bại.


cảm ơn bạn đã trả lời trực quan mặc dù tôi có nhiều điểm dữ liệu, xem xét các đặc điểm của dữ liệu của tôi, tôi nghĩ rằng nó không thể ngoại suy!
amityaffliction

vì mô hình dựa trên NN thực hiện tốt hơn hồi quy tuyến tính.
amityaffliction

thêm một câu hỏi "Khó ngoại suy" là vấn đề phổ biến của các kỹ thuật hồi quy không tham số?
amityaffliction

Không tham số là một mạng lưới rộng. Để ngoại suy bạn cần xác định một số hàm liên tục tiềm ẩn. Các mô hình cây giống như xác định nhiều bước nhỏ, do đó chúng không đi theo dòng bên ngoài miền của mẫu được quan sát trong ví dụ này.
Andy W

5

Một thực tế nổi tiếng là cây không phù hợp để mô hình các mối quan hệ tuyến tính thực sự. Đây là một minh họa (Hình 8.7) từ cuốn sách ISLR : Hình 8.7

Hàng trên cùng: Một ví dụ phân loại hai chiều trong đó ranh giới quyết định thực sự là tuyến tính và được biểu thị bằng các vùng được tô bóng. Một cách tiếp cận cổ điển giả định một ranh giới tuyến tính (trái) sẽ tốt hơn một cây quyết định thực hiện phân tách song song với các trục (phải).

Vì vậy, nếu biến phụ thuộc của bạn phụ thuộc vào các biến hồi quy theo kiểu tuyến tính nhiều hay ít, bạn sẽ mong đợi rằng "hồi quy tuyến tính thực hiện tuyệt vời".


2

Bất kỳ cách tiếp cận dựa trên cây quyết định nào (GIỎI, C5.0, rừng ngẫu nhiên, cây hồi quy Boosted, v.v.) xác định các khu vực đồng nhất trong dữ liệu của bạn và gán giá trị trung bình của dữ liệu trong vùng đó cho 'rời' tương ứng. Vì vậy, chúng là dạng hạt và sau đó, chúng phải hiển thị một loạt các bước trong đầu ra. Những người dựa trên 'rừng' không cho thấy hiện tượng đó rõ rệt nhưng nó vẫn còn đó. Sự kết hợp của một số lượng lớn các sắc thái của nó. Khi một giá trị nhất định nằm ngoài phạm vi ban đầu, mốc thời gian được gán cho 'nghỉ' bao gồm điều kiện khắc nghiệt được tìm thấy trong tập dữ liệu huấn luyện và do đó đầu ra là giá trị trung bình của các giá trị có trong phần còn lại đó. Vì vậy, không ngoại suy là có thể. Nhân tiện, ANN là những người ngoại suy kém. Bạn có thể kiểm tra: Pichaid Varoonchotikul - Dự báo lũ bằng cách sử dụng thần kinh nhân tạo và Hettiarachchi et al. Phép ngoại suy của các mạng nơ ron nhân tạo để mô hình hóa các mối quan hệ dòng chảy mưa của chúng rất minh họa và rất dễ tìm thấy trên mạng! Chúc may mắn!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.