Tại sao phương pháp thúc đẩy lại nhạy cảm với các ngoại lệ


12

Tôi tìm thấy nhiều bài báo nói rằng các phương pháp thúc đẩy rất nhạy cảm với các ngoại lệ, nhưng không có bài viết nào giải thích lý do tại sao.

Theo kinh nghiệm của tôi, các ngoại lệ rất tệ đối với bất kỳ thuật toán học máy nào, nhưng tại sao các phương pháp thúc đẩy lại được coi là đặc biệt nhạy cảm?

Làm thế nào các thuật toán sau để xếp hạng về độ nhạy cảm với các ngoại lệ: boost-tree, rừng ngẫu nhiên, mạng thần kinh, SVM và các phương pháp hồi quy đơn giản như hồi quy logistic?


1
Tôi đã chỉnh sửa để cố gắng làm rõ (ngoài ra nếu bạn đặt dấu cách ở đầu dòng, stackexchange sẽ coi nó là mã). Để para thứ hai của bạn, thúc đẩy là gì? Bạn có thể phải xác định độ nhạy.
Jeremy Miles

1
Ngoài ra, ngoại lệ và noice không giống nhau.
Jeremy Miles

Tôi sẽ không đánh dấu câu hỏi này là đã được giải quyết. Không rõ liệu tăng có thực sự chịu đựng các ngoại lệ nhiều hơn các phương pháp khác hay không. Có vẻ như câu trả lời được chấp nhận đã được chấp nhận chủ yếu là do sai lệch xác nhận.
rinspy

Bạn có thể chia sẻ một số bài viết này không?
acnalb

Câu trả lời:


11

Các ngoại lệ có thể không tốt cho việc tăng tốc vì việc tăng cường xây dựng mỗi cây trên các dư / lỗi của các cây trước đó. Các ngoại lệ sẽ có số dư lớn hơn nhiều so với các ngoại lệ, vì vậy việc tăng cường độ dốc sẽ tập trung một lượng không tương xứng sự chú ý của nó vào các điểm đó.


2
Sẽ tốt hơn nếu bạn có thể cung cấp thêm chi tiết toán học cho OP!
Metariat

5
@MHRattica Tôi không đồng ý rằng việc thêm chi tiết toán học sẽ cung cấp thêm sự rõ ràng ở đây. Nó sẽ chỉ là một biểu tượng cho độ dốc của cây và tỷ lệ học tiếp theo cây.
Ryan Zotti

1
@RyanZotti: Tôi đồng ý với Metariat. Ký hiệu chính thức hơn sẽ giải quyết một số nhầm lẫn. Ví dụ trong câu 'Outliers sẽ có số dư lớn hơn nhiều so với người không phải là ngoại lệ', ý bạn là phần dư được viết là gì? Mô hình ước tính hay đúng? Nếu cái trước, nó không đúng nói chung và nếu cái sau, nó không liên quan.
dùng603

1

Các thuật toán bạn đã chỉ định là để phân loại, vì vậy tôi giả sử bạn không có nghĩa là các ngoại lệ trong biến mục tiêu, nhưng các ngoại lệ của biến đầu vào. Các phương thức Boosted Tree nên khá mạnh mẽ để vượt trội hơn các tính năng đầu vào vì các trình học cơ sở là các phần tách cây. Ví dụ: nếu chia x > 3thì 5 và 5.000.000 được xử lý như nhau. Điều này có thể hoặc không thể là một điều tốt, nhưng đó là một câu hỏi khác.

Nếu thay vào đó, bạn đã nói về hồi quy và các ngoại lệ trong biến mục tiêu, thì độ nhạy của các phương thức cây được tăng cường sẽ phụ thuộc vào hàm chi phí được sử dụng. Tất nhiên, lỗi bình phương rất nhạy cảm với các ngoại lệ vì sự khác biệt là bình phương và điều đó sẽ ảnh hưởng lớn đến cây tiếp theo kể từ khi tăng các nỗ lực để phù hợp với mất (độ dốc của). Tuy nhiên, có nhiều hàm lỗi mạnh hơn có thể được sử dụng cho các phương thức cây được tăng cường như Mất Huber và Mất tuyệt đối.


0

Để tăng cường, chúng tôi cố gắng chọn tập dữ liệu mà kết quả thuật toán kém thay vì chọn ngẫu nhiên tập hợp con của dữ liệu. Các ví dụ cứng này là những ví dụ quan trọng cần học, vì vậy nếu tập dữ liệu có nhiều ngoại lệ và thuật toán không hoạt động tốt trên các ví dụ đó hơn là học các thuật toán ví dụ cứng đó sẽ cố gắng chọn các tập hợp con với các ví dụ đó.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.