Mô hình GIỎ HÀNG có thể được thực hiện mạnh mẽ?


14

Một đồng nghiệp trong văn phòng của tôi đã nói với tôi hôm nay "Mô hình cây không tốt vì chúng bị bắt bởi những quan sát cực đoan".

Một tìm kiếm ở đây đã dẫn đến chủ đề này về cơ bản hỗ trợ cho yêu cầu.

Điều này dẫn tôi đến câu hỏi - trong trường hợp nào mô hình GIỎI có thể mạnh mẽ và nó được hiển thị như thế nào?

Câu trả lời:


15

Không, không phải trong các hình thức hiện tại của họ. Vấn đề là các chức năng mất lồi không thể trở nên mạnh mẽ để gây ô nhiễm bởi các ngoại lệ (đây là một thực tế nổi tiếng từ những năm 70 nhưng vẫn được phát hiện lại theo định kỳ, ví dụ, xem bài báo này để khám phá lại gần đây):

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

Bây giờ, trong trường hợp cây hồi quy, thực tế là GIỎI sử dụng các lề (hoặc các phép chiếu đơn biến khác) có thể được sử dụng: người ta có thể nghĩ đến một phiên bản GIỜ trong đó tiêu chí sd được thay thế bằng một đối tác mạnh hơn (MAD hoặc tốt hơn, Dự toán Qn).

Biên tập:

Gần đây tôi đã bắt gặp một bài báo cũ hơn thực hiện phương pháp được đề xuất ở trên (sử dụng công cụ ước lượng M mạnh mẽ thay vì MAD). Điều này sẽ mang lại sự mạnh mẽ cho "y" các ngoại lệ đối với GIỎI / RF (nhưng không phải là các ngoại lệ nằm trên không gian thiết kế, điều này sẽ ảnh hưởng đến ước tính của các tham số siêu mô hình) Xem:

Galimberti, G., Pillati, M., & Soffritti, G. (2007). Cây hồi quy mạnh mẽ dựa trên ước lượng M. Statistica, LXVII, 173 Từ190.


Cảm ơn bạn kwak. Bài viết này dường như đang nói về các phương pháp thúc đẩy. Các kết quả mà họ trình bày có giữ cho trường hợp phân loại đơn giản của mô hình GIỎ HÀNG không? (trên bề mặt nghe có vẻ như vậy, nhưng tôi đã không xem qua bài viết đủ để thực sự biết)
Tal Galili

Kết quả mà họ trình bày giữ cho bất kỳ chức năng mất lồi nào, và ban đầu được thảo luận bởi Tukey. Để tổng hợp mọi thứ, thước đo mức độ lây lan (Gini hoặc entropy) được sử dụng để định lượng chất lượng của nút rất nhạy cảm với sự nhiễm bẩn bởi các ngoại lệ (nghĩa là các quan sát bị dán nhãn sai trong tập dữ liệu). Vấn đề này ảnh hưởng đến cả tòa nhà và giai đoạn prising. Việc ô nhiễm một tập dữ liệu bằng cách quan sát với nhãn bị nhầm lẫn thường sẽ khiến cây kết quả quá phức tạp (bạn có thể tự mình kiểm tra điều này khá dễ dàng).
user603

Cảm ơn bạn Kwak! Và không có chức năng mất mà là mạnh mẽ?
Tal Galili

1
không có chức năng mất lồi . Xem bài viết này "Một thuật toán nhanh cho công cụ ước lượng xác định hiệp phương sai tối thiểu" để biết ví dụ về những gì có thể được thực hiện với các hàm mất không lồi (mặc dù không liên quan đến phân loại, bài viết này đáng để đọc).
user603

2
@Tal GIỎI tương đương với việc tăng tốc của "trình phân loại trục" (tiêu chí nằm trong mỗi nút cây, giống như một số công cụ ghi thuộc tính hơn một cái gì đó hoặc một giá trị thuộc tính nào đó trong tập hợp một cái gì đó).

6

Bạn có thể cân nhắc sử dụng đóng gói hoặc rừng ngẫu nhiên của Breiman . Một tài liệu tham khảo tốt là "Dự đoán đóng bao" của Breiman (1996). Cũng được tóm tắt trong "Cây phân loại và hồi quy, đóng bao và tăng cường" của Clifton Sutton trong Sổ tay thống kê.

Bạn cũng có thể xem thảo luận của Andy Liaw và Matthew Wiener R News về gói RandomForest.


2
Không làm hỏng bữa tiệc, nhưng làm thế nào rừng ngẫu nhiên được cung cấp mạnh mẽ để gây ô nhiễm bởi các ngoại lệ là một bí ẩn.
user603

3
@kwak Tuy nhiên, đây là một câu trả lời tốt; cây trong RF không nhìn thấy toàn bộ, vì vậy nhiều cây sẽ không bị ô nhiễm. Thậm chí tốt hơn - theo dõi trong đó lá làm trường hợp OOB đất có thể được sử dụng để tìm các đối tượng dán nhãn sai và loại bỏ chúng. (Như tôi nhớ lại bây giờ, điều này được đề cập trong bài báo của Breiman về RF).

4
Vấn đề là các ngoại lệ sẽ làm cho một số cây 'xấu' (tức là bị ô nhiễm) trông đẹp hơn cây tốt (không bị nhiễm bẩn). Điều này được gọi là, hiệu ứng mặt nạ và dễ dàng sao chép với dữ liệu mô phỏng. Vấn đề xuất hiện bởi vì tiêu chí bạn sử dụng để đánh giá cây không phải là mạnh mẽ đối với các ngoại lệ. Tôi biết tôi bắt đầu nghe giống như một mullah cơ bản, nhưng trừ khi mọi công cụ bạn sử dụng đều được thực hiện mạnh mẽ, quy trình của bạn có thể được hiển thị là nhạy cảm (ở cấp độ này hay cấp độ khác) đối với các ngoại lệ (và do đó không mạnh mẽ).
user603

3

Nếu bạn kiểm tra gói 'gbm' trong R (tăng cường độ dốc tổng quát), 'tăng cường' sử dụng các hàm mất không nhất thiết có nghĩa là lỗi bình phương. Điều này hiển thị trong đối số 'phân phối' cho hàm 'gbm ()'. Do đó, việc xây dựng cây thông qua việc tăng cường sẽ chống lại các ngoại lệ, tương tự như cách các công cụ ước tính M hoạt động.

Bạn có thể bắt đầu ở đây .

Một cách tiếp cận khác là xây dựng cây theo cách thông thường (phân vùng dựa trên SSE), nhưng cắt tỉa cây bằng cách sử dụng xác nhận chéo với một biện pháp phù hợp mạnh mẽ. Tôi nghĩ rằng xpred trong rpart sẽ đưa ra các dự đoán được xác thực chéo (đối với nhiều loại phức tạp khác nhau của cây), sau đó bạn có thể áp dụng biện pháp lỗi của riêng mình, chẳng hạn như giá trị tuyệt đối trung bình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.