Khi nào tôi không nên sử dụng một bộ phân loại đồng bộ?


17

Nói chung, trong một vấn đề phân loại trong đó mục tiêu là dự đoán chính xác tư cách thành viên của lớp ngoài mẫu, khi nào tôi không nên sử dụng một bộ phân loại đồng bộ?

Câu hỏi này liên quan chặt chẽ với Tại sao không luôn luôn sử dụng học tập hòa đồng? . Câu hỏi đó hỏi tại sao chúng ta không sử dụng tất cả các thời gian. Tôi muốn biết liệu có những trường hợp trong đó các bản hòa tấu được biết là tồi tệ hơn (không chỉ là "không tốt hơn và lãng phí thời gian") hơn là một bản hòa tấu không đồng bộ.

Và bằng cách "phân loại đồng bộ", tôi đặc biệt đề cập đến các trình phân loại như AdaBoost và các khu rừng ngẫu nhiên, trái ngược với, ví dụ, một máy vectơ hỗ trợ tăng cường của chính bạn.


2
Tôi sẽ không sử dụng các phương thức tập hợp nếu bạn không có sự đa dạng giữa các phương thức riêng lẻ. Nói cách khác, tập hợp rất hữu ích khi bạn kết hợp tập hợp các phương thức khác nhau.
dự báo

2
@forecaster Tôi không thể giúp thêm một bài báo rất hay về những gì các tác giả gọi là các trang đa dạng "tốt" và "xấu" .bangor.ac.uk/~mas00a/ con / gblkMCS10.pdf trong bối cảnh của các bản hòa tấu
Vladislavs Dovgalecs

@xeon bài viết hay. Bất kể phương pháp học máy nào là rừng ngẫu nhiên hoặc tập hợp (kết hợp) các phương pháp khác nhau, sự đa dạng chắc chắn sẽ giúp ích. Có một lý thuyết mạnh mẽ đằng sau điều này và nó được gọi là b i o l o g i c a l l y i n s p i r e d . nmộttbạnrebTôiotôiogTôicmộttôitôiy TôinSpTôired
dự báo

Câu trả lời:


7

Mô hình gần nhất với quy trình tạo dữ liệu thực sự sẽ luôn luôn tốt nhất và sẽ đánh bại hầu hết các phương thức tập hợp. Vì vậy, nếu dữ liệu đến từ một quy trình tuyến tính lm () sẽ vượt trội hơn nhiều so với các khu rừng ngẫu nhiên, ví dụ:

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

13

Tôi không khuyên bạn nên sử dụng một bộ phân loại đồng bộ khi mô hình của bạn cần có thể giải thích và giải thích được. Đôi khi bạn cần dự đoán giải thích về dự đoán.

Khi bạn cần thuyết phục mọi người rằng những dự đoán đó đáng để tin, một mô hình có độ chính xác cao có thể rất thuyết phục, nhưng tôi đã đấu tranh để thuyết phục mọi người hành động theo dự đoán khi các phương pháp quá phức tạp đối với mức độ thoải mái của họ.

Theo kinh nghiệm của tôi, hầu hết mọi người đều cảm thấy thoải mái với các mô hình phụ gia tuyến tính, các mô hình họ có thể ghi điểm bằng tay và nếu bạn cố gắng giải thích các hiệu ứng tăng cường thích nghi, siêu phẳng và hiệu ứng tương tác cấp 5, họ sẽ phản hồi như thể bạn đang ném ma thuật đen.

Mặt khác, mọi người có thể thoải mái với sự phức tạp của mô hình, nhưng vẫn muốn nội tâm hóa một số cái nhìn sâu sắc. Các nhà khoa học, chẳng hạn, có thể không coi mô hình hộp đen là một tiến bộ về kiến ​​thức của con người, ngay cả khi mô hình này có độ chính xác cao.

Phân tích tầm quan trọng của biến có thể giúp hiểu biết sâu sắc, nhưng nếu tập hợp chính xác hơn mô hình phụ gia tuyến tính, thì đoàn có thể khai thác một số hiệu ứng phi tuyến tính và tương tác mà phân tích tầm quan trọng của biến không thể giải thích được.


Không phải những gì tôi đã sau, nhưng điểm tốt. +1
Shadowtalker

3

Tôi muốn thêm vào câu trả lời của branco. Các nhóm nhạc có thể cạnh tranh cao và cung cấp kết quả rất tốt. Trong các học giả chẳng hạn, đây là những gì được tính. Trong công nghiệp, các nhóm có thể quá khó để thực hiện / duy trì / sửa đổi / cổng. Công trình của Goef Hinton về "Kiến thức đen tối" chính xác là về điều này: làm thế nào để chuyển "kiến thức" của một đoàn thể lớn thành một người dễ dàng di chuyển xung quanh mô hình. Ông nói rằng các bản hòa tấu rất tệ trong thời gian thử nghiệm: chúng rất dư thừa và thời gian tính toán có thể gây lo ngại.

Nhóm của anh ấy đã nhận được một số kết quả thú vị, tôi đề nghị kiểm tra các ấn phẩm của anh ấy hoặc ít nhất là các slide. Nếu trí nhớ của tôi tốt, đây là một trong những chủ đề nóng năm 2013 hoặc 2014.

Các slide về Kiến thức đen có thể được tìm thấy ở đây: http://www.ttic.edu/dl/dark14.pdf

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.