Phân loại cơ sở để thúc đẩy


8

Các thuật toán tăng cường, chẳng hạn như AdaBoost , kết hợp nhiều phân loại 'yếu' để tạo thành một phân loại mạnh hơn. Mặc dù trong lý thuyết, việc tăng cường lý thuyết là có thể với bất kỳ phân loại cơ sở nào, nhưng trong thực tế, dường như các phân loại dựa trên cây là phổ biến nhất.

Tại sao lại thế này? Những thuộc tính nào của phân loại cây làm cho chúng phù hợp nhất cho nhiệm vụ này? Có bất kỳ phân loại cơ sở nào khác cũng có lợi rất nhiều từ việc thúc đẩy? Tôi hỏi với các vấn đề phân loại trong tâm trí, nhưng tôi cũng sẽ quan tâm đến câu trả lời liên quan đến các ứng dụng hồi quy.

Câu trả lời:


10

Tôi khá chắc chắn rằng bạn đúng và không có lý do nào nhất thiết phải sử dụng cây quyết định thay vì các phân loại khác. Điều đó nói rằng, tôi nghĩ rằng có một vài lý do chúng thường được sử dụng. Tốc độ là một yếu tố: Tăng tốc có thể yêu cầu đào tạo rất nhiều phân loại. Nếu mỗi cái là một mạng lưới thần kinh nhiều lớp khổng lồ, toàn bộ quy trình sẽ diễn ra rất chậm.

Quan trọng hơn, tôi nghĩ rằng cây quyết định là "đủ tốt." Vì toàn bộ ý tưởng đằng sau việc thúc đẩy là tập hợp các phân loại yếu , nên không có động cơ lớn để bỏ vào các giải pháp trọng lượng nặng có thể cần điều chỉnh nhiều hơn (ví dụ: đấu tranh với siêu âm và nhân cho SVM).

Cuối cùng, các cây tăng cường và quyết định, ít nhất là trong đầu tôi, có phần giống nhau về mặt khái niệm (ví dụ: thêm một nút / xây dựng một trình phân loại mới). Rất nhiều công cụ học tập dường như sử dụng cây. Tôi nghĩ bạn có thể có một "khu rừng ngẫu nhiên" của những người học Naive Bayes nếu bạn thực sự muốn.


1
Tôi không hoàn toàn chắc chắn về điều này, nhưng chủ đề này đi đến kết luận tương tự: stats.stackexchange.com/questions/13597/ợi
Matt Krause

Tôi nghĩ tốc độ có thể là thứ gì đó của cá trích đỏ ở đây - hầu hết thời gian tôi muốn có một bộ phân loại chính xác hơn so với thứ gì đó nhanh hơn một chút để đào tạo. Xét cho cùng, thời gian CPU khá rẻ hiện nay.
Martin O'Leary

Đúng, đúng, mặc dù sự hấp dẫn của việc tăng cường là bạn có thể nhận được các dự đoán nhanh, chính xác từ các phương pháp mà chỉ có thể đưa ra dự đoán nhanh cho bạn. Điều đó nói rằng, tôi nên nhấn mạnh chúng theo thứ tự này: Đủ tốt> tốc độ> bất cứ điều gì đang diễn ra trong đầu tôi :-)
Matt Krause

Tôi thấy những gì bạn đang nói, nhưng tôi vẫn cảm thấy rằng "đủ tốt" là một câu trả lời không thỏa mãn. Tôi có quan điểm của bạn về việc thiếu đấu tranh với các thông số siêu mặc dù.
Martin O'Leary

9

Có một số đặc điểm có thể thêm cái nhìn sâu sắc vào sự hiểu biết về các phương pháp tập hợp.

Đóng bao

Có lẽ là phương pháp tập hợp đơn giản nhất, đóng bao, không gì khác hơn là một tập hợp các phân loại đồng nhất tương tự được xây dựng trên dữ liệu huấn luyện được ghép lại và được tổ chức cùng nhau bằng một phương pháp kết hợp, cải thiện phương sai gây ra bởi sự không ổn định trong các phân loại cơ sở bằng cách lấy trung bình các kết quả đầu ra của chúng. Nhóm này tận dụng sự không ổn định này để giải quyết thành phần phương sai của lỗi của trình phân loại cơ sở và ở mức độ thấp hơn độ lệch của chúng.

Bạn có thể nghĩ về việc đóng bao là cung cấp một mức độ làm mịn đáng kể cho phân loại cơ sở "yếu" rất không ổn định. Một lý do khác, ngoài xu hướng của chúng đối với hiệu quả tính toán, tại sao các phân loại yếu được chọn là vì chúng thể hiện tính đa dạng cao hơn, mà là một đặc tính có lợi cho quần thể

Nếu bạn hình dung một tập hợp được đóng gói đầy đủ các phân loại ổn định rất mạnh, họ sẽ có một mức độ thỏa thuận rất cao về phân loại các ví dụ được trình bày cho đoàn. Trong thực tế tất cả họ bỏ phiếu theo cùng một cách. Một ủy ban trong đó tất cả các thành viên bỏ phiếu tương tự có ít tiện ích hơn bất kỳ thành viên nào trong ủy ban.

Vì vậy, để hoạt động hiệu quả, một đoàn thể phải nắm lấy một mức độ đa dạng giữa các thành viên. Rõ ràng một ủy ban của các thành viên đưa ra ý kiến ​​gần như ngẫu nhiên cũng không phải là tiện ích tuyệt vời. Vì vậy, một số vị trí trung gian giữa các thái cực được tìm kiếm.

Trong thực tế, vì không có lý thuyết hoàn chỉnh về chủ đề này, sự thỏa hiệp này được tìm thấy bằng các phương pháp thực nghiệm như xác nhận chéo hoặc tổ chức thử nghiệm. Chúng được sử dụng để đánh giá cường độ phù hợp cho phân loại cơ sở.

Bởi vì việc tìm kiếm một bộ đồng phục tối ưu này thường sẽ bao gồm việc điều chỉnh các tham số của các bộ phân loại cơ sở và bản thân bộ đồng phục, nên mong muốn số lượng các tham số như vậy được giữ càng nhỏ càng tốt. Nếu không, tính chiều của không gian tìm kiếm tham số nhanh chóng có nghĩa là việc tìm kiếm mức tối thiểu toàn cầu có thể tính toán được. Cây quyết định là một lựa chọn phổ biến bởi vì, như đã được đề cập, chúng có thể được sử dụng hiệu quả mà không nhất thiết phải điều chỉnh bất kỳ tham số nào của chúng.

Rừng ngẫu nhiên

Các khu rừng ngẫu nhiên, chủ yếu là cây quyết định đóng gói, thúc đẩy sự mất ổn định đáng kể của cây bằng cách tiêm một thành phần ngẫu nhiên mạnh [hoán vị một số lượng nhỏ các tính năng / yếu tố tại mỗi nút quyết định trong cây] để tạo ra sự đa dạng trong quần thể. Bởi vì mỗi nút của một cây được trình bày với một lựa chọn ngẫu nhiên các tính năng mới, các cây rất đa dạng. Nhóm này sau đó có tác dụng lấy trung bình phương sai và sai lệch của bộ sưu tập cây đa dạng.

Để có hiệu quả, một "rừng ngẫu nhiên" của các phân loại Bayes ngây thơ, hoặc bất kỳ phân loại cơ sở ổn định nào khác như SVM, cần thêm yếu tố ngẫu nhiên. Đối với các phân loại ổn định các biến thể tương đối nhỏ trong dữ liệu đào tạo, chẳng hạn như phát sinh từ việc đóng bao, dẫn đến các phân loại rất giống nhau.

Để tăng tính đa dạng, các phương pháp khác có thể được áp dụng. Ví dụ, hoán vị các tính năng được hiển thị cho mỗi phân loại cơ sở. Điều này có một hạn chế là sự đa dạng có sẵn đáng kể được giữ cho số lượng kết hợp của bộ tính năng. Khi các kết hợp đã hết, không có phân loại mới nào có sẵn cho nhóm sẽ bỏ phiếu khác nhau cho các thành viên hiện tại.

Đối với các vấn đề với tương đối ít tính năng, điều này hạn chế nghiêm trọng nhóm phân loại có sẵn. Có thể tiêm thêm các nguồn ngẫu nhiên, bằng cách tích cực lấy mẫu phụ dữ liệu đào tạo. Bằng chứng dường như là, trong trường hợp chung, cách tiếp cận như vậy kém hơn sự pha trộn đặc biệt của sự thiên vị và sự đa dạng mà một khu rừng ngẫu nhiên đưa ra.

Có thể sử dụng thành công các phân loại cơ sở không ổn định khác, chẳng hạn như các tri giác đa lớp (mạng lưới thần kinh) có ít nút và số lượng hạn chế của phương pháp đào tạo hoặc lấp đầy không gian dựa trên phân biệt đối xử ngẫu nhiên, để đưa ra sự đa dạng trong các phương pháp. Chắc chắn trong trường hợp MLP, một mức độ điều chỉnh tham số là điều cần thiết.

Tăng cường

Boosting có một cách tiếp cận khác để xây dựng đoàn thể so với mô hình kết tụ đơn giản được áp dụng bởi Bagging. Tôi cho rằng về mặt khái niệm nếu bạn nghĩ về việc đóng gói như là một mô hình tập hợp phẳng, thúc đẩy xây dựng một phân loại lớp.

Mỗi vòng tăng tốc chọn một phân loại mới từ một nhóm các phân loại tiềm năng được xây dựng từ dữ liệu huấn luyện có trọng số hoặc được định cỡ lại, theo các phân loại sai của vòng trước. Trình phân loại mới được chọn để giảm thiểu lỗi tổng thể.

Điều này trái ngược hoàn toàn với việc thiếu các tiêu chí lựa chọn gây phẫn nộ trong xây dựng quần thể rừng ngẫu nhiên. Mỗi phân loại cơ sở mới được đặc biệt yêu cầu để tập trung vào các điểm yếu của đoàn thể hiện có, với kết quả là thúc đẩy mạnh mẽ các lỗi đào tạo.

Trong giai đoạn đầu của việc tăng cường xây dựng đồng bộ có một vài phân loại yếu và mỗi loại tập trung vào các lĩnh vực khác nhau của không gian đào tạo, tác dụng của việc này chủ yếu là làm giảm sự thiên vị. Khi kích thước đồng bộ tăng lên, phạm vi giảm độ lệch sẽ giảm và lỗi từ phương sai được cải thiện.

Lợi ích từ sự không ổn định trong trình phân loại cơ sở để tăng cường là khi tập hợp phát triển, số lượng các ví dụ phân loại sai còn lại giảm xuống. Một mức độ đa dạng cao hơn là cần thiết để tạo ra một bộ phân loại thông qua một cái nhìn khác biệt hữu ích về các mẫu còn lại so với các mẫu trước đó.

Sức mạnh của phương pháp này có thể được nhìn thấy bởi thực tế là có thể đạt được kết quả chấp nhận được chỉ với các gốc quyết định, mặc dù MLP đã tỏ ra rất hiệu quả nói chung.

Do sự tập trung liên tục này vào các ví dụ được phân loại sai, điểm yếu của việc tăng cường là nó có thể dễ bị nhiễu, trong một chừng mực nào đó logitboost cố gắng giải quyết sự thất bại này.

Không ăn trưa miễn phí

Điều đáng ghi nhớ là không có lý thuyết thống nhất lớn nào về học máy và kết quả của bất kỳ phân loại cụ thể nào phụ thuộc nhiều vào loại dữ liệu được sử dụng. Vì vậy, một tiên nghiệm, không có lý do nào khó và nhanh để khẳng định một loại phân loại vượt trội hơn loại khác, ngoài sự đồng thuận xuất phát từ thử nghiệm trước đó với dữ liệu tương tự và tiện ích chung được hiển thị bởi thuật toán trên nhiều bộ dữ liệu. Để có được một giải pháp tốt, bạn có thể muốn thử nghiệm một số phương pháp phổ biến.


+1 khi đề cập đến NFL, nhưng tôi cho rằng NFL 'lý thuyết thống nhất lớn' về học máy, hoặc gần với những điều mà chúng ta có thể thấy ...
John Doucette
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.