Có một số đặc điểm có thể thêm cái nhìn sâu sắc vào sự hiểu biết về các phương pháp tập hợp.
Đóng bao
Có lẽ là phương pháp tập hợp đơn giản nhất, đóng bao, không gì khác hơn là một tập hợp các phân loại đồng nhất tương tự được xây dựng trên dữ liệu huấn luyện được ghép lại và được tổ chức cùng nhau bằng một phương pháp kết hợp, cải thiện phương sai gây ra bởi sự không ổn định trong các phân loại cơ sở bằng cách lấy trung bình các kết quả đầu ra của chúng. Nhóm này tận dụng sự không ổn định này để giải quyết thành phần phương sai của lỗi của trình phân loại cơ sở và ở mức độ thấp hơn độ lệch của chúng.
Bạn có thể nghĩ về việc đóng bao là cung cấp một mức độ làm mịn đáng kể cho phân loại cơ sở "yếu" rất không ổn định. Một lý do khác, ngoài xu hướng của chúng đối với hiệu quả tính toán, tại sao các phân loại yếu được chọn là vì chúng thể hiện tính đa dạng cao hơn, mà là một đặc tính có lợi cho quần thể
Nếu bạn hình dung một tập hợp được đóng gói đầy đủ các phân loại ổn định rất mạnh, họ sẽ có một mức độ thỏa thuận rất cao về phân loại các ví dụ được trình bày cho đoàn. Trong thực tế tất cả họ bỏ phiếu theo cùng một cách. Một ủy ban trong đó tất cả các thành viên bỏ phiếu tương tự có ít tiện ích hơn bất kỳ thành viên nào trong ủy ban.
Vì vậy, để hoạt động hiệu quả, một đoàn thể phải nắm lấy một mức độ đa dạng giữa các thành viên. Rõ ràng một ủy ban của các thành viên đưa ra ý kiến gần như ngẫu nhiên cũng không phải là tiện ích tuyệt vời. Vì vậy, một số vị trí trung gian giữa các thái cực được tìm kiếm.
Trong thực tế, vì không có lý thuyết hoàn chỉnh về chủ đề này, sự thỏa hiệp này được tìm thấy bằng các phương pháp thực nghiệm như xác nhận chéo hoặc tổ chức thử nghiệm. Chúng được sử dụng để đánh giá cường độ phù hợp cho phân loại cơ sở.
Bởi vì việc tìm kiếm một bộ đồng phục tối ưu này thường sẽ bao gồm việc điều chỉnh các tham số của các bộ phân loại cơ sở và bản thân bộ đồng phục, nên mong muốn số lượng các tham số như vậy được giữ càng nhỏ càng tốt. Nếu không, tính chiều của không gian tìm kiếm tham số nhanh chóng có nghĩa là việc tìm kiếm mức tối thiểu toàn cầu có thể tính toán được. Cây quyết định là một lựa chọn phổ biến bởi vì, như đã được đề cập, chúng có thể được sử dụng hiệu quả mà không nhất thiết phải điều chỉnh bất kỳ tham số nào của chúng.
Rừng ngẫu nhiên
Các khu rừng ngẫu nhiên, chủ yếu là cây quyết định đóng gói, thúc đẩy sự mất ổn định đáng kể của cây bằng cách tiêm một thành phần ngẫu nhiên mạnh [hoán vị một số lượng nhỏ các tính năng / yếu tố tại mỗi nút quyết định trong cây] để tạo ra sự đa dạng trong quần thể. Bởi vì mỗi nút của một cây được trình bày với một lựa chọn ngẫu nhiên các tính năng mới, các cây rất đa dạng. Nhóm này sau đó có tác dụng lấy trung bình phương sai và sai lệch của bộ sưu tập cây đa dạng.
Để có hiệu quả, một "rừng ngẫu nhiên" của các phân loại Bayes ngây thơ, hoặc bất kỳ phân loại cơ sở ổn định nào khác như SVM, cần thêm yếu tố ngẫu nhiên. Đối với các phân loại ổn định các biến thể tương đối nhỏ trong dữ liệu đào tạo, chẳng hạn như phát sinh từ việc đóng bao, dẫn đến các phân loại rất giống nhau.
Để tăng tính đa dạng, các phương pháp khác có thể được áp dụng. Ví dụ, hoán vị các tính năng được hiển thị cho mỗi phân loại cơ sở. Điều này có một hạn chế là sự đa dạng có sẵn đáng kể được giữ cho số lượng kết hợp của bộ tính năng. Khi các kết hợp đã hết, không có phân loại mới nào có sẵn cho nhóm sẽ bỏ phiếu khác nhau cho các thành viên hiện tại.
Đối với các vấn đề với tương đối ít tính năng, điều này hạn chế nghiêm trọng nhóm phân loại có sẵn. Có thể tiêm thêm các nguồn ngẫu nhiên, bằng cách tích cực lấy mẫu phụ dữ liệu đào tạo. Bằng chứng dường như là, trong trường hợp chung, cách tiếp cận như vậy kém hơn sự pha trộn đặc biệt của sự thiên vị và sự đa dạng mà một khu rừng ngẫu nhiên đưa ra.
Có thể sử dụng thành công các phân loại cơ sở không ổn định khác, chẳng hạn như các tri giác đa lớp (mạng lưới thần kinh) có ít nút và số lượng hạn chế của phương pháp đào tạo hoặc lấp đầy không gian dựa trên phân biệt đối xử ngẫu nhiên, để đưa ra sự đa dạng trong các phương pháp. Chắc chắn trong trường hợp MLP, một mức độ điều chỉnh tham số là điều cần thiết.
Tăng cường
Boosting có một cách tiếp cận khác để xây dựng đoàn thể so với mô hình kết tụ đơn giản được áp dụng bởi Bagging. Tôi cho rằng về mặt khái niệm nếu bạn nghĩ về việc đóng gói như là một mô hình tập hợp phẳng, thúc đẩy xây dựng một phân loại lớp.
Mỗi vòng tăng tốc chọn một phân loại mới từ một nhóm các phân loại tiềm năng được xây dựng từ dữ liệu huấn luyện có trọng số hoặc được định cỡ lại, theo các phân loại sai của vòng trước. Trình phân loại mới được chọn để giảm thiểu lỗi tổng thể.
Điều này trái ngược hoàn toàn với việc thiếu các tiêu chí lựa chọn gây phẫn nộ trong xây dựng quần thể rừng ngẫu nhiên. Mỗi phân loại cơ sở mới được đặc biệt yêu cầu để tập trung vào các điểm yếu của đoàn thể hiện có, với kết quả là thúc đẩy mạnh mẽ các lỗi đào tạo.
Trong giai đoạn đầu của việc tăng cường xây dựng đồng bộ có một vài phân loại yếu và mỗi loại tập trung vào các lĩnh vực khác nhau của không gian đào tạo, tác dụng của việc này chủ yếu là làm giảm sự thiên vị. Khi kích thước đồng bộ tăng lên, phạm vi giảm độ lệch sẽ giảm và lỗi từ phương sai được cải thiện.
Lợi ích từ sự không ổn định trong trình phân loại cơ sở để tăng cường là khi tập hợp phát triển, số lượng các ví dụ phân loại sai còn lại giảm xuống. Một mức độ đa dạng cao hơn là cần thiết để tạo ra một bộ phân loại thông qua một cái nhìn khác biệt hữu ích về các mẫu còn lại so với các mẫu trước đó.
Sức mạnh của phương pháp này có thể được nhìn thấy bởi thực tế là có thể đạt được kết quả chấp nhận được chỉ với các gốc quyết định, mặc dù MLP đã tỏ ra rất hiệu quả nói chung.
Do sự tập trung liên tục này vào các ví dụ được phân loại sai, điểm yếu của việc tăng cường là nó có thể dễ bị nhiễu, trong một chừng mực nào đó logitboost cố gắng giải quyết sự thất bại này.
Không ăn trưa miễn phí
Điều đáng ghi nhớ là không có lý thuyết thống nhất lớn nào về học máy và kết quả của bất kỳ phân loại cụ thể nào phụ thuộc nhiều vào loại dữ liệu được sử dụng. Vì vậy, một tiên nghiệm, không có lý do nào khó và nhanh để khẳng định một loại phân loại vượt trội hơn loại khác, ngoài sự đồng thuận xuất phát từ thử nghiệm trước đó với dữ liệu tương tự và tiện ích chung được hiển thị bởi thuật toán trên nhiều bộ dữ liệu. Để có được một giải pháp tốt, bạn có thể muốn thử nghiệm một số phương pháp phổ biến.