Tại sao phân loại hồi quy sườn núi hoạt động khá tốt để phân loại văn bản?


17

Trong một thử nghiệm để phân loại văn bản, tôi đã tìm thấy trình phân loại sườn núi tạo ra kết quả liên tục đứng đầu các bài kiểm tra trong số các trình phân loại thường được đề cập và áp dụng cho các tác vụ khai thác văn bản, chẳng hạn như SVM, NB, kNN, v.v. về tối ưu hóa từng phân loại trên tác vụ phân loại văn bản cụ thể này ngoại trừ một số điều chỉnh đơn giản về các tham số.

Kết quả như vậy cũng được đề cập đến Dikran Marsupial .

Không đến từ nền tảng thống kê, sau khi đọc qua một số tài liệu trực tuyến, tôi vẫn không thể tìm ra lý do chính cho việc này. Bất cứ ai có thể cung cấp một số hiểu biết về kết quả như vậy?

Câu trả lời:


16

Các vấn đề phân loại văn bản có xu hướng khá cao (nhiều tính năng) và các vấn đề về chiều cao có khả năng phân tách tuyến tính (vì bạn có thể tách bất kỳ điểm d + 1 nào trong không gian d chiều bằng phân loại tuyến tính, bất kể các điểm đó như thế nào được dán nhãn). Vì vậy, các phân loại tuyến tính, cho dù hồi quy sườn hoặc SVM với hạt nhân tuyến tính, có khả năng làm tốt. Trong cả hai trường hợp, tham số sườn hoặc C cho SVM (như tdc đề cập +1) kiểm soát độ phức tạp của trình phân loại và giúp tránh sự phù hợp quá mức bằng cách tách các mẫu của mỗi lớp bằng lề lớn (nghĩa là bề mặt quyết định đi xuống giữa khoảng cách giữa hai tập hợp các điểm). Tuy nhiên, để có được hiệu năng tốt, các tham số sườn / chính quy cần phải được điều chỉnh chính xác (tôi sử dụng xác thực chéo bỏ qua một lần vì nó rẻ).

Tuy nhiên, lý do mà hồi quy sườn hoạt động tốt là các phương pháp phi tuyến tính quá mạnh và khó tránh khỏi sự phù hợp quá mức. Có thể có một bộ phân loại phi tuyến tính cho hiệu suất tổng quát hóa tốt hơn mô hình tuyến tính tốt nhất, nhưng quá khó để ước tính các tham số đó bằng cách sử dụng mẫu dữ liệu đào tạo hữu hạn mà chúng ta có. Trong thực tế, mô hình càng đơn giản, chúng ta càng ít gặp vấn đề trong việc ước tính các tham số, do đó ít có xu hướng phù hợp hơn, do đó chúng ta có kết quả tốt hơn trong thực tế.

Một vấn đề khác là lựa chọn tính năng, hồi quy sườn tránh sự phù hợp quá mức bằng cách thường xuyên các trọng số để giữ cho chúng nhỏ, và lựa chọn mô hình là đơn giản vì bạn chỉ phải chọn giá trị của một tham số hồi quy duy nhất. Nếu bạn cố gắng tránh phù hợp quá mức bằng cách chọn bộ tính năng tối ưu, thì việc lựa chọn mô hình sẽ trở nên khó khăn vì có một mức độ tự do (sắp xếp) cho từng tính năng, điều này có thể phù hợp với tiêu chí lựa chọn tính năng và bạn kết thúc với một tập hợp các tính năng tối ưu cho mẫu dữ liệu cụ thể này, nhưng mang lại hiệu suất khái quát kém. Vì vậy, không thực hiện lựa chọn tính năng và sử dụng chính quy hóa thường có thể mang lại hiệu suất dự đoán tốt hơn.

Tôi thường sử dụng Bagging (tạo thành một ủy ban mô hình được đào tạo trên các mẫu bootstraped từ tập huấn luyện) với các mô hình hồi quy sườn, thường mang lại sự cải thiện về hiệu suất và vì tất cả các mô hình đều tuyến tính, bạn có thể kết hợp chúng để tạo thành một mô hình tuyến tính duy nhất , do đó không có hiệu suất hit trong hoạt động.


Bạn có nghĩa là bất kỳ điểm trong không gian chiều? ví dụ: nếu bạn có 3 điểm trong không gian 2 chiều, với hai điểm thuộc lớp 1 và một điểm thuộc lớp 2 đều nằm trên một đường thẳng, với điểm của lớp 2 nằm giữa hai điểm còn lại, thì hai điểm này không thể tách rời một dòng (siêu phẳng 1-d)d-1d
tdc

Thông thường người ta cho rằng các điểm nằm ở "vị trí chung", do đó (ví dụ) chúng không nằm trên một đường thẳng, trong trường hợp đó trong không gian 2 chiều, bạn có thể tách 3 điểm bất kỳ. Nếu tất cả các điểm nằm trên một đường thẳng thì thực sự chúng cư trú trong không gian con 1-d được nhúng trong không gian 2-d.
Dikran Marsupial

Trên wikipedia có tuyên bố "vì phương pháp tính trung bình một số dự đoán, nên nó không hữu ích để cải thiện các mô hình tuyến tính" mặc dù tôi không chắc tại sao điều này lại đúng?
tdc

Tôi cũng không hiểu tại sao điều đó cũng đúng. Tôi nghi ngờ vấn đề rằng một mô hình tuyến tính được đóng gói có thể được biểu diễn chính xác bằng một mô hình tuyến tính duy nhất, tuy nhiên vấn đề là ước tính các tham số của mô hình đơn lẻ, không phải là hình thức của mô hình. Tôi đã thấy việc đóng bao không cải thiện việc khái quát hóa, nhưng mức tăng nói chung là nhỏ trừ khi bạn có nhiều tính năng hơn so với quan sát (do đó việc ước tính mô hình không ổn định và một thay đổi nhỏ trong dữ liệu tạo ra sự thay đổi lớn trong mô hình).
Dikran Marsupial

Có lẽ bạn nên cập nhật trang Wikipedia! Bạn có vẻ am hiểu về vấn đề này ...
tdc

6

Hồi quy sườn, như tên cho thấy, là một phương pháp cho hồi quy chứ không phải phân loại. Có lẽ bạn đang sử dụng một ngưỡng để biến nó thành một bộ phân loại. Trong mọi trường hợp, bạn chỉ cần học một trình phân loại tuyến tính được xác định bởi một siêu phẳng. Lý do nó hoạt động là vì nhiệm vụ trong tay về cơ bản có thể phân tách tuyến tính - tức là một siêu phẳng đơn giản là tất cả những gì cần thiết để phân tách các lớp. Tham số "sườn núi" cho phép nó hoạt động trong các trường hợp không tách biệt hoàn toàn tuyến tính hoặc các vấn đề thiếu thứ hạng (trong trường hợp tối ưu hóa sẽ bị suy giảm).

Trong trường hợp này, không có lý do tại sao các phân loại khác cũng không nên hoạt động tốt, giả sử rằng chúng đã được thực hiện đúng. Ví dụ, SVM tìm thấy "siêu phẳng tách tối ưu" (nghĩa là siêu phẳng tối đa hóa lề hoặc khoảng cách giữa các lớp). Các Ctham số của SVM là một tham số kiểm soát công suất tương tự như tham số sườn núi, cho phép đối với một số misclassifications (outliers). Giả sử quá trình lựa chọn tham số đã được thực hiện một cách chăm chỉ, tôi sẽ mong đợi hai phương pháp tạo ra kết quả gần như chính xác trên một tập dữ liệu như vậy.


2
Tôi nhớ đọc nó có thể được chỉ ra rằng phân loại nhị phân LS-SVM tương đương với Hồi quy độ dốc trên nhãn -1,1, công thức của chúng là như nhau.
Firebug

Hãy nghĩ rằng bạn có thể đúng về điều đó
tdc
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.