Trình phân loại 2 lớp tốt nhất cho ứng dụng của bạn là gì? [đóng cửa]


15

Quy tắc:

  • một phân loại cho mỗi câu trả lời
  • bỏ phiếu nếu bạn đồng ý
  • downvote / loại bỏ trùng lặp.
  • đưa ứng dụng của bạn vào bình luận

Câu trả lời:


14

Rừng ngẫu nhiên

  • dễ dàng nắm bắt cấu trúc phức tạp / mối quan hệ phi tuyến
  • bất biến đối với thang đo của biến
  • không cần tạo các biến giả cho các yếu tố dự đoán phân loại
  • lựa chọn biến không cần nhiều
  • tương đối khó để vượt qua

Lựa chọn mô-đun hoạt động Aptamer, dự báo độ ẩm mặt đất rừng, OCR chữ số, phân tích hình ảnh vệ tinh đa phương, truy xuất thông tin âm nhạc, hóa học ...

13

Hồi quy logistic :

  • nhanh và hoạt động tốt trên hầu hết các tập dữ liệu
  • hầu như không có thông số để điều chỉnh
  • xử lý cả các tính năng rời rạc / liên tục
  • mô hình dễ hiểu
  • (không thực sự giới hạn trong phân loại nhị phân)

Có thể không có tham số để điều chỉnh, nhưng người ta phải thực sự làm việc với các biến liên tục (biến đổi, spline, v.v.) để tạo ra phi tuyến tính.
B_Miner

12

Không có bất cứ điều gì thực sự đặc biệt về SVM, ngoài việc nó buộc người dùng phải suy nghĩ về việc chính quy hóa. Đối với hầu hết các vấn đề thực tế [kernel] hồi quy sườn cũng hoạt động tốt.
Dikran Marsupial

2
@dikran Tôi nghĩ rằng SVM là một trình phân loại tuyệt vời vì nó thưa thớt và mạnh mẽ đối với các ngoại lệ - điều này không đúng với Hồi quy Logistic! và đó là lý do tại sao SVM là phân loại hiện đại. Vấn đề duy nhất có thể là vấn đề là - sự phức tạp về thời gian - nhưng tôi nghĩ nó ổn.
suncoolsu

@suncoolsu Nếu bạn muốn có sự thưa thớt, bạn sẽ nhận được nhiều sự thưa thớt hơn từ hồi quy logistic thường xuyên với LASSO so với bạn làm với SVM. Độ thưa thớt của SVM là sản phẩm phụ của hàm mất mát, vì vậy bạn không nhận được nhiều như bạn làm với thuật toán trong đó độ thưa là mục tiêu thiết kế. Cũng thường với giá trị tối ưu của siêu tham số (ví dụ: được chọn thông qua xác thực chéo) hầu hết độ thưa thớt của biến mất SVM. SVM không mạnh hơn các ngoại lệ so với hồi quy logistic thường xuyên - chủ yếu là chính quy hóa là vấn đề, không phải là mất bản lề.
Dikran Marsupial

@Dikran - quan điểm của tôi chính xác - một số loại hình phạt là quan trọng. Bạn có thể có được điều đó bằng cách sử dụng Priors, thêm Penalty, v.v.
suncoolsu

1
@suncoolsu Trong trường hợp đó, SVM không phải là một bộ phân loại tuyệt vời, nó chỉ là một trong số nhiều bộ phân loại chính quy, như hồi quy sườn, hồi quy logistic thường xuyên, Quy trình Gaussian. Lợi ích chính của SVM là sự hấp dẫn của nó từ lý thuyết học tập tính toán. Trong thực tế, các cân nhắc khác quan trọng hơn, chẳng hạn như bạn có cần phân loại xác suất hay không, trong đó các hàm mất mát khác có khả năng vượt trội. IMHO, có quá nhiều sự chú ý dành cho SVM, hơn là nhóm phương thức kernel rộng hơn.
Dikran Marsupial

7

Phân biệt đối xử thường xuyên cho các vấn đề được giám sát với dữ liệu ồn ào

  1. Tính toán hiệu quả
  2. Mạnh mẽ với tiếng ồn và ngoại lệ trong dữ liệu
  3. Cả hai trình phân loại phân biệt tuyến tính (LD) và phân biệt đối xử bậc hai (QĐ) đều có thể được lấy từ cùng một cài đặt thực hiện các tham số chính quy '[lambda, r]' thành '[1 0]' cho trình phân loại LD và '[0 0]' cho Phân loại QĐ - rất hữu ích cho mục đích tham khảo.
  4. Mô hình dễ diễn giải và xuất khẩu
  5. Hoạt động tốt cho các tập dữ liệu thưa và 'rộng' trong đó ma trận hiệp phương sai lớp có thể không được xác định rõ.
  6. Ước tính xác suất của lớp sau có thể được ước tính cho mỗi mẫu bằng cách áp dụng hàm softmax cho các giá trị phân biệt cho mỗi lớp.

Liên kết đến bài báo gốc năm 1989 của Friedman et al tại đây . Ngoài ra, có lời giải thích rất hay của Kuncheva trong cuốn sách " Kết hợp các phân loại mẫu ".


5

Cây tăng cường Gradient.

  • Ít nhất là chính xác như RF trên rất nhiều ứng dụng
  • Kết hợp các giá trị bị thiếu liền mạch
  • Tầm quan trọng của Var (như RF có lẽ thiên vị ủng hộ danh nghĩa cấp liên tục và nhiều cấp độ)
  • Lô đất phụ thuộc một phần
  • GBM so với RandomForest trong R: xử lý NHIỀU bộ dữ liệu lớn hơn

4

Trình phân loại quy trình Gaussian - nó đưa ra dự đoán xác suất (rất hữu ích khi tần số lớp tương đối hoạt động của bạn khác với tần số trong tập huấn luyện của bạn, hoặc tương đương với chi phí âm / dương / giả của bạn là không xác định hoặc biến đổi). Nó cũng cung cấp một sự suy diễn về tính không chắc chắn trong các dự đoán mô hình do tính không chắc chắn trong "ước tính mô hình" từ một bộ dữ liệu hữu hạn. Hàm co-variance tương đương với hàm kernel trong một SVM, do đó, nó cũng có thể hoạt động trực tiếp trên dữ liệu không theo vectơ (ví dụ: chuỗi hoặc biểu đồ, v.v.). Khung toán học cũng gọn gàng (nhưng không sử dụng xấp xỉ Laplace). Lựa chọn mô hình tự động thông qua tối đa hóa khả năng cận biên.

Về cơ bản kết hợp các tính năng tốt của hồi quy logistic và SVM.


Có gói R mà bạn đề nghị thực hiện điều này? Triển khai ưa thích của bạn cho phương pháp này là gì? Cảm ơn!
julieth

Tôi e rằng tôi là người dùng MATLAB (Tôi sử dụng gói GPML gaussian Process.org/gpml/code/matlab/doc ), vì vậy tôi không thể tư vấn về việc triển khai R, nhưng bạn có thể tìm thấy điều gì đó phù hợp ở đây gaussian Process.org/# mã . Nếu R không có gói phù hợp cho GP, ai đó cần phải viết một gói!
Dikran Marsupial

Được rồi cảm ơn. Liệu phương pháp này có cho phép người ta chọn "các biến quan trọng, chẳng hạn như trong tầm quan trọng của biến rừng ngẫu nhiên hoặc loại bỏ tính năng đệ quy với các SVM không?
julieth

Có, bạn có thể sử dụng hàm hiệp phương sai "Xác định mức độ liên quan tự động" và chọn siêu tham số bằng cách tối đa hóa bằng chứng Bayes cho mô hình (mặc dù điều này có thể gặp phải cùng loại vấn đề phù hợp với bạn với SVMS, vì vậy thường là mô hình hoạt động tốt hơn mà không cần lựa chọn tính năng).
Dikran Marsupial

4

Hồi quy logistic thường xuyên L1.

  • Nó được tính toán nhanh.
  • Nó có một giải thích trực quan.
  • Nó chỉ có một siêu tham số dễ hiểu có thể được điều chỉnh tự động bằng cách xác thực chéo, thường là một cách tốt để đi.
  • Các hệ số của nó là tuyến tính từng phần và mối quan hệ của chúng với siêu tham số là ngay lập tức và dễ dàng nhìn thấy trong một âm mưu đơn giản.
  • Đây là một trong những phương pháp ít nghi ngờ để lựa chọn biến.
  • Ngoài ra nó có một cái tên thực sự mát mẻ.

+1 Tham số siêu cũng có thể được tích hợp phân tích, do đó không cần xác thực chéo cho nhiều ứng dụng, xem ví dụ: theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdftin sinh học .oxfordjournals.org / content / 22/19 / 2348.full.pdf .
Dikran Marsupial



Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.