Năm phân loại hàng đầu để thử đầu tiên


25

Bên cạnh các đặc điểm phân loại rõ ràng như

  • chi phí tính toán,
  • loại dữ liệu dự kiến ​​của các tính năng / nhãn và
  • sự phù hợp cho kích thước và kích thước nhất định của tập dữ liệu,

Năm phân loại (hoặc 10, 20?) hàng đầu để thử đầu tiên trên tập dữ liệu mới mà người ta chưa biết nhiều về (ví dụ như ngữ nghĩa và tương quan của các tính năng riêng lẻ) là gì? Thông thường tôi thử Naive Bayes, Hàng xóm gần nhất, Cây quyết định và SVM - mặc dù tôi không có lý do chính đáng nào cho lựa chọn này ngoài việc tôi biết chúng và chủ yếu hiểu cách chúng hoạt động.

Tôi đoán người ta nên chọn các phân loại bao gồm các cách tiếp cận phân loại chung quan trọng nhất . Lựa chọn nào bạn muốn giới thiệu, theo tiêu chí đó hoặc vì lý do nào khác?


CẬP NHẬT: Một công thức thay thế cho câu hỏi này có thể là: "Phương pháp chung nào để phân loại tồn tại và phương pháp cụ thể nào bao gồm những phương pháp quan trọng nhất / phổ biến / có triển vọng?"


Tôi nghĩ rằng đây là một bản sao của ( stats.stackexchange.com/questions/3458/ ). Giá trị bổ sung duy nhất của câu hỏi ở đây có thể là "tiêu chí để chọn phân loại" (điều này sẽ khiến câu hỏi trở nên rất chung chung). Nếu đó là một bản sao, bỏ phiếu cho đóng, người khác bỏ phiếu cho cw;)
steffen

@steffen: Tuy nhiên, câu hỏi được tham khảo của bạn rất hữu ích, tôi nghĩ đó không phải là một bản sao. Quả thực câu hỏi của tôi khá chung chung. Tôi không tìm kiếm giải pháp cho một vấn đề cụ thể nhưng vì lý do chung tại sao nên sử dụng người học nào - tôi sẽ cập nhật câu hỏi của mình cho phù hợp.
Oben Sonne

Câu trả lời:


21

Rừng ngẫu nhiên

Nhanh chóng, mạnh mẽ, độ chính xác tốt, trong hầu hết các trường hợp không có gì để điều chỉnh, không yêu cầu chuẩn hóa, miễn nhiễm với cộng tuyến, tạo ra xấp xỉ lỗi khá tốt và xếp hạng tầm quan trọng hữu ích như một tác dụng phụ của đào tạo, song song tầm thường, dự đoán trong nháy mắt.

Nhược điểm: chậm hơn các phương pháp tầm thường như kNN hoặc NB, hoạt động tốt nhất với các lớp bằng nhau, độ chính xác kém hơn so với SVM đối với các vấn đề đòi hỏi thủ thuật kernel, là hộp đen cứng, không pha cà phê.


1
@mbq (+1) Về mất cân bằng lớp, chúng ta vẫn có thể dựa vào lấy mẫu phân tầng trong quá trình đóng bao.
chl

3
@mbq, không pha cà phê à? Đó là một thỏa thuận ngay tại đó.
Đức hồng y

Cảm ơn gợi ý cho Rừng ngẫu nhiên . Nhưng bạn sẽ thử chỉ họ? Nếu bạn không hài lòng với kết quả thì sao? Bạn sẽ thử phân loại nào khác? Hoặc, bạn sẽ trả lời gì nếu ai đó hỏi: "Tại sao bạn không thử các phương pháp khác?"
Oben Sonne

@Oben Chà, tôi hiểu bạn đang tạo ra một loại nhóm phân loại một câu trả lời.

@mbq: Không hẳn, nhưng hóa ra là một hồ bơi như vậy. Có lẽ tôi đã không làm cho mình đủ rõ ràng trong câu hỏi. Trên thực tế tôi muốn biết bộ phân loại nào nên thử trước, để bao quát các phương pháp phân loại chung khác nhau (với các điểm mạnh và điểm yếu khác nhau). Tôi luôn tự hỏi mình có nên thử nhiều phân loại hơn không. Biết rằng những cách tôi đã thử đã đại diện cho các phương pháp điển hình / hứa hẹn nhất sẽ giúp ích ở đây. Nhưng tôi cần biết bộ phân loại này là đúng. (Tôi không phải là một chuyên gia về thống kê, vì vậy hãy cho tôi biết nếu đầu óc tôi hơi bị xoắn ở đây)
Oben Sonne

7

Trình phân loại quy trình Gaussian (không sử dụng xấp xỉ Laplace), tốt nhất là với lề thay vì tối ưu hóa các siêu tham số. Tại sao?

  1. bởi vì họ đưa ra một phân loại xác suất
  2. bạn có thể sử dụng hàm kernel cho phép bạn thao tác trực tiếp trên dữ liệu phi véc tơ và / hoặc kết hợp kiến ​​thức chuyên môn
  3. họ đối phó với sự không chắc chắn trong việc điều chỉnh mô hình đúng cách và bạn có thể tuyên truyền sự không chắc chắn đó thông qua quá trình ra quyết định
  4. nói chung hiệu suất dự đoán rất tốt.

Nhược điểm

  1. chậm
  2. đòi hỏi nhiều bộ nhớ
  3. không thực tế cho các vấn đề quy mô lớn.

Sự lựa chọn đầu tiên mặc dù sẽ là hồi quy logistic thường xuyên hoặc hồi quy sườn [không có lựa chọn tính năng] - đối với hầu hết các vấn đề, thuật toán rất đơn giản hoạt động khá tốt và khó bị sai hơn (trong thực tế, sự khác biệt về hiệu suất giữa các thuật toán nhỏ hơn sự khác biệt về hiệu suất giữa các nhà điều hành lái xe họ).


1

Bản thân tôi khi bạn đang tiếp cận một tập dữ liệu mới, bạn nên bắt đầu xem toàn bộ vấn đề. Trước hết, có được một phân phối cho các tính năng phân loại và độ lệch trung bình và tiêu chuẩn cho từng tính năng liên tục. Sau đó:

  • Xóa các tính năng có nhiều hơn X% giá trị bị thiếu;
  • Xóa các tính năng phân loại khi một giá trị cụ thể nhận được hơn 90-95% tần số tương đối;
  • Xóa các tính năng liên tục với CV = std / mean <0,1;
  • Lấy thứ hạng tham số, ví dụ ANOVA cho liên tục và bình phương cho phân loại;
  • Nhận một tập hợp con đáng kể của các tính năng;

Sau đó tôi thường chia các kỹ thuật phân loại thành 2 bộ: kỹ thuật hộp trắng và hộp đen. Nếu bạn cần biết 'cách phân loại hoạt động', bạn nên chọn trong tập đầu tiên, ví dụ: Phân loại dựa trên cây quyết định hoặc quy tắc.

Nếu bạn cần phân loại các bản ghi mới mà không xây dựng một mô hình thì nên xem qua người học háo hức, ví dụ KNN.

Sau đó tôi nghĩ tốt hơn là có một ngưỡng giữa độ chính xác và tốc độ: Mạng thần kinh chậm hơn một chút so với SVM.

Đây là năm kỹ thuật phân loại hàng đầu của tôi:

  1. Cây quyết định;
  2. Phân loại dựa trên quy tắc;
  3. SMO (SVM);
  4. Vịnh Naive;
  5. Mạng lưới thần kinh.

4
-1 Quy trình làm việc hoàn toàn không chính xác cho p lớn n nhỏ, quá mức FS được đảm bảo.

1
không phải là một người học lười biếng chứ không phải là một người háo hức (vì bạn không thực sự làm gì cho đến khi bạn thực sự phải làm gì khi một mô hình để phân loại xuất hiện)? Bất kỳ quá trình tiền xử lý nào bạn thực hiện trước khi áp dụng trình phân loại có thể có ảnh hưởng lớn hơn đến hiệu suất so với sự khác biệt giữa các phân loại; lựa chọn tính năng đặc biệt khó khăn (dễ dẫn đến sự phù hợp quá mức) và các phương pháp như SVM với chính quy hóa thường hoạt động tốt hơn mà không cần lựa chọn tính năng. Tôi chắc chắn sẽ không đề xuất mạng lưới thần kinh, quá nhiều cạm bẫy tiềm năng.
Dikran Marsupial
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.