Vấn đề trong việc so sánh các phân loại để nhận dạng mẫu


7

Tôi đã thiết kế một trình phân loại M để nhận ra các cử chỉ và phân loại nó theo bất kỳ danh mục nào luôn. Một cử chỉ được phân loại dựa trên khoảng cách hãm giữa chuỗi thời gian mẫu y và chuỗi thời gian đào tạo x. Kết quả của phân loại là các giá trị xác suất. Có 3 lớp / danh mục có nhãn A, B, C phân loại cử chỉ tay trong đó có 100 mẫu cho mỗi lớp sẽ được phân loại (tính năng đơn và độ dài dữ liệu = 100). Dữ liệu là chuỗi thời gian khác nhau (x tọa độ so với thời gian). Tập huấn luyện được sử dụng để gán xác suất cho biết cử chỉ nào đã xảy ra bao nhiêu lần. Vì vậy, trong số 10 mẫu huấn luyện nếu cử chỉ A xuất hiện 6 lần thì xác suất một cử chỉ thuộc loại A là

P (A) = 0,6 tương tự P (B) = 0,3

P (C) = 0,1

Bây giờ, tôi đang cố gắng so sánh hiệu suất của trình phân loại này với trình phân loại Bayes, K-NN, phân tích thành phần chính (PCA) và Mạng thần kinh.

  1. Trên cơ sở, tham số và phương thức nào tôi nên làm điều đó nếu tôi xem xét ROC hoặc xác thực chéo vì các tính năng cho trình phân loại của tôi là các giá trị xác suất cho biểu đồ ROC do đó các tính năng cho k-nn, phân loại vịnh và PCA là gì?
  2. Có một mã cho nó sẽ hữu ích.
  3. Giá trị của k là gì khi có 3 lớp cử chỉ?

Xin vui lòng giúp đỡ. Tôi đang ở trong một sửa chữa.


PCA không phải là phân tích thành phần chính ?
om-nom-nom

Câu hỏi này liên quan đến câu hỏi trước đó của bạn cs.stackexchange.com/questions/840/ như thế nào?
Dave Clarke

Đây là phiên bản ngắn hơn của câu hỏi đó chỉ có ý nghĩa về cách so sánh các phân loại.
1214586

@ user1214586: Cái cũ có còn phù hợp không?
Raphael

@Raphael: Có, Câu hỏi cũ có liên quan do phần liên quan đến lựa chọn tính năng và cách sử dụng mã k-nn và matlab cùng với cách đi với các phân loại khác không được trả lời / không rõ ràng. Cảm ơn bạn và sẽ có nghĩa vụ cho một giải pháp.
1214586

Câu trả lời:


7

Không có cách nào dễ dàng để làm điều này. Trên thực tế, một bài báo gần đây của Charles Parker giải thích một số vấn đề khi sử dụng các phép đo đường cong ROC (có một tổng quan thân thiện tại blog của tôi - cảnh báo tự quảng cáo !!). Bài viết của anh ấy đưa ra một số khuyến nghị về những cách tốt nhất để so sánh các phân loại khác nhau, vì vậy bạn sẽ tìm thấy một cái gì đó hữu ích ở đó.


Vậy thì người ta sẽ làm gì nếu họ đề xuất một bộ phân loại hoặc cải thiện một cái hiện có? Có cách nào để so sánh tiêu chuẩn chung không?
1214586

Hơn nữa, trong trường hợp phân loại nhiều tính năng đơn lẻ, tính năng này có giống nhau để so sánh không? Tôi có một thời gian khó khăn trong việc này vì trong ví dụ của tôi, các thuật toán khác nhau có các cách phân loại khác nhau. Vì vậy, tôi có cần nhận ra cử chỉ cho từng phân loại sẽ nhận ra trong thiết kế thuật toán của riêng họ không? Vui lòng ném một chút ánh sáng vào khía cạnh này.
1214586

IIRC, bài báo Parker đề xuất một số 'thực tiễn tốt nhất'.
Suresh

0
  1. Cách chung để so sánh các phân loại là so sánh chúng bằng ROC. Đối với một phạm vi cố định của tỷ lệ cảnh báo sai, bạn kiểm tra phân loại nào đã đạt được độ chính xác cao nhất. Nếu bạn muốn một biện pháp duy nhất thì bạn có thể sử dụng Area Under ROC (AUC). Có nhiều biện pháp khác nữa, hãy tìm chúng. Để so sánh công bằng, bạn cần so sánh tất cả các phân loại trên một nền tảng đồng đều, điều này có nghĩa là các tính năng giống nhau và các điều kiện đào tạo giống nhau.

  2. Giá trị của k là thứ mà bạn sẽ cần tìm hiểu bằng cách thử các giá trị khác nhau. Chọn giá trị hoạt động tốt nhất trên bộ xác thực của bạn, nhưng chỉ báo cáo kết quả trên bộ thử nghiệm mà bạn chưa sử dụng trong quá trình điều chỉnh tham số.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.