Lợi ích của SVM như một công cụ để nhận dạng chữ số


8

Tôi còn khá mới đối với nhận dạng chữ số và tôi đã nhận thấy rằng nhiều hướng dẫn sử dụng phân loại SVM, ví dụ:

Tôi muốn biết nếu có bất kỳ lợi ích (tên miền cụ thể) nào cho công cụ đó, so với ví dụ

  • Mạng lưới thần kinh học tập sâu
  • Phân loại dựa trên phương tiện k

Cảm ơn bạn đã bình luận. Làm rõ, tại sao SVM là một công cụ sai cho nhận dạng chữ số, cũng sẽ được đánh giá cao.

Câu trả lời:


9

Hướng dẫn cho nhiều phân loại khác nhau dựa trên nhận dạng chữ số, đặc biệt là tập dữ liệu MNIST. Tôi nghĩ rằng điều này phần lớn là do bộ dữ liệu này có sẵn, dễ hiểu và yêu cầu tiền xử lý tối thiểu. Nó cũng là một bộ dữ liệu điểm chuẩn phổ biến trong tài liệu.

Tôi không nhận thức được các lập luận rằng bất kỳ họ phân loại cụ thể nào về bản chất là phù hợp nhất để nhận dạng chữ số. Tôi nghĩ rằng đây sẽ là một lập luận khó thực hiện vì 1) Phân phối các chữ số đến từ thế giới thực và chúng tôi không có mô tả toán học toàn diện về nó và 2) Tập hợp tất cả các SVM, tất cả các mạng lưới thần kinh, v.v. là vô hạn và chúng tôi chỉ có thể khám phá một tập hợp con nhỏ. Có lẽ mạng lưới thần kinh được biết đến nhiều nhất là tốt hơn so với SVM được biết đến nhiều nhất, nhưng một chức năng hạt nhân mới đang ẩn nấp ở đâu đó trong không gian rộng lớn, chưa được khám phá đó sẽ giúp các SVM trở nên tốt hơn. Có lẽ có một kiến ​​trúc mạng thần kinh khác sẽ vẫn tốt hơn. Tôi cho rằng các đối số có thể được đưa ra trong một số trường hợp nhất định (ví dụ Bayes ngây thơ trên các pixel thô có lẽ là một ý tưởng tồi vì các giả định của nó bị vi phạm một cách trắng trợn).

Có nhiều lý do để thích mỗi loại phân loại hơn các loại khác trong các trường hợp khác nhau (ví dụ: thời gian / bộ nhớ cần thiết cho đào tạo / đánh giá, số lượng điều chỉnh / thăm dò cần thiết để có được một mô hình làm việc tốt, v.v.). Những lý do này không cụ thể để nhận dạng chữ số, vì vậy tôi sẽ không đi sâu vào chúng ở đây.

Chắc chắn có các thủ thuật tên miền cụ thể hơn có thể làm cho các phân loại phù hợp hơn để nhận dạng chữ số. Một số trong những thủ thuật này hoạt động bằng cách tăng tính bất biến đối với các phép biến đổi cụ thể mà người ta mong đợi ở các chữ số viết tay (ví dụ: dịch, xoay, chia tỷ lệ, biến dạng). Ví dụ, chữ số '0' có nghĩa tương tự, ngay cả khi nó dịch sang trái và bị vênh một chút. Một số thủ thuật dành riêng cho gia đình phân loại. Ví dụ, loại bất biến này có thể được sử dụng một số hạt SVM nhất định, các lớp biến áp không gian trong mạng lưới thần kinh hoặc có thể là một thước đo khoảng cách bất biến cho K lân cận gần nhất. Các thủ thuật khác có thể được sử dụng với nhiều phân loại. Ví dụ, tập dữ liệu có thể được tăng thêm với nhiều bản sao được chuyển đổi của các chữ số, điều này có thể giúp trình phân loại tìm hiểu bất biến thích hợp.

Các SVM, mạng lưới thần kinh và thậm chí kNN đã đạt được hiệu suất tốt trên bộ dữ liệu MNIST. Các phương pháp khác cũng hoạt động. Hiệu suất tốt nhất mà cá nhân tôi đã nghe nói là với mạng lưới thần kinh. Một số kết quả được tích lũy trên các giấy tờ khác nhau ở đâyở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.