Tôi sẽ có một cái nhìn về cách tiếp cận được gọi là "túi từ" hoặc "từ ngữ trực quan". Nó ngày càng được sử dụng để phân loại hình ảnh và nhận dạng. Thuật toán này thường bắt đầu bằng cách phát hiện các điểm mạnh, chẳng hạn như điểm SIFT, trong một hình ảnh. Vùng xung quanh các điểm tìm thấy này (bộ mô tả Sift 128 bit trong trường hợp của bạn) được sử dụng.
Ở dạng đơn giản nhất, người ta có thể thu thập tất cả dữ liệu từ tất cả các mô tả từ tất cả các hình ảnh và phân cụm chúng, ví dụ như sử dụng phương tiện k. Mỗi hình ảnh gốc sau đó có các mô tả đóng góp vào một số cụm. Các trọng tâm của các cụm này, tức là các từ trực quan, có thể được sử dụng như một mô tả mới cho hình ảnh. Về cơ bản, bạn hy vọng rằng các cụm ảnh mà mô tả của nó đóng góp vào, là biểu thị của thể loại hình ảnh.
Một lần nữa, trong trường hợp đơn giản nhất, bạn có một danh sách các cụm và trên mỗi hình ảnh, bạn đếm xem cụm nào trong số các cụm này có mô tả từ hình ảnh đó và bao nhiêu. Điều này tương tự như phương pháp Tần số tài liệu / Tần số nghịch đảo (TD / IFD) được sử dụng trong truy xuất văn bản. Xem kịch bản Matlab nhanh và bẩn này .
Cách tiếp cận này được tích cực nghiên cứu và có nhiều thuật toán tiên tiến hơn nhiều xung quanh.
Trang web VLfeat chứa một bản demo nâng cao hơn về cách tiếp cận này, phân loại bộ dữ liệu caltech 101. Cũng đáng chú ý, là kết quả và phần mềm từ chính Caltech .