Làm thế nào khả thi để phân loại kết cấu của một hình ảnh bằng cách sử dụng các tính năng từ một biến đổi cosine rời rạc? Googling "dct phân loại kết cấu" chỉ tìm thấy một bài báo học thuật duy nhất về chủ đề này, sử dụng một mạng lưới thần kinh.
Đối với ứng dụng của tôi, tôi có một khối lượng lớn các hình ảnh được dán nhãn, trong đó toàn bộ hình ảnh là một kết cấu nhất quán (ví dụ: ảnh chụp cận cảnh chăn, vỏ cây, cánh đồng cỏ, v.v.).
Lấy cảm hứng từ một câu trả lời cho một câu hỏi trước đó , tôi đã xem xét phương pháp sau:
- chia từng hình ảnh thành các khối pixel NxN
- lấy DCT của mỗi khối
- làm phẳng mỗi DCT thành một mảng 1xM và đưa nó vào thuật toán phân cụm K-Means và lấy nhãn cụm cho mỗi DCT
- tính toán biểu đồ của các nhãn phân cụm cho mỗi hình ảnh bằng cách đếm từng nhãn cho mỗi hình ảnh từ # 3
- huấn luyện bộ phân loại SVM bằng cách cung cấp cho nó một bộ [(biểu đồ, nhãn hình ảnh)]
Làm thế nào tốt điều này sẽ làm việc? Tôi đã triển khai một hệ thống tương tự, sử dụng các tính năng được trích xuất thông qua thuật toán SIFT / SURF, nhưng tôi chỉ có thể có được độ chính xác khoảng 60%.
Theo những cách khác tôi có thể sử dụng DCT để phân loại họa tiết?