Phân loại kết cấu qua DCT


12

Làm thế nào khả thi để phân loại kết cấu của một hình ảnh bằng cách sử dụng các tính năng từ một biến đổi cosine rời rạc? Googling "dct phân loại kết cấu" chỉ tìm thấy một bài báo học thuật duy nhất về chủ đề này, sử dụng một mạng lưới thần kinh.

Đối với ứng dụng của tôi, tôi có một khối lượng lớn các hình ảnh được dán nhãn, trong đó toàn bộ hình ảnh là một kết cấu nhất quán (ví dụ: ảnh chụp cận cảnh chăn, vỏ cây, cánh đồng cỏ, v.v.).

Lấy cảm hứng từ một câu trả lời cho một câu hỏi trước đó , tôi đã xem xét phương pháp sau:

  1. chia từng hình ảnh thành các khối pixel NxN
  2. lấy DCT của mỗi khối
  3. làm phẳng mỗi DCT thành một mảng 1xM và đưa nó vào thuật toán phân cụm K-Means và lấy nhãn cụm cho mỗi DCT
  4. tính toán biểu đồ của các nhãn phân cụm cho mỗi hình ảnh bằng cách đếm từng nhãn cho mỗi hình ảnh từ # 3
  5. huấn luyện bộ phân loại SVM bằng cách cung cấp cho nó một bộ [(biểu đồ, nhãn hình ảnh)]

Làm thế nào tốt điều này sẽ làm việc? Tôi đã triển khai một hệ thống tương tự, sử dụng các tính năng được trích xuất thông qua thuật toán SIFT / SURF, nhưng tôi chỉ có thể có được độ chính xác khoảng 60%.

Theo những cách khác tôi có thể sử dụng DCT để phân loại họa tiết?


1
Điều này gần giống như việc gán mạng thần kinh mà tôi vừa phải thực hiện cho ml- class.org
Ivo Flipse

2
@IvoFlipse: +1 cho ml- class.org. Tuy nhiên, câu hỏi này là về các tính năng. Cuối cùng, nếu các tính năng của bạn không phù hợp với vấn đề, thì vấn đề phân loại của bạn tốt đến mức nào.
Dima

bộ lọc ngân hàng Gabor có thể rất hữu ích để phân loại văn bản.
mrgloom

Câu trả lời:


6

Cho đến nay những gì bạn đang đề xuất âm thanh như một cách tiếp cận hợp lý. Tuy nhiên, tôi không nghĩ bạn sẽ biết nó hoạt động tốt như thế nào cho đến khi bạn thử nó, giống như bạn đã thử SIFT.

Tôi có một câu hỏi mặc dù. Tại sao bạn lại hạn chế DCT? Có rất nhiều biểu diễn đã được sử dụng để phân loại kết cấu: ma trận xuất hiện, mẫu nhị phân cục bộ, v.v ... Thực tế là bạn chỉ tìm thấy một bài báo về việc sử dụng DCT để phân loại kết cấu sẽ cho thấy đây không phải là tính năng được sử dụng phổ biến nhất cho vấn đề này Tôi khuyên bạn nên mở rộng tìm kiếm tài liệu của mình để xem những tính năng khác mà mọi người đã sử dụng và hiệu quả của chúng.


4

Nếu bạn không chia hình ảnh thành khối NxN mà thay vào đó hãy sử dụng cửa sổ trượt - tính toán DCT cho các khối được căn giữa tại mỗi điểm của hình ảnh, về cơ bản, đó sẽ là sử dụng phương pháp sóng con. Việc chia hình ảnh của bạn thành các khối cũng giống như sử dụng cửa sổ trượt và hình ảnh ghép xuống. Vì vậy, về cơ bản, bạn đang sử dụng hình thức giảm phân đoạn kết cấu sóng con. Bước sóng Gabor được sử dụng thay vì DCT thường vì: nó có nhiều tham số hơn (tỷ lệ + và hướng) và độ suy giảm mịn (thay vì cạnh sắc của cửa sổ).


3

Một trong những điểm thu hút lớn nhất tại sao người ta muốn thực hiện phân loại / phân loại kết cấu dựa trên DCT (hoặc bất kỳ hoạt động nào khác) là thực tế là hầu hết các hình ảnh JPEG và video MPEG đã có trong DCT. Mặt khác, người ta thường tin rằng phương pháp dựa trên Gabor là tốn kém về mặt tính toán.

DCT đồng hiệu quả từ trung bình đến tần số cao và tần số đường chéo phản ánh sự thể hiện tốt các biến thể cục bộ trong miền pixel.

Tuy nhiên, tất cả điều này có thể không tốt như nó có vẻ. Trước hết, trong hầu hết các khối DCT tiêu chuẩn có kích thước 8x8. Vì vậy, ngụ ý của nó là nếu cảnh có mẫu có chu kỳ 8 điểm pixel, hiệu ứng cộng hưởng này sẽ được nhìn thấy về mặt tương tự của các hệ số tương ứng của các khối liền kề, tuy nhiên, khi tính tuần hoàn thay đổi mối quan hệ này.

Hiểu được sự khác biệt quan trọng giữa các khối thuần túy của DCT so với Gabor là Gabor có thang đo. Vì vậy, nếu bạn thay đổi "tính định kỳ" hoặc "độ mịn / độ nhám" của kết cấu, Gabor sẽ khám phá nó ở nơi mà kích thước khối cố định @ 8x8 của DCT sẽ không thể phù hợp.

Tuy nhiên, điều người ta cần nhận ra là xây dựng các mô hình như vậy bằng cách nhìn vào nhiều khối với nhau để đánh giá hiện tượng tỷ lệ như vậy . Như một cách tiếp cận cơ bản, ví dụ, hỏi tôi sẽ có khối 16x16 hay khối kích thước 32x32, các mẫu kết quả trong các hệ số là gì? Các hệ số ở các vị trí tương ứng sẽ có một số mối quan hệ để khai thác và cho phép người ta khám phá quy mô thực sự của kết cấu.

Đây thực sự là một chủ đề nghiên cứu tốt để theo đuổi.

LƯU Ý: Ngay cả MPEG7 (người rất thân với các ủy ban đã tạo MPEG) - họ đề xuất các tính năng dựa trên Gabor cho kết cấu thay vì dựa trên DCT.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.