Hình ảnh không vuông để phân loại hình ảnh


9

Tôi có một bộ dữ liệu hình ảnh rộng: 1760x128. Tôi đã đọc qua các hướng dẫn và sách, và hầu hết trong số họ nói rằng hình ảnh đầu vào phải là hình vuông và nếu không, chúng được chuyển thành hình vuông để được đào tạo trong các hình ảnh đã được đào tạo (trên hình vuông). Có cách nào để đào tạo cnn cho hình ảnh không vuông, hay tôi nên tìm một lựa chọn khác là đệm?

Câu trả lời:


4

Có một số cách để giải quyết vấn đề tùy thuộc vào bộ phân loại. Trượt Windows là phương pháp tôi quen thuộc nhất, phương pháp này được sử dụng cho các phương thức mạng thần kinh. Phương pháp này bao gồm chụp một hình ảnh phụ nhỏ và dịch chuyển nó lên và xuống với một số chồng chéo. Một số vấn đề bao gồm tìm các tham số dịch chuyển tối ưu và các vấn đề đa quy mô.

Phát hiện cuối cùng thường được xác định bởi mức độ tin cậy của phân loại là mỗi hình ảnh phụ thuộc về lớp đó: ví dụ như phiếu bầu đa số, tổng khả năng hoặc tổng khoảng cách từ ranh giới quyết định. Tôi đã liệt kê một số tài liệu dưới đây, tài liệu đầu tiên dành cho phương pháp phân loại HOG nhưng các khái niệm là như nhau.

  1. Phát hiện đối tượng Windows trượt
  2. Phát hiện danh mục đối tượng: Windows trượt
  3. Nhận dạng, địa phương hóa và phát hiện tích hợp quá mức bằng cách sử dụng mạng kết hợp

2

Điều này hoàn toàn không gây ra vấn đề gì nếu bạn đang sử dụng CNN. Tôi đã tạo một CNN để nhận dạng khuôn mặt và vì khuôn mặt thường rộng khoảng 70% khi chúng cao, tôi đã sử dụng hình ảnh đào tạo có kích thước 80x100 pixel (chiều rộng thêm một chút trong trường hợp đầu nằm ở một góc). Bộ lọc của bạn vẫn phải là hình vuông mặc dù.

Tất cả những thay đổi đó là bây giờ bạn phải theo dõi chiều rộng và chiều cao cho bản đồ kích hoạt / gộp chung của bạn thay vì chỉ một giá trị cho bạn biết kích thước. Ví dụ -

Hình ảnh đầu vào 80 x 100 Áp dụng bộ lọc tích chập 5 x 5 cho bản đồ kích hoạt ở 76 x 96 Áp dụng gộp 2 x 2 cho bản đồ kích hoạt gộp ở 38 x 48

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.