Lý do cho hình ảnh vuông trong học tập sâu

Hầu hết các mô hình học sâu tiên tiến như VGG, ResNet, v.v. đều yêu cầu hình ảnh vuông làm đầu vào, thường có kích thước pixel là $224x224$ .

Có một lý do tại sao đầu vào phải có hình dạng bằng nhau, hoặc tôi có thể xây dựng một mô hình mạng lưới với $100x200$ (nếu tôi muốn nhận dạng khuôn mặt chẳng hạn và tôi có hình ảnh chân dung)?

Có tăng lợi ích với kích thước pixel lớn hơn không, giả sử $512x512$ ?

deep-learning image-classification image-recognition

— bào tử234
nguồn

Không có yêu cầu về kích thước pixel cụ thể để các mạng thần kinh tích chập hoạt động bình thường. Có khả năng các giá trị đã được chọn vì lý do thực tế - chẳng hạn như thỏa hiệp giữa việc sử dụng chi tiết hình ảnh so với số lượng tham số và kích thước tập huấn được yêu cầu.

Ngoài ra, nếu dữ liệu nguồn có một loạt các tỷ lệ khung hình khác nhau, một số chân dung, một số cảnh quan, với đối tượng mục tiêu thường ở trung tâm, thì lấy một hình vuông từ giữa có thể là một sự thỏa hiệp hợp lý.

Khi bạn tăng kích thước hình ảnh đầu vào, bạn cũng sẽ tăng lượng nhiễu và phương sai mà mạng sẽ cần xử lý để xử lý đầu vào đó. Điều đó có thể có nghĩa là nhiều lớp hơn - cả chập và gộp. Điều đó cũng có nghĩa là bạn cần nhiều ví dụ đào tạo hơn và tất nhiên mỗi ví dụ đào tạo sẽ lớn hơn. Cùng với nhau, những thứ này làm tăng các tài nguyên tính toán mà bạn cần để hoàn thành đào tạo. Tuy nhiên, nếu bạn có thể khắc phục yêu cầu này, có thể bạn sẽ kết thúc với một mô hình chính xác hơn, cho bất kỳ tác vụ nào mà các pixel phụ có thể tạo ra sự khác biệt.

Một nguyên tắc khả thi cho việc bạn có muốn độ phân giải cao hơn hay không, nếu, vì mục tiêu của mạng của bạn, một chuyên gia về con người có thể sử dụng độ phân giải bổ sung và thực hiện tốt hơn trong nhiệm vụ. Đây có thể là trường hợp trong các hệ thống hồi quy, trong đó mạng đang lấy một số lượng từ hình ảnh - ví dụ như đối với sinh trắc học nhận dạng khuôn mặt, chẳng hạn như khoảng cách giữa các đặc điểm khuôn mặt. Nó cũng có thể được mong muốn cho các tác vụ xử lý ảnh như mặt nạ tự động - kết quả hiện đại cho các tác vụ này có thể vẫn có độ phân giải thấp hơn so với các ảnh thương mại nơi chúng tôi muốn áp dụng chúng trong thực tế.

— Neil Slater
nguồn