Định dạng hình ảnh (png, jpg, gif) có ảnh hưởng đến cách mạng lưới thần kinh nhận dạng hình ảnh được đào tạo không?


22

Tôi biết rằng đã có rất nhiều tiến bộ liên quan đến nhận dạng hình ảnh, phân loại hình ảnh, vv với các mạng lưới thần kinh tích hợp, sâu.

Nhưng nếu tôi đào tạo một mạng trên, giả sử, hình ảnh PNG, nó sẽ chỉ hoạt động cho hình ảnh được mã hóa? Những thuộc tính hình ảnh khác ảnh hưởng đến điều này? (kênh alpha, xen kẽ, độ phân giải, v.v?)


2
Tôi không có đủ kinh nghiệm với số liệu thống kê hình ảnh để đưa ra câu trả lời tự tin, nhưng tôi hy vọng rằng các mô hình khác nhau sử dụng các sơ đồ hoàn toàn khác nhau để mã hóa hình ảnh thành các tính năng, một số trong đó sẽ bị ảnh hưởng bởi nén JPEG, kênh alpha, v.v. ., và một số trong đó sẽ không, với các chi tiết cụ thể theo mô hình. Tôi biết rằng tồn tại cả hai mô hình coi mỗi pixel là một tính năng và các mô hình khắc hình ảnh thành các vùng và sử dụng các thuộc tính vùng làm tính năng.
Chuyên gia Kodi

Câu trả lời:


20

Câu trả lời ngắn gọn là KHÔNG .

Định dạng mà hình ảnh được mã hóa phải liên quan đến chất lượng của nó. Mạng nơ-ron thực chất là các mô hình toán học thực hiện rất nhiều hoạt động (nhân ma trận, bổ sung phần tử và hàm ánh xạ). Một mạng nơ-ron xem một Tenor là đầu vào của nó (tức là một mảng đa chiều). Hình dạng của nó thường là 4-D (số lượng hình ảnh mỗi lô, chiều cao hình ảnh, chiều rộng hình ảnh, số lượng kênh).

Các định dạng hình ảnh khác nhau (đặc biệt là mất dữ liệu) có thể tạo ra các mảng đầu vào khác nhau nhưng nói một cách nghiêm túc, các mạng lưới thần kinh nhìn thấy các mảng trong đầu vào của chúng và KHÔNG phải hình ảnh.


4

Mặc dù câu trả lời của Djib2011 là chính xác, tôi hiểu câu hỏi của bạn khi tập trung hơn vào việc chất lượng hình ảnh / tính chất ảnh hưởng đến việc học tập mạng thần kinh nói chung. Chỉ có ít nghiên cứu trong chủ đề này (afaik), nhưng có thể có nhiều nghiên cứu hơn về nó trong tương lai. Tôi chỉ tìm thấy này bài viết về nó. Vấn đề tại thời điểm này là, đây là một vấn đề xuất hiện nhiều hơn trong các ứng dụng thực tế và ít hơn trong một lĩnh vực nghiên cứu học thuật. Tôi nhớ một podcast hiện tại nơi các nhà nghiên cứu quan sát thấy rằng ngay cả máy ảnh được sử dụng để chụp ảnh cũng có thể có ảnh hưởng lớn.


Bạn có thể chỉ cho tôi vào podcast được không?
David Ernst

Đó là một tập một giờ "máy nói", nơi họ có một cuộc thảo luận với một nhà nghiên cứu thực hành máy học ở châu Phi (khoảng giữa đến cuối) iTunes liên kết: itunes.apple.com/de/podcast/talking-machines/...
Bobipuegi

2

Đây là một đoạn ngắn trong câu trả lời đầu tiên từ Djib2011. Câu trả lời ngắn gọn là không. Dài hơn - Đầu tiên, các bức ảnh luôn được mã hóa dưới dạng tenxơ như sau. Một hình ảnh là một số pixel. Nếu ảnh được coi là có m hàng và n cột, thì mỗi pixel được chỉ định bởi vị trí của hàng và cột, đó là theo cặp (m, n). Đặc biệt, có những pixel m * n rất lớn ngay cả đối với ảnh 'nhỏ'. Mỗi pixel của ảnh được mã hóa bằng một số từ 0 đến 1 (cường độ đen) nếu ảnh có màu đen và trắng. Nó được mã hóa bằng ba số (cường độ RGB) nếu ảnh có màu. Vì vậy, một cuộn dây với một tenxơ là 1xmxn hoặc 3xmxn. Nhận dạng hình ảnh được thực hiện thông qua CNN, lợi dụng thực tế là ảnh không thay đổi nhiều từ pixel sang pixel, néndữ liệu thông qua các bộ lọc và gộp chung. Vì vậy, vấn đề là CNN hoạt động bằng cách nén số lượng điểm dữ liệu (hoặc tính năng) cực lớn của ảnh thành một số lượng giá trị nhỏ hơn. Vì vậy, dù bạn bắt đầu với định dạng nào, CNN sẽ bắt đầu bằng cách nén thêm dữ liệu của ảnh. Do đó, sự độc lập tự nhiên từ kích thước của hình ảnh.
Tuy nhiên, một CNN sẽ yêu cầu tất cả các hình ảnh được chạy qua nó đều có cùng kích thước. Vì vậy, có sự phụ thuộc sẽ thay đổi tùy thuộc vào cách lưu hình ảnh. Ngoài ra, trong phạm vi các định dạng tệp khác nhau có cùng kích thước tạo ra các giá trị khác nhau cho các thang đo của chúng, người ta không thể sử dụng cùng một mô hình CNN để xác định ảnh được lưu trữ bằng các phương pháp khác nhau.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.