Sử dụng Mạng thần kinh để trích xuất nhiều tham số từ hình ảnh


8

Tôi muốn trích xuất các tham số từ một hình ảnh bằng cách sử dụng một mạng lưới thần kinh.

Thí dụ:

Đưa ra một hình ảnh của một bức tường gạch, NN nên trích xuất chiều rộng và chiều cao của gạch, màu sắc và độ nhám.

Tôi có thể tạo hình ảnh cho các tham số đã cho để huấn luyện NN và muốn sử dụng nó để trích xuất các tham số từ hình ảnh thực tế.

Tôi đã xem xét các CNN. Tôi có thể thực hiện nhiệm vụ này với họ không? Tôi có cần các thuật toán học tập đặc biệt để trích xuất nhiều tham số thay vì phân loại không? Có NN nào được thiết kế cho các nhiệm vụ đó không?


Bạn có thể đính kèm một vài hình ảnh mẫu bạn có trong tâm trí? Các CNN có thể quá mức cần thiết cho nhiệm vụ, nhưng mặt khác đáng để nghiên cứu và thử nghiệm nếu ưu tiên hàng đầu của bạn là sử dụng mạng thần kinh trái ngược với thuật toán CV "truyền thống".
NikoNyrh

@NikoNyrh có thể cung cấp hình ảnh mẫu, nhưng tôi muốn sử dụng kỹ thuật này cho các lớp kết cấu khác nhau. Mục tiêu là để trích xuất các tham số shader từ hình ảnh. Ví dụ gạch chứa hầu hết các tham số trực quan, nhưng các shader khác có thể sẽ sử dụng các tham số không thể dễ dàng thu được bằng thuật toán được thiết kế tốt. Tôi hiện đang thử nghiệm các phương pháp khác nhau và muốn thử mạng thần kinh vì tôi có thể tạo dữ liệu đào tạo "vô hạn".
H4kor

Câu trả lời:


8

Một CNN có thể là một lựa chọn tốt cho nhiệm vụ này nếu bạn mong đợi sự thay đổi trong tỷ lệ hình ảnh gốc, ánh sáng xoay v.v. và cũng có nhiều dữ liệu đào tạo.

Kiến trúc CNN thông thường là có các lớp chập gần với đầu vào và các lớp được kết nối đầy đủ trong đầu ra. Các lớp được kết nối đầy đủ có thể có đầu ra được sắp xếp cho các nhiệm vụ phân loại hoặc hồi quy khác nhau khi bạn thấy phù hợp. Dự đoán các giá trị của các tham số mô tả hình ảnh là một nhiệm vụ hồi quy.

Nếu bạn muốn đo kích thước chính xác, bạn có thể cần tránh sử dụng các lớp gộp tối đa. Thật không may, không sử dụng pooling sẽ làm cho mạng của bạn lớn hơn và khó đào tạo hơn - bạn có thể thoát khỏi sự chập chững thay vì nếu đó là một vấn đề đối với bạn.

Nếu hình ảnh đầu vào của bạn rất đơn giản và rõ ràng (vì chúng luôn được tạo bởi máy tính), thì các cách tiếp cận khác có thể đáng tin cậy hơn. Bạn có thể đảo ngược quá trình sản xuất hình ảnh và rút ra các quy tắc đơn giản như xác định đường, góc, vòng tròn và các thành phần hình ảnh dễ lọc khác và thực hiện các phép đo trực tiếp. Cũng có thể có một nền tảng trung gian phức tạp khi trích xuất dữ liệu này dưới dạng các tính năng và sử dụng nó để huấn luyện một NN đơn giản (hoặc mô hình ML khác) sẽ có hiệu suất tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.