Khả năng nhận dạng mẫu của CNN có giới hạn trong xử lý hình ảnh không?


21

Mạng thần kinh chuyển đổi có thể được sử dụng để nhận dạng mẫu trong miền có vấn đề không có hình ảnh tồn tại trước, bằng cách biểu thị dữ liệu trừu tượng bằng đồ họa? Điều đó sẽ luôn luôn kém hiệu quả?

Nhà phát triển này cho biết sự phát triển hiện tại có thể tiến xa hơn nhưng không có giới hạn nhận dạng hình ảnh bên ngoài.


1
Tôi thấy ít nhất hai câu hỏi ở đây. Bạn nghĩ thế nào về việc chia tách? Ngoài ra, câu hỏi sẽ có chất lượng cao hơn nếu bạn có thể mở rộng về những gì bạn đã tìm kiếm để viết câu hỏi tiêu đề.
Eric Platon

@EricPlaton Thắt chặt nó lên một chút. Câu hỏi chính của tôi là về bản chất của mối quan hệ giữa CNN và hình ảnh. Điều gì sẽ là gợi ý của bạn cho câu hỏi thứ hai?
dynrepsys

Cảm ơn bạn, câu hỏi rất tốt với tôi (mặc dù tôi nên xóa câu trả lời của mình ngay bây giờ ~). Đối với câu hỏi thứ hai, làm thế nào về một cách tiếp cận "bắt là gì"? "Có phải nó luôn kém hiệu quả hơn không?" vẫn ổn nếu ai đó có thể đưa ra một ví dụ ngược lại.
Eric Platon

Bởi "Mạng thần kinh chuyển đổi có thể được sử dụng để nhận dạng mẫu trong miền có vấn đề không có hình ảnh tồn tại trước, bằng cách biểu thị dữ liệu trừu tượng bằng đồ họa?" bạn đang hỏi liệu chúng tôi có thể biểu thị bất kỳ dữ liệu nào dưới dạng hình ảnh và áp dụng CNN không? Giống như đọc một bộ dữ liệu 100 tính năng và thể hiện nó dưới dạng hình ảnh 10 x 10?
RCpinto

Câu trả lời:


10

Lưới kết hợp (CNN) dựa trên tích chập toán học (ví dụ: các cấu trúc 2D hoặc 3D), thường được sử dụng để xử lý tín hiệu. Hình ảnh là một loại tín hiệu và tích chập có thể được sử dụng như nhau trên âm thanh, rung động, v.v. Vì vậy, về nguyên tắc, CNN có thể tìm thấy các ứng dụng cho bất kỳ tín hiệu nào và có thể hơn thế nữa.

Trong thực tế, đã tồn tại hoạt động trên NLP (như Matthew Graves đã đề cập), trong đó một số người xử lý văn bản với CNN thay vì các mạng đệ quy. Một số tác phẩm khác áp dụng cho xử lý âm thanh (không có tài liệu tham khảo ở đây, nhưng tôi vẫn chưa công bố công việc đang diễn ra).


Nội dung gốc: Trả lời cho câu hỏi tiêu đề ban đầu, đã thay đổi ngay bây giờ. Có lẽ cần phải xóa cái này .

Nghiên cứu trên các mạng đối nghịch (và có liên quan) cho thấy ngay cả các mạng sâu cũng có thể dễ dàng bị lừa , dẫn đến việc họ nhìn thấy một con chó (hoặc bất kỳ đối tượng nào) trong tiếng ồn ngẫu nhiên khi con người nhìn vào nó (bài báo có ví dụ rõ ràng).

Một vấn đề khác là sức mạnh khái quát của một mạng lưới thần kinh. Lưới kết hợp đã làm cả thế giới ngạc nhiên với khả năng khái quát hóa cách tốt hơn so với các kỹ thuật khác. Nhưng nếu mạng chỉ được cho ăn hình ảnh của mèo, nó sẽ chỉ nhận ra mèo (và có thể nhìn thấy mèo ở khắp mọi nơi, như kết quả của mạng đối nghịch). Nói cách khác, ngay cả thần kinh trung ương có một thời gian khó khái quát hóa quá xa ngoài những gì họ học được từ.

Giới hạn nhận dạng là khó xác định chính xác. Tôi chỉ đơn giản nói rằng sự đa dạng của dữ liệu học tập đẩy giới hạn (tôi cho rằng chi tiết hơn sẽ dẫn đến địa điểm thích hợp hơn để thảo luận).


5

Câu trả lời đơn giản là "không, chúng không giới hạn đối với hình ảnh": CNN cũng đang được sử dụng để xử lý ngôn ngữ tự nhiên. (Xem ở đây để giới thiệu.)

Tôi chưa thấy chúng được áp dụng cho dữ liệu đồ họa, nhưng tôi chưa nhìn; Có một số điều rõ ràng để thử và vì vậy tôi lạc quan rằng nó sẽ hoạt động.


3

Mạng thần kinh chuyển đổi có thể được áp dụng không chỉ cho nhận dạng hình ảnh mà còn cho phân tích và nhận dạng video, xử lý ngôn ngữ tự nhiên, trong các trò chơi (ví dụ Go ) hoặc thậm chí để khám phá thuốc bằng cách dự đoán sự tương tác giữa các phân tử và protein sinh học wiki .

Do đó, nó có thể được sử dụng cho nhiều vấn đề khác nhau bằng cách sử dụng các lớp chập và lớp con được kết nối với các lớp được kết nối đầy đủ hơn. Chúng dễ huấn luyện hơn, vì có ít tham số hơn các mạng được kết nối đầy đủ với cùng số đơn vị ẩn. UFLDL


3

Một mạng nơ ron tích chập có thể được sử dụng ở bất cứ nơi nào các mẫu có tương quan cục bộ và có thể dịch được (như có thể dịch chuyển). Đây là trường hợp vì CNN chứa các bộ lọc tìm kiếm các mẫu cục bộ nhất định ở mọi nơi trong đầu vào. Bạn sẽ tìm thấy các mẫu địa phương và có thể dịch trong hình ảnh, văn bản, chuỗi thời gian, v.v.

Việc sử dụng CNN sẽ không có ý nghĩa nhiều nếu dữ liệu của bạn giống như một túi các tính năng với thứ tự không liên quan. Trong trường hợp đó, bạn có thể gặp khó khăn khi phát hiện các mẫu có chứa các tính năng xảy ra cách xa nhau hơn trong vectơ đầu vào của bạn. Bạn sẽ không tìm thấy các mẫu cục bộ và có thể dịch trong dữ liệu của mình nếu bạn có thể sắp xếp lại các điểm dữ liệu của các vectơ đầu vào mà không làm mất thông tin.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.