Làm thế nào để phân loại pixel nhóm U-Net thành một vùng không gian duy nhất?


7

Mạng lưới thần kinh được gọi là " U-Net " (Ronneberger, Fischer và Brox 2015) là một kỹ thuật nổi bật trong cuộc thi Phân đoạn siêu âm thần kinh gần đây của Kaggle , trong đó điểm số cao được trao cho các thuật toán tạo mặt nạ pixel với mức độ trùng lặp cao với các vùng vẽ tay.

Thần kinh với phác thảo đám rối cánh tay (Ảnh từ Christopher Hefele )

Nếu một người tiến hành phân loại từng pixel (có lẽ từ một hình ảnh được lấy mẫu xuống), phải có nhiều cách để kết hợp kiến ​​thức trước đó rằng các pixel lân cận sẽ có xu hướng có cùng một lớp và hơn nữa tất cả các phân loại tích cực phải nằm trong một khu vực không gian. Tuy nhiên, tôi không thể hiểu làm thế nào những U-Nets này đang làm điều đó. Họ phân loại từng pixel, mặc dù bằng một mê cung của các toán tử tích chập và gộp: Mạng lưới

Có các biên giới phân tách liên quan, nhưng bài báo lưu ý rằng chúng được "tính toán bằng các hoạt động hình thái" mà tôi có nghĩa là hoàn toàn tách biệt với chính U-Net. Các đường viền đó chỉ được sử dụng để sửa đổi các trọng số để có nhiều điểm nhấn hơn được đặt trên các pixel ở viền. Chúng dường như không thay đổi về cơ bản nhiệm vụ phân loại.

Đường viền ngăn cách

Trong việc phân loại từng pixel, làm thế nào để mạng lưới thần kinh tích chập sâu này được gọi là "U-Net" kết hợp kiến ​​thức trước đó rằng khu vực dự đoán sẽ là một khu vực không gian duy nhất?

Câu trả lời:


1

Nó kết hợp "kiến thức trước" bằng cách đào tạo mạng qua tập dữ liệu huấn luyện sẽ cập nhật trọng số của các bộ lọc tích chập. Đây là cách hầu hết các mạng thần kinh được đào tạo với backprop tiêu chuẩn. Trường hợp tổn thất được hỗ trợ lại dựa trên tổn thất phân biệt trong trường hợp này.

Đây là một liên kết để hiển thị tốt hơn một viz trực quan giải mã . Nó không cho thấy nó được đào tạo như thế nào vì nó giống như cách tích chập thường xuyên được đào tạo và có các tài nguyên khác cho điều đó như backprop .


Vì vậy, hãy suy nghĩ về cấu trúc của LSTM, ví dụ. Bản thân kiến ​​trúc cho phép ổn định theo thời gian thông qua "trạng thái tế bào". Tôi đã không thấy bất cứ điều gì như thế đối với lưới chữ U trong lĩnh vực không gian. Tuy nhiên, kể từ khi hỏi câu hỏi này, tôi đã học được thêm một chút. Bây giờ tôi nghĩ các pixel gần nhau có xu hướng có cùng một lớp dự đoán vì các đầu vào gần như giống nhau, do các bộ lọc và các hoạt động chuyển đổi tăng.
Ben Ogorek

Những gì bạn nêu là không chính xác. Kiến trúc của một LSTM vốn không cho phép sự ổn định (thậm chí theo thời gian). Thay vào đó, những gì LSTM làm là thực hiện kết hợp phi tuyến của trạng thái ẩn (đầu vào trước đó) với đầu vào hiện tại của nó. Sự kết hợp phi tuyến không cần phải ổn định chút nào.
Steven

Điều này tương tự như phân loại hình ảnh. Làm thế nào để VGG, hoặc Resnet, ví dụ như phân loại hình ảnh là một con mèo hoặc con chó, v.v. Nó xây dựng một số biểu diễn phi tuyến của các pixel mà sau đó nó có thể sử dụng để phân loại hình ảnh. Trong trường hợp này, kiến ​​trúc U-Net xây dựng các tổ hợp pixel không tuyến tính ở độ phân giải không gian lớn hơn và lớn hơn bằng cách lấy mẫu xuống, sau đó nó sẽ thực hiện việc lấy mẫu nhưng lấy mẫu sẽ ưu tiên một số tính năng so với các tính năng khác trong ảnh gốc. Bạn đang đào tạo các trọng số thực hiện cả việc lấy mẫu xuống và lấy mẫu để phân chia hình ảnh tốt hơn.
Steven

Hai câu cuối của bạn là nhiều hơn những gì tôi đã hy vọng nhìn thấy trong câu trả lời ban đầu. Không có nhiều tài liệu nói chung về lấy mẫu lên (tích chập?) Và các loại tính năng có thể học được. Bạn có thể mở rộng về điều đó trong câu trả lời ban đầu của bạn?
Ben Ogorek

Thực sự nó giống như tích chập. Làm thế nào là các bộ lọc đã học trong bất kỳ quy trình nào bằng cách truyền ngược lại. Tôi đã bao gồm một liên kết đến một bài đăng khác làm nổi bật hơn những gì upconvolution đang làm. Khối hình vuông màu xám là một bộ lọc được học và áp dụng cho đầu vào màu xanh có đệm. Hãy cho tôi biết nếu điều này giúp hoặc vẫn còn nhầm lẫn.
Steven
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.