Trong khi đọc các tài liệu phân đoạn ngữ nghĩa cũng như các triển khai tương ứng của chúng, tôi thấy rằng một số cách tiếp cận sử dụng softmax trong khi các phương pháp khác sử dụng sigmoid cho ghi nhãn mức pixel.
Ví dụ, đối với giấy u-net , đầu ra là bản đồ đặc trưng với hai kênh.
Tôi đã thấy một số triển khai sử dụng softmax qua hai đầu ra kênh này. Tôi không chắc liệu sự hiểu biết sau đây của tôi là chính xác hay không?
Đối với mục đích minh họa, phần bịt mặt thuộc về lớp 1 và phần khác thuộc về lớp 2. Tôi chỉ giả sử hai lớp: đeo mặt nạ hoặc không đeo mặt nạ.
Tôi sử dụng xy
để thể hiện bản đồ đầu ra với hình dạng (1, image_row, image_col, 2). Sau đó, xy[1,0,0,0]
sẽ đại diện cho xác suất pixel tại (0,0) thuộc về lớp 1 trong khi xy[1,0,0,1]
sẽ đại diện cho xác suất pixel (0,0) thuộc về lớp 2. Nói cách khác,xy[1,row,col,0]+xy[1,row,col,1]=1
Tôi hiểu có đúng không?