Áp dụng cho việc sử dụng sai các thuật ngữ kỹ thuật. Tôi đang làm việc trên một dự án phân đoạn ngữ nghĩa thông qua các mạng thần kinh tích chập (CNNs); cố gắng thực hiện một kiến trúc kiểu Encoder-Decoder, do đó đầu ra có cùng kích thước với đầu vào.
Làm thế nào để bạn thiết kế các nhãn? Những gì mất chức năng nên áp dụng? Đặc biệt là trong tình huống mất cân bằng hạng nặng (nhưng tỷ lệ giữa các lớp là thay đổi từ hình ảnh sang hình ảnh).
Vấn đề liên quan đến hai lớp (đối tượng quan tâm và nền tảng). Tôi đang sử dụng Keras với phụ trợ kéo căng.
Cho đến nay, tôi sẽ thiết kế các đầu ra dự kiến có cùng kích thước với các hình ảnh đầu vào, áp dụng ghi nhãn theo pixel. Lớp cuối cùng của mô hình có kích hoạt softmax (cho 2 lớp) hoặc kích hoạt sigmoid (để thể hiện xác suất các pixel thuộc về lớp đối tượng). Tôi gặp rắc rối với việc thiết kế một hàm mục tiêu phù hợp cho một nhiệm vụ như vậy, thuộc loại:
function(y_pred,y_true)
,
đồng ý với Keras .
Xin vui lòng, cố gắng cụ thể với kích thước của tenxơ liên quan (đầu vào / đầu ra của mô hình). Bất kỳ suy nghĩ và đề xuất được nhiều đánh giá cao. Cảm ơn bạn !