Hàm mất hệ số súc sắc so với entropy chéo


27

Khi đào tạo một mạng nơ ron phân đoạn pixel, chẳng hạn như mạng tích chập hoàn toàn, làm thế nào để bạn đưa ra quyết định sử dụng chức năng mất entropy chéo so với chức năng mất hệ số Dice?

Tôi nhận ra đây là một câu hỏi ngắn, nhưng không chắc chắn những thông tin khác sẽ cung cấp. Tôi đã xem xét một loạt các tài liệu về hai chức năng mất nhưng không thể hiểu được trực quan khi nào nên sử dụng chức năng này.


Tại sao không sử dụng phương pháp thực hành để sử dụng cả hai và so sánh kết quả. Nhìn vào rất nhiều lĩnh vực ứng dụng khác nhau, thảo luận về chức năng mất là chủ đề riêng của nghiên cứu mở rộng. Vì các mạng chập vẫn là một 'chủ đề nóng', tôi đoán rằng hầu hết các bài báo sẽ vẫn được xuất bản trong tương lai.
cherub

Câu trả lời:


27

Một lý do thuyết phục cho việc sử dụng entropy chéo trên hệ số xúc xắc hoặc số liệu IoU tương tự là độ dốc đẹp hơn.

Độ dốc của entropy chéo wrt các bản ghi là một cái gì đó giống như , trong đó là đầu ra softmax và là mục tiêu. Trong khi đó, nếu chúng ta cố gắng viết hệ số xúc xắc ở dạng khác biệt: hoặc , thì độ dốc kết quả wrt sẽ xấu hơn nhiều : và . Thật dễ dàng để tưởng tượng một trường hợp mà cả và đều nhỏ, và độ dốc thổi lên một số giá trị lớn. Nhìn chung, có vẻ như việc đào tạo sẽ trở nên không ổn định hơn.ptpt2ptp2+t22ptp+tp2t2(p+t)22t(t2p2)(p2+t2)2pt


Lý do chính mà mọi người cố gắng sử dụng trực tiếp hệ số xúc xắc hoặc IoU là vì mục tiêu thực tế là tối đa hóa các số liệu đó và entropy chéo chỉ là một proxy dễ dàng hơn để tối đa hóa việc sử dụng backpropagation. Ngoài ra, hệ số Dice thực hiện tốt hơn các vấn đề mất cân bằng lớp theo thiết kế:

Tuy nhiên, sự mất cân bằng lớp thường được quan tâm đơn giản bằng cách gán bội số tổn thất cho mỗi lớp, do đó mạng rất không phù hợp để đơn giản bỏ qua một lớp xuất hiện không thường xuyên, do đó, không rõ ràng rằng hệ số Dice thực sự cần thiết trong những trường hợp này.


Tôi sẽ bắt đầu với mất entropy chéo, dường như là tổn thất tiêu chuẩn cho các mạng phân khúc đào tạo, trừ khi có một lý do thực sự thuyết phục để sử dụng hệ số Dice.


Entropy chéo của tất cả các gia đình theo cấp số nhân là một khác biệt tốt đẹp . pt
Neil G

3
Khi nào thì tối đa hóa "mục tiêu chính" của việc mất xúc xắc? Tôi đã kiểm tra bài báo gốc và tất cả những gì họ nói là, chúng tôi thu được kết quả mà chúng tôi quan sát được bằng thực nghiệm tốt hơn nhiều so với những gì được tính toán qua cùng một mạng được đào tạo để tối ưu hóa sự mất mát logistic đa phương thức với trọng số lại mẫu.
Neil G

@shimao Bởi "xấu xí" bạn chỉ có nghĩa là độ dốc có thể phát nổ, điều đó có đúng không?
flawr

17

Như được tóm tắt bởi @shimao và @cherub, người ta không thể nói apriori cái nào sẽ hoạt động tốt hơn trên một tập dữ liệu cụ thể. Cách chính xác là thử cả hai và so sánh kết quả. Ngoài ra, lưu ý rằng khi nói đến phân khúc, không dễ để "so sánh kết quả" : Các biện pháp dựa trên IoU như hệ số xúc xắc chỉ bao gồm một số khía cạnh về chất lượng của phân khúc; trong một số ứng dụng, các biện pháp khác nhau như khoảng cách bề mặt trung bình hoặc khoảng cách bề mặt Hausdorff cần được sử dụng. Như bạn thấy, thậm chí việc lựa chọn chỉ số chất lượng chính xác là không đáng kể, chứ chưa nói đến việc lựa chọn hàm chi phí tốt nhất.

Cá nhân tôi có kinh nghiệm rất tốt với hệ số xúc xắc; nó thực sự làm nên điều kỳ diệu khi mất cân bằng lớp học (một số phân đoạn chiếm ít pixel / voxels hơn các phân đoạn khác). Mặt khác, đường cong lỗi đào tạo trở thành một mớ hỗn độn: nó hoàn toàn không cho tôi thông tin về sự hội tụ, vì vậy về mặt này, chiến thắng của entropy chéo. Tất nhiên, điều này có thể / nên được bỏ qua bằng cách kiểm tra lỗi xác nhận dù sao đi nữa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.