Một lý do thuyết phục cho việc sử dụng entropy chéo trên hệ số xúc xắc hoặc số liệu IoU tương tự là độ dốc đẹp hơn.
Độ dốc của entropy chéo wrt các bản ghi là một cái gì đó giống như , trong đó là đầu ra softmax và là mục tiêu. Trong khi đó, nếu chúng ta cố gắng viết hệ số xúc xắc ở dạng khác biệt: hoặc , thì độ dốc kết quả wrt sẽ xấu hơn nhiều : và . Thật dễ dàng để tưởng tượng một trường hợp mà cả và đều nhỏ, và độ dốc thổi lên một số giá trị lớn. Nhìn chung, có vẻ như việc đào tạo sẽ trở nên không ổn định hơn.p - tpt2 p tp2+ t22 p tp + tp2t2(p+t)22t(t2−p2)(p2+t2)2pt
Lý do chính mà mọi người cố gắng sử dụng trực tiếp hệ số xúc xắc hoặc IoU là vì mục tiêu thực tế là tối đa hóa các số liệu đó và entropy chéo chỉ là một proxy dễ dàng hơn để tối đa hóa việc sử dụng backpropagation. Ngoài ra, hệ số Dice thực hiện tốt hơn các vấn đề mất cân bằng lớp theo thiết kế:
Tuy nhiên, sự mất cân bằng lớp thường được quan tâm đơn giản bằng cách gán bội số tổn thất cho mỗi lớp, do đó mạng rất không phù hợp để đơn giản bỏ qua một lớp xuất hiện không thường xuyên, do đó, không rõ ràng rằng hệ số Dice thực sự cần thiết trong những trường hợp này.
Tôi sẽ bắt đầu với mất entropy chéo, dường như là tổn thất tiêu chuẩn cho các mạng phân khúc đào tạo, trừ khi có một lý do thực sự thuyết phục để sử dụng hệ số Dice.