Độ chính xác tốt mặc dù giá trị tổn thất cao


15

Trong quá trình đào tạo một bộ phân loại nhị phân mạng thần kinh đơn giản, tôi nhận được giá trị tổn thất cao, sử dụng entropy chéo. Mặc dù vậy, giá trị của độ chính xác trên bộ xác nhận giữ khá tốt. Nó có một số ý nghĩa? Không có mối tương quan chặt chẽ giữa mất mát và độ chính xác?

Tôi có về đào tạo và xác nhận các giá trị này: 0.4011 - acc: 0.8224 - val_loss: 0.4577 - val_acc: 0.7826 . Đây là nỗ lực đầu tiên của tôi để thực hiện NN và tôi chỉ tiếp cận học máy, vì vậy tôi không thể đánh giá đúng các kết quả này.


3
Bạn có quan sát giá trị tổn thất cao chỉ trên tập huấn luyện hay xác nhận quá không? Có sự sụt giảm lớn về độ chính xác hay mất mát khi so sánh tập huấn luyện và tập xác thực không? Một số số liệu sẽ hữu ích
Hugh

Câu trả lời:


20

Tôi đã trải qua một vấn đề tương tự.

Tôi đã đào tạo bộ phân loại nhị phân mạng thần kinh của mình với một mất mát entropy chéo. Ở đây kết quả của entropy chéo như là một chức năng của thời đại. Màu đỏ dành cho tập huấn luyện và màu xanh dành cho tập kiểm tra.

Entropy chéo như là một chức năng của thời đại.

Bằng cách hiển thị độ chính xác, tôi đã có một bất ngờ để có được độ chính xác tốt hơn cho epoch 1000 so với epoch 50, ngay cả đối với bộ thử nghiệm!

Độ chính xác như là một chức năng của thời đại

Để hiểu mối quan hệ giữa entropy chéo và độ chính xác, tôi đã đi sâu vào một mô hình đơn giản hơn, hồi quy logistic (với một đầu vào và một đầu ra). Sau đây, tôi chỉ minh họa mối quan hệ này trong 3 trường hợp đặc biệt.

Nói chung, tham số trong đó entropy chéo là tối thiểu không phải là tham số trong đó độ chính xác là tối đa. Tuy nhiên, chúng tôi có thể mong đợi một số mối quan hệ giữa entropy chéo và độ chính xác.

[Trong phần sau đây, tôi giả sử rằng bạn biết entropy chéo là gì, tại sao chúng ta sử dụng nó thay vì độ chính xác để đào tạo mô hình, v.v. Nếu không, xin vui lòng đọc phần này trước: Làm thế nào để diễn giải một điểm số entropy chéo? ]

Minh họa 1 Điều này là để chỉ ra rằng tham số trong đó entropy chéo là tối thiểu không phải là tham số có độ chính xác tối đa và để hiểu lý do tại sao.

Đây là dữ liệu mẫu của tôi. Tôi có 5 điểm và ví dụ đầu vào -1 có dẫn đến đầu ra 0. Mẫu 5 điểm

Entropy chéo. Sau khi giảm thiểu entropy chéo, tôi có được độ chính xác 0,6. Việc cắt giữa 0 và 1 được thực hiện tại x = 0,52. Đối với 5 giá trị, tôi thu được một entropy chéo tương ứng là: 0,14, 0,30, 1,07, 0,97, 0,43.

Sự chính xác. Sau khi tối đa hóa độ chính xác trên lưới, tôi thu được nhiều tham số khác nhau dẫn đến 0,8. Điều này có thể được hiển thị trực tiếp, bằng cách chọn cắt x = -0.1. Chà, bạn cũng có thể chọn x = 0,95 để cắt các bộ.

Trong trường hợp đầu tiên, entropy chéo là lớn. Thật vậy, điểm thứ tư là xa cắt, vì vậy có một entropy chéo lớn. Cụ thể, tôi có được một entropy chéo tương ứng là: 0,01, 0,31, 0,47, 5,01, 0,004.

Trong trường hợp thứ hai, entropy chéo cũng lớn. Trong trường hợp đó, điểm thứ ba cách xa vết cắt, do đó có một entropy chéo lớn. Tôi có được một entropy chéo tương ứng là: 5e-5, 2e-3, 4.81, 0.6, 0.6.

mộtmộtbVí dụ dữ liệu nhỏ

n= =100một= =0,3b= =0,5

bbmộtBộ trung bình

một

một= =0,3

n= =10000một= =1b= =0

Dữ liệu khá lớn

Tôi nghĩ rằng nếu mô hình có đủ dung lượng (đủ để chứa mô hình thực) và nếu dữ liệu lớn (nghĩa là cỡ mẫu đi đến vô cùng), thì entropy chéo có thể là tối thiểu khi độ chính xác là tối đa, ít nhất là cho mô hình logistic . Tôi không có bằng chứng về điều này, nếu ai đó có một tài liệu tham khảo, xin vui lòng chia sẻ.

Tài liệu tham khảo: Chủ đề liên kết entropy chéo và độ chính xác rất thú vị và phức tạp, nhưng tôi không thể tìm thấy các bài viết liên quan đến vấn đề này ... Để nghiên cứu tính chính xác là thú vị bởi vì mặc dù là một quy tắc chấm điểm không đúng, mọi người đều có thể hiểu ý nghĩa của nó.

Lưu ý: Đầu tiên, tôi muốn tìm một câu trả lời trên trang web này, các bài đăng liên quan đến mối quan hệ giữa độ chính xác và entropy chéo có rất nhiều nhưng với một vài câu trả lời, hãy xem: tra tra và kiểm tra chéo có thể so sánh dẫn đến độ chính xác rất khác nhau ; Mất xác nhận đi xuống, nhưng độ chính xác xác nhận xấu đi ; Nghi ngờ về chức năng mất entropy chéo phân loại ; Giải thích mất log theo phần trăm ...


Minh họa rất tốt. Lấy cảm hứng từ những minh họa này, tôi kết luận với 2 lý do có thể. 1. Mô hình quá đơn giản để trích xuất các tính năng cần thiết để dự đoán. Trong Minh họa 1 của bạn, đó là một vấn đề đa dạng và cần thêm một lớp nữa để có độ chính xác 100%.
Diansheng

-1

ahstat cho minh họa rất tốt.

Lấy cảm hứng từ những minh họa này, tôi kết luận với 2 lý do có thể. 1. Mô hình quá đơn giản để trích xuất các tính năng cần thiết để dự đoán. Trong Minh họa 1 của bạn, đó là một vấn đề đa dạng và cần thêm một lớp nữa để có độ chính xác 100%. 2. Dữ liệu có quá nhiều nhãn nhiễu. (So sánh Minh họa 1 và 3)

Đối với Minh họa 2, nó giải thích lý do tại sao chúng ta không thể thêm quá nhiều chính quy L1 / L2 trên mô hình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.