Tại sao sự bối rối là một số liệu đánh giá tốt cho chatbot?


8

Một số bài báo nói rằng BLEU không phải là một phương pháp đánh giá thích hợp cho chatbot, thay vào đó họ sử dụng sự bối rối để ước tính chatbot.

Trước hết, sự bối rối là gì? Làm thế nào để tính toán nó? Và tại sao sự bối rối lại là một thước đo đánh giá tốt cho chatbot?


Đây là một câu hỏi trên CrossValidated hỏi số liệu thống kê gây khó chịu.stackexchange.com / q / 10302/83535 là gì.
nbro

Vui lòng tham khảo câu trả lời này: stats.stackexchange.com/a/450945/103153
Lerner Zhang

Trong bài báo này, tác giả nói rằng sự bối rối tương quan rất tốt với sự phán xét của con người: arxiv.org/pdf/2001.09977.pdf
Lerner Zhang

Câu trả lời:


1

Với sự bối rối, bạn đang cố gắng đánh giá sự giống nhau giữa phân phối mã thông báo (trong trường hợp của bạn có thể là câu) được tạo bởi mô hình và mô hình trong dữ liệu thử nghiệm.

Ví dụ, giả sử bạn có M câu phù hợp S1,Giáo dục,SM, mỗi cái có xác suất P(STôi), sự bối rối là

2-tôi,
Ở đâu tôi= =1MΣP(STôi)đăng nhậpP(STôi) cho Tôi[1Giáo dụcM].

Lưu ý rằng mặc dù sự lúng túng có thể hữu ích để nắm bắt các khía cạnh nhất định của mô hình, nhưng nó không có nghĩa là hoàn hảo, và ngay cả khi bạn có thể đạt được điểm số lúng túng tuyệt vời, nó sẽ không nhất thiết phải dịch sang một bot trò chuyện tốt hoặc thậm chí hoạt động tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.