Vì BERT là hai chiều (sử dụng biến áp hai chiều), nên có thể sử dụng nó cho nhiệm vụ dự đoán từ tiếp theo không? Nếu có, những gì cần phải được điều chỉnh?
Vì BERT là hai chiều (sử dụng biến áp hai chiều), nên có thể sử dụng nó cho nhiệm vụ dự đoán từ tiếp theo không? Nếu có, những gì cần phải được điều chỉnh?
Câu trả lời:
BERT không thể được sử dụng cho dự đoán từ tiếp theo, ít nhất là không với tình trạng hiện tại của nghiên cứu về mô hình hóa ngôn ngữ đeo mặt nạ.
BERT được đào tạo về một nhiệm vụ mô hình hóa ngôn ngữ đeo mặt nạ và do đó bạn không thể "dự đoán từ tiếp theo". Bạn chỉ có thể che dấu một từ và yêu cầu BERT dự đoán từ đó cho phần còn lại của câu (cả bên trái và bên phải của từ bị che).
Bằng cách này, với BERT, bạn không thể lấy mẫu văn bản như thể đó là một mô hình ngôn ngữ tự phát bình thường. Tuy nhiên, BERT có thể được xem như là Mô hình ngôn ngữ trường ngẫu nhiên Markov và được sử dụng để tạo văn bản như vậy. Xem bài viết BERT có một cái miệng và nó phải nói: BERT như một mô hình ngôn ngữ trường ngẫu nhiên Markov để biết chi tiết. Các tác giả đã phát hành mã nguồn và một máy tính xách tay Google Colab .
Cập nhật: các tác giả của bài báo MRF đã phát hiện ra phân tích của họ là thiếu sót và BERT không phải là MRF, hãy xem điều này