1
BERT có thể thực hiện nhiệm vụ dự đoán từ tiếp theo không?
Vì BERT là hai chiều (sử dụng biến áp hai chiều), nên có thể sử dụng nó cho nhiệm vụ dự đoán từ tiếp theo không? Nếu có, những gì cần phải được điều chỉnh?