Tôi đã xây dựng một số mạng thần kinh (MLP (được kết nối đầy đủ), Elman (định kỳ)) cho các tác vụ khác nhau, như chơi trò chơi điện tử, phân loại chữ số viết tay và công cụ ...
Ngoài ra, tôi đã cố gắng xây dựng một số mạng thần kinh tích chập đầu tiên, ví dụ như để phân loại các ghi chú viết tay nhiều chữ số, nhưng tôi hoàn toàn mới để phân tích và phân cụm văn bản, ví dụ như trong các tác vụ nhận dạng / phân cụm hình ảnh, người ta có thể dựa vào đầu vào được tiêu chuẩn hóa, như hình ảnh có kích thước 25x25, RGB hoặc thang độ xám, v.v ... có rất nhiều tính năng giả định trước.
Để khai thác văn bản, ví dụ như các bài báo, bạn có kích thước đầu vào luôn thay đổi (các từ khác nhau, các câu khác nhau, độ dài văn bản khác nhau, ...).
Làm thế nào người ta có thể thực hiện một công cụ khai thác văn bản hiện đại sử dụng trí tuệ nhân tạo, tốt nhất là mạng thần kinh / SOM?
Thật không may, tôi không thể tìm thấy các hướng dẫn đơn giản để bắt đầu. Các bài báo khoa học phức tạp rất khó đọc và không phải là lựa chọn tốt nhất để học một chủ đề (theo ý kiến của tôi). Tôi đã đọc khá nhiều bài viết về MLP, kỹ thuật bỏ học, mạng nơ ron tích chập, v.v., nhưng tôi không thể tìm thấy một bài cơ bản về khai thác văn bản - tất cả những gì tôi thấy là quá cao đối với kỹ năng khai thác văn bản rất hạn chế của tôi.