Làm thế nào để trích xuất thông tin cụ thể từ các văn bản sử dụng máy học tập?


7

Giả sử tôi có một văn bản như dưới đây thường có 2/3 câu và 100-200 ký tự.

Johny đã mua sữa 50 đô la từ walmart. Bây giờ anh chỉ còn lại 20 đô la.

Tôi muốn giải nén

Tên người: Johny

Chi tiêu: 50 đô la

Tiền còn lại: 20 đô la.

Dành nơi: Walmart.

Tôi đã trải qua rất nhiều tài liệu trên mạng thần kinh tái phát. Đã xem video cs231n trên RNN và hiểu dự đoán nhân vật tiếp theo. Trong những trường hợp này, chúng tôi đã thiết lập 26 ký tự mà chúng tôi có thể sử dụng làm lớp đầu ra để tìm ký tự tiếp theo bằng xác suất. Nhưng ở đây, vấn đề có vẻ hoàn toàn khác vì chúng ta không biết các lớp đầu ra. Đầu ra phụ thuộc vào các từ và số trong văn bản có thể là bất kỳ từ hoặc số ngẫu nhiên nào.

Tôi đọc trên Quora rằng mạng nơ ron tích chập cũng có thể trích xuất các tính năng trên văn bản. Tự hỏi nếu điều đó cũng có thể giải quyết vấn đề đặc biệt này?


2
Ngôn ngữ học tính toán là một lĩnh vực cực kỳ khốc liệt mà không nhất thiết phải cho bạn biết ai đó đã chi bao nhiêu. Thay vào đó, nó thực hiện những việc như tìm kiếm Chủ ngữ, động từ, đối tượng gián tiếp, v.v ... nó phụ thuộc rất nhiều vào nền tảng vững chắc trong cấu trúc câu và các kiểu chữ của các từ. Từ những gì tôi đã đọc trong lĩnh vực này, các mô hình cho ngôn ngữ học tính toán sử dụng một số mô hình cùng một lúc để đạt được các loại mục tiêu bạn đang theo đuổi.
Ryan Honea

Câu trả lời:


8

Vấn đề bạn đặt ra ở đây được gọi là nhận dạng thực thể có tên (NER) hoặc trích xuất thực thể có tên.

Có nhiều công nghệ (không cần mạng thần kinh) có thể được sử dụng cho vấn đề này và một số trong số chúng khá trưởng thành. Xem ví dụ: repo này để biết giải pháp dễ cắm hoặc thử áp dụng ne_chunk_sentschức năng từ NLTKmô-đun trong Python.


1

Tôi nghĩ rằng bạn có thể nhìn vào phân tích cú pháp phụ thuộc . Bộ dữ liệu thực tế của bạn có thể được trích xuất từ ​​các cạnh trong biểu đồ suy giảm.

nhập mô tả hình ảnh ở đây

PS1 Nếu bạn muốn làm gì đó trên NLP, bạn nên kiểm tra cs224n chứ không phải cs231n. Tôi cũng nhớ lại cs224 chứa một phần trên DL để phân tích cú pháp phụ thuộc.

PS2 Cây phụ thuộc được lấy từ Trình phân tích phụ thuộc mạng nơ ron Stanford

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.