Những kỹ thuật máy / học sâu / nlp nào được sử dụng để phân loại một từ đã cho là tên, số điện thoại di động, địa chỉ, email, tiểu bang, quận, thành phố, v.v.


9

Tôi đang cố gắng tạo ra một mô hình thông minh có thể quét một tập hợp các từ hoặc chuỗi và phân loại chúng thành tên, số điện thoại di động, địa chỉ, thành phố, tiểu bang, quốc gia và các thực thể khác bằng cách sử dụng máy học hoặc học sâu.

Tôi đã tìm kiếm các phương pháp, nhưng tiếc là tôi không tìm thấy cách tiếp cận nào. Tôi đã thử với túi mô hình từ và nhúng từ găng tay để dự đoán xem một chuỗi là tên hoặc thành phố, v.v.

Nhưng, tôi đã không thành công với mô hình túi từ và với GloVe, có rất nhiều cái tên không được nêu trong ví dụ nhúng: - lauren có mặt trong Găng tay và laurena không

Tôi đã tìm thấy bài đăng này ở đây , trong đó có một câu trả lời hợp lý nhưng tôi không thể tiếp cận được sử dụng để giải quyết vấn đề đó ngoài thực tế là NLP và SVM đã được sử dụng để giải quyết nó.

Mọi góp ý đều được đánh giá cao

Cảm ơn và trân trọng, Sai Charan Adurthi.


4
Không phải là một câu trả lời, nhưng điều này được gọi là Nhận dạng thực thể được đặt tên. Tìm kiếm với những điều khoản có thể bật lên thông tin hữu ích.
kbrose

Cảm ơn @kbrose, sẽ xem xét các kỹ thuật Nhận dạng thực thể được đặt tên.
Sai Charan Adurthi 16/03/18

Câu trả lời:


1

Bạn có thể áp dụng gram ký tự - Theo trực giác, có thể có một sự khác biệt lớn về bộ ký tự giữa số điện thoại và địa chỉ email. và sau đó chuyển vectơ gram ký tự cho SVM để đưa ra dự đoán. Bạn có thể thực hiện điều này bằng cách sử dụng trong sklearn bằng cách sử dụng các trình trích xuất tính năng bên dưới.

  1. TfIdfVectorizer (phân tích = 'ký tự')

  2. CountVectorizer (analyzer = 'character')

Xác thực chéo trên phạm vi ngram và làm chậm các biến của SVM để tinh chỉnh mô hình của bạn.


Cảm ơn! @karthikbharadwaj. Tôi hiện đang làm việc bằng R, sẽ xem xét sklearn và xem nó có hoạt động không ..
Sai Charan Adurthi

@Sai Charan Adurthi - Vui lòng upvote nếu bạn thấy nó hữu ích và chấp nhận câu trả lời nếu bạn thấy chúng hữu ích.
karthikbharadwaj

chắc chắn, chắc chắn sẽ làm điều đó một khi tôi kiểm tra nó bằng Python ...
Sai Charan Adurthi

0

Áp dụng nhãn phân loại phổ biến cho các từ thường được gọi là nhận dạng thực thể có tên (NER) .

NER có thể được thực hiện bằng các quy tắc tĩnh (ví dụ: biểu thức chính quy) hoặc quy tắc đã học (ví dụ: cây quyết định). Các quy tắc này thường dễ vỡ và không khái quát. Trường ngẫu nhiên có điều kiện (CRF) thường là một giải pháp tốt hơn vì chúng có thể mô hình hóa các trạng thái tiềm ẩn của ngôn ngữ. Hiệu suất hiện đại trong NER được thực hiện với sự kết hợp của các mô hình Deep Learning .

Các Stanford Named Entity RecognizerSpacy là gói để thực hiện NER.


Cảm ơn bác sĩ Brain! .. nhưng, tôi muốn xây dựng một mô hình chỉ cần một từ hoặc một chuỗi chuỗi và dự đoán xem đó có phải là tên, địa chỉ, v.v. Tôi đã thử NER bằng openNLP của Apache trong R. Tôi đã không thành công trong đó. Đó là đoạn văn cần thiết để sử dụng ngữ pháp và các phần của lời nói, tôi muốn có một mô hình thậm chí có thể hiểu những thứ như mã bưu chính, mã zip và mã trạng thái. Đang đi với phương pháp đúng ở đây Tiến sĩ não?
Sai Charan Adurthi

Bạn không nên nghĩ đến việc có một mô hình chung duy nhất. Bạn nên xây dựng một mô hình cho từng loại yếu tố. Ví dụ, hầu hết các mã bưu chính có thể được tìm thấy với một biểu thức chính quy. Ngoài ra bối cảnh là vua, một mô hình được đưa ra một từ sẽ làm một công việc kém dự đoán NER. Nó là tốt hơn để có phần lớn của văn bản.
Brian Spiering

Xin chào, @Dr. Brain, tôi đã thử với gói text2vec cho R, tôi đã sử dụng các nhúng nhúng của Word Word để kiểm tra các từ tương tự như thế nào. Ví dụ: Tôi có dữ liệu đào tạo 1000 hàng với các danh mục như tên, thành phố, tiểu bang, quốc gia, v.v., dữ liệu thử nghiệm với các giá trị khác nhau. Tôi đã sử dụng text2vec để xây dựng TCM cho cả đào tạo, kiểm tra giá trị dữ liệu, sau đó khớp mô hình găng tay với các TCM đó và kiểm tra độ tương tự của từng từ trong dữ liệu kiểm tra để huấn luyện dữ liệu theo danh mục bằng cách sử dụng chức năng tương tự cosine. Nhưng, tôi không thể đạt được độ chính xác tốt và thậm chí biến đổi mỗi khi tôi tạo mô hình găng tay và kiểm tra độ tương tự.
Sai Charan Adurthi

Cảm ơn, Dr.Brian nó hoạt động nếu tôi sử dụng câu để lấy ngữ cảnh và sử dụng NER. Nhưng, tôi muốn làm điều đó chỉ bằng cách sử dụng các từ và xem liệu bất kỳ mô hình nào có thể học các mẫu từ các từ.
Sai Charan Adurthi

Xin chào Brain, tôi đã sử dụng Apache Open NLP để sử dụng các mô hình NER được đào tạo trước. Và vâng, nó hoạt động trên các từ là tốt.
Sai Charan Adurthi
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.