Trong hoàn cảnh nào là từ vựng không phải là một bước cố vấn khi làm việc với dữ liệu văn bản?


7

Bỏ qua các hạn chế tính toán có thể có, có những ứng dụng chung trong đó từ vựng sẽ là một bước phản tác dụng khi phân tích dữ liệu văn bản?

Ví dụ, liệu từ vựng có phải là điều không được thực hiện khi xây dựng mô hình nhận biết ngữ cảnh không?

Để tham khảo, từ vựng trên mỗi dictinory.com là hành động nhóm các dạng bị biến dạng của (một từ) để phân tích thành một mục duy nhất.

Ví dụ: từ 'cook' là bổ đề của từ 'cook'. Ví dụ, hành động từ vựng là thay thế từ nấu ăn bằng nấu sau khi bạn đã mã hóa dữ liệu văn bản của mình. Ngoài ra, từ 'tệ hơn' có 'xấu' là bổ đề của nó, và như ví dụ trước thay thế từ 'tệ hơn' bằng 'xấu' là hành động của từ vựng.


1
Tôi nghĩ rằng câu hỏi này sẽ được cải thiện với một mô tả ngắn về việc từ vựng là gì
kbrose

1
@kbrose Được rồi, tôi có thể thêm một mô tả ngắn. Cảm ơn vì đã góp ý.
Zer0k

1
Cảm ơn! Câu hỏi thú vị. Tôi có những điều đơn giản như một phần của việc gắn thẻ bài phát biểu chắc chắn sẽ bị tổn hại bởi từ vựng. Tò mò muốn xem có nhiều hơn không
kbrose

Câu trả lời:


1

Các nhiệm vụ NLP sẽ bị tổn hại bởi quá trình từ vựng:

1) Phân loại căng thẳng

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

Chuỗi các ký tự ở cuối động từ có thể giúp trong nhiệm vụ này. Các động từ nấu nấu khác nhau ở các ký tự cuối eds lặp đi lặp lại.

Với từ vựng, thông tin này bị mất. Cả hai động từ trở thành cook , làm cho cả hai câu dường như (trong trường hợp này) ở thì hiện tại.

2) Nhận dạng tác giả

Được

  • một bộ tài liệu được viết bởi tác giả aPmột ,
  • một bộ tài liệu được viết bởi tác giả bQb ,
  • một bộ tài liệu được viết bởi tác giả a hoặc b ,Smộtb

SSmộtb .

SPQ và chọn từ tương tự nhất.

Điều này hoạt động bởi vì các tác giả khác nhau sử dụng các từ nhất định với tần số khác nhau. Tuy nhiên, bằng cách sử dụng từ vựng, bạn làm biến dạng các tần số này làm giảm hiệu suất của mô hình.


Vì vậy, về cơ bản, khi cấu trúc và phong cách của câu / tài liệu có liên quan, từ vựng là một điều gì đó gây bất lợi. Tôi đã hiểu điều này một cách chính xác?
Zer0k

1
@ Zer0k, đúng rồi. Khi các tính năng quan trọng là chi tiết về các từ bạn không muốn từ vựng. Nếu bạn có các nhiệm vụ cấp cao hơn, ví dụ như phân tích tình cảm, bạn không cần mức độ chi tiết này. "Đây là nhà hàng tồi tệ nhất " hoặc "Đây là nhà hàng tồi ", cả hai sẽ mang đến cho bạn tình cảm tiêu cực .
Bruno Lubascher

1
Tôi sợ không đồng ý với ví dụ về nhận dạng tác giả. Đặc biệt với các văn bản ngắn lemmatization giúp rất nhiều. Nếu không các vectơ đặc trưng là quá thưa thớt.
Claude

@Claude, bạn có thể vui lòng mở rộng một chút về điều đó không? Bạn định nghĩa gì là văn bản ngắn?
Zer0k

1
@ Zer0k 200 mã thông báo hoặc tối đa 1000 hoặc hơn.
Claude
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.