Sự khác biệt giữa lemmatization so với cuống là gì?


131

Khi nào tôi sử dụng mỗi?

Ngoài ra ... là từ vựng NLTK phụ thuộc vào các phần của bài phát biểu? Nó sẽ không chính xác hơn nếu nó là?


2
Đây là cách của tôi, nhưng tại sao lại có thẻ python?
Jimmy

7
@jimmy: đã gắn thẻ con trăn b / c nó đang nói về thư viện
nltk

2
Đây là một bài viết tuyệt vời trả lời chính xác câu hỏi này
Jacob

Câu trả lời:


130

Ngắn và dày đặc: http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

Mục tiêu của cả hai từ gốc và từ vựng là để giảm các hình thức thay thế và đôi khi các hình thức liên quan đến đạo hàm của một từ thành một hình thức cơ bản phổ biến.

Tuy nhiên, hai từ khác nhau trong hương vị của chúng. Xuất phát thường đề cập đến một quá trình heuristic thô thiển cắt đứt phần cuối của từ với hy vọng đạt được mục tiêu này một cách chính xác trong hầu hết thời gian, và thường bao gồm việc loại bỏ các phụ tố phái sinh. Bổ ngữ thường đề cập đến việc thực hiện đúng cách với việc sử dụng từ vựng và phân tích hình thái của các từ, thông thường chỉ nhằm loại bỏ các kết thúc thay thế và trả về dạng cơ sở hoặc từ điển của một từ, được gọi là bổ đề.

Từ các tài liệu NLTK:

Bổ đề và xuất phát là những trường hợp đặc biệt của chuẩn hóa. Họ xác định một đại diện chính tắc cho một tập hợp các hình thức từ liên quan.


tò mò muốn tìm hiểu những gì độ dài từ vựng trung bình cho chúng ta biết về một tài liệu?
sAguinaga

1
Điều đó không trả lời đầy đủ câu hỏi. Bạn không giải thích khi nào nên sử dụng. Cả hai đều có thể phục vụ cho việc chuẩn hóa nhưng thường thì cái bạn chọn là sự đánh đổi giữa độ chính xác và tốc độ.
dzieciou

1
@dzieciou, cảm ơn vì đầu vào - bạn có thể chỉnh sửa câu trả lời; và tôi sẽ cố gắng thêm một số bối cảnh nữa.
miku

79

Lemmatisation là có liên quan chặt chẽ đến việc ngăn chặn . Sự khác biệt là một từ gốc hoạt động trên một từ duy nhất mà không có kiến ​​thức về ngữ cảnh và do đó không thể phân biệt giữa các từ có nghĩa khác nhau tùy thuộc vào một phần của lời nói. Tuy nhiên, các trình phát thường dễ thực hiện và chạy nhanh hơn và độ chính xác giảm có thể không quan trọng đối với một số ứng dụng.

Ví dụ:

  1. Từ "tốt hơn" có "tốt" như bổ đề của nó. Liên kết này bị bỏ qua bởi xuất phát, vì nó yêu cầu tra cứu từ điển.

  2. Từ "đi bộ" là hình thức cơ bản của từ "đi bộ", và do đó từ này được kết hợp trong cả gốc và lemmatisation.

  3. Từ "cuộc họp" có thể là hình thức cơ bản của danh từ hoặc hình thức của động từ ("gặp gỡ") tùy thuộc vào ngữ cảnh, ví dụ: "trong cuộc họp cuối cùng của chúng tôi" hoặc "Chúng ta sẽ gặp lại vào ngày mai". Không giống như bắt nguồn, về nguyên tắc, lemmatisation có thể chọn bổ đề thích hợp tùy thuộc vào ngữ cảnh.

Nguồn : https://en.wikipedia.org/wiki/Lemmatisation


24

Có hai khía cạnh để thể hiện sự khác biệt của họ:

  1. Một Stemmer sẽ trả lại gốc của một từ, mà nhu cầu không được giống hệt nhau vào thư mục gốc hình thái của từ. Nó thường đủ để các từ liên quan ánh xạ tới cùng một gốc, ngay cả khi gốc không phải là gốc hợp lệ, trong khi ở chế độ bổ trợ , nó sẽ trả về dạng từ điển của một từ, phải là một từ hợp lệ.

  2. Trong lemmatisation , phần đầu tiên của từ phải được xác định trước và các quy tắc chuẩn hóa sẽ khác nhau đối với phần khác nhau của lời nói, trong khi phần gốc hoạt động trên một từ mà không có kiến ​​thức về ngữ cảnh và do đó không thể phân biệt giữa các từ có khác nhau ý nghĩa tùy thuộc vào một phần của lời nói.

Tham khảo http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization


18

Mục đích của cả việc bắt nguồn và từ vựng là để giảm sự biến đổi hình thái. Điều này trái ngược với các thủ tục "kết hợp thuật ngữ" chung chung hơn, cũng có thể giải quyết các biến thể từ vựng, ngữ nghĩa hoặc chính tả.

Sự khác biệt thực sự giữa xuất phát và từ vựng là ba lần:

  1. Từ gốc làm giảm các dạng từ thành giả (giả), trong khi đó từ vựng làm giảm các dạng từ thành các bổ đề có giá trị về mặt ngôn ngữ. Sự khác biệt này là rõ ràng trong các ngôn ngữ có hình thái phức tạp hơn, nhưng có thể không liên quan đến nhiều ứng dụng IR;

  2. Bổ đề chỉ xử lý với phương sai thay đổi, trong khi xuất phát cũng có thể đối phó với phương sai đạo hàm;

  3. Về mặt thực hiện, từ vựng thường phức tạp hơn (đặc biệt đối với các ngôn ngữ phức tạp về hình thái) và thường yêu cầu một số loại từ vựng. Mặt khác, sự hài lòng có thể đạt được bằng các cách tiếp cận dựa trên quy tắc khá đơn giản.

Việc bổ ngữ cũng có thể được hỗ trợ bởi trình gắn thẻ một phần của bài phát biểu để phân biệt các từ đồng âm.


13

Như MYYN đã chỉ ra, xuất phát là quá trình loại bỏ các dấu hiệu thay thế và đôi khi phái sinh thành một hình thức cơ bản mà tất cả các từ gốc có thể liên quan đến. Bổ ngữ có liên quan đến việc có được một từ duy nhất cho phép bạn nhóm lại một loạt các hình thức bị biến dạng. Điều này khó hơn bắt nguồn bởi vì nó đòi hỏi phải tính đến bối cảnh (và do đó, nghĩa của từ), trong khi xuất phát bỏ qua ngữ cảnh.

Về việc khi nào bạn sẽ sử dụng cái này hay cái kia, vấn đề là ứng dụng của bạn có bao nhiêu tùy thuộc vào việc hiểu nghĩa của từ trong ngữ cảnh. Nếu bạn đang thực hiện dịch máy, có lẽ bạn muốn từ vựng để tránh dịch sai một từ. Nếu bạn đang thực hiện truy xuất thông tin qua một tỷ tài liệu với 99% truy vấn của bạn từ 1-3 từ, bạn có thể giải quyết để bắt nguồn.

Đối với NLTK, WordNetLemmatizer sử dụng phần của lời nói, mặc dù bạn phải cung cấp nó (nếu không, nó mặc định là danh từ). Vượt qua nó "bồ câu" và "v" mang lại "lặn" trong khi "bồ câu" và "n" mang lại "bồ câu".


12

Một lời giải thích dựa trên ví dụ về sự khác biệt giữa từ vựng và gốc:

Xử lý từ ngữ phù hợp với xe ô tô và các xe ô tô khác nhau và cùng với xe phù hợp

Xử lý thân cây phù hợp với xe ô tô và các xe ô tô .

Bổ ngữ hàm ý phạm vi rộng hơn của kết hợp từ mờ vẫn được xử lý bởi cùng các hệ thống con. Nó ngụ ý một số kỹ thuật nhất định để xử lý mức độ thấp trong động cơ, và cũng có thể phản ánh sở thích kỹ thuật cho thuật ngữ.

.

Điều này không có nghĩa là các công cụ khác không xử lý các từ đồng nghĩa, tất nhiên là có, nhưng việc triển khai ở mức độ thấp có thể nằm trong một hệ thống con khác với các công cụ xử lý gốc.

http://www.ideaeng.com/stemming-lemmatization-0601


3

ianacl
nhưng tôi nghĩ rằng Rootming là một bản hack thô mà mọi người sử dụng để chuyển tất cả các dạng khác nhau của cùng một từ thành một dạng cơ bản không phải là một từ hợp pháp trên chính nó
Một cái gì đó như Porter Rootmer có thể sử dụng các biểu thức đơn giản để loại bỏ các hậu tố từ thông dụng

Bổ ngữ đưa một từ xuống dạng cơ sở thực tế của nó, trong trường hợp động từ bất quy tắc, có thể trông không giống từ đầu vào
Một cái gì đó như Morpha sử dụng FST để đưa danh từ và động từ về dạng cơ sở của chúng


Tôi nghĩ rằng Porter Rootmer được triển khai mà không cần phải tuân theo Biểu thức chính quy, bởi vì nhiều ngôn ngữ cũ không có chúng, nhưng nếu không thì bạn đã có ý tưởng đúng.
Ken Bloom

3

Từ gốc chỉ loại bỏ hoặc bắt nguồn một vài ký tự cuối cùng của một từ, thường dẫn đến nghĩa và cách viết sai. Bổ đề xem xét bối cảnh và chuyển đổi từ thành dạng cơ sở có ý nghĩa của nó, được gọi là Bổ đề. Đôi khi, cùng một từ có thể có nhiều Bổ đề khác nhau. Chúng ta nên xác định thẻ Phần lời nói (POS) cho từ trong ngữ cảnh cụ thể đó. Dưới đây là các ví dụ để minh họa tất cả các khác biệt và trường hợp sử dụng:

  1. Nếu bạn viết sai từ ' Chăm sóc ', nó sẽ trả về ' Chăm sóc '. Nếu bạn xuất phát, nó sẽ trả về ' Xe ' và điều này là sai.
  2. Nếu bạn viết tắt từ ' Sọc ' trong ngữ cảnh động từ , nó sẽ trả về ' Dải '. Nếu bạn viết tắt nó trong ngữ cảnh danh từ , nó sẽ trả về ' Stripe '. Nếu bạn chỉ bắt nguồn từ nó, nó sẽ chỉ trả về ' Dải '.
  3. Bạn sẽ nhận được kết quả tương tự cho dù bạn lem lem hoặc từ gốc như đi bộ, chạy, bơi ... để đi bộ, chạy, bơi, vv
  4. Bổ đề là tính toán tốn kém vì nó liên quan đến bảng tra cứu và những gì không. Nếu bạn có dữ liệu lớn và hiệu suất là một vấn đề, hãy đi với Stemming. Hãy nhớ rằng bạn cũng có thể thêm các quy tắc của riêng bạn vào gốc. Nếu độ chính xác là tối quan trọng và dữ liệu không phải là hài hước, hãy đi với Lemmatization.

2

Xuất phát là quá trình loại bỏ một vài ký tự cuối cùng của một từ nhất định, để có được một hình thức ngắn hơn, ngay cả khi hình thức đó không có ý nghĩa gì.

Ví dụ,

"beautiful" -> "beauti"
"corpora" -> "corpora"

Thêm ví dụ về thân cây

Thân cây có thể được thực hiện rất nhanh chóng.

Mặt khác, bổ ngữ là quá trình chuyển đổi từ đã cho thành dạng cơ sở theo nghĩa từ điển của từ đó.

Ví dụ,

"beautiful" -> "beauty"
"corpora" -> "corpus"

Thêm ví dụ về từ vựng

Bổ đề mất nhiều thời gian hơn xuất phát.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.