Bổ đề Vs gốc


7

Tôi đã đọc về cả hai kỹ thuật này để tìm ra từ gốc của từ này, nhưng làm thế nào để chúng ta thích cái này hơn cái kia?

Có phải "Bổ ngữ" luôn tốt hơn "Xuất phát" không?

Câu trả lời:


10

Tôi sẽ nói rằng từ vựng thường là cách ưa thích để giảm các từ liên quan đến một cơ sở chung.

Câu hỏi Quora này là một tài nguyên tốt về chủ đề này: Có nên chọn từ vựng thay vì xuất phát trong NLP không? Câu trả lời hàng đầu trích dẫn một nguồn tài nguyên tốt khác thúc đẩy lý do tại sao từ vựng thường tốt hơn, Xuất phát và từ vựng , từ Stanford NLP:

Tại sao từ vựng là tốt hơn

Xuất phát thường đề cập đến một quá trình heuristic thô sơ cắt đứt các đầu từ với hy vọng đạt được mục tiêu này một cách chính xác trong hầu hết thời gian, và thường bao gồm việc loại bỏ các phụ tố phái sinh.

Bổ ngữ thường đề cập đến việc thực hiện đúng cách với việc sử dụng từ vựng và phân tích hình thái của các từ, thông thường chỉ nhằm loại bỏ các kết thúc thay thế và trả về dạng cơ sở hoặc từ điển của một từ, được gọi là bổ đề.

Nhưng đó chỉ là nói chung, nó không phải luôn luôn tốt hơn. Thân cây vẫn có một số lợi thế và nó sẽ phụ thuộc vào trường hợp sử dụng. Một số lý do bạn sẽ sử dụng xuất phát từ quá trình từ vựng có thể là:

Một số trường hợp ngoại lệ có thể khi xuất phát có thể tốt hơn

  • Sự đơn giản
  • Tốc độ
  • Hạn chế bộ nhớ

4
Một trường hợp khác mà cá nhân tôi thấy xuất phát từ (đôi khi) hoạt động tốt hơn: đoạn văn bản rất ngắn như tên doanh nghiệp, thường không tuân thủ đầy đủ các quy tắc ngữ pháp; Các thuật toán bắt nguồn tích cực như Snowball có xu hướng hoạt động tốt nếu không tốt hơn theo kinh nghiệm của tôi.
Shadowtalker

Cảm ơn đã thêm! Tôi sẽ chỉnh sửa để làm rõ hơn rằng có thể có nhiều tình huống trong đó thân cây có thể hoạt động tốt hơn.
Simon Larsson

4
Tôi không thể nhấn mạnh đủ về tốc độ! Tôi đã có một ứng dụng mất mãi mãi để chạy vì chúng tôi đang chạy từ vựng. Thay thế nó bằng những thứ tăng tốc bắt nguồn.
ChiPlusPlus
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.