Danh sách từ nguồn


11

Tôi đang tìm kiếm một nguồn danh từ, trạng từ, tính từ và động từ trong một số ngôn ngữ.

Tôi muốn các danh sách đã được tách ra và không phải thông qua OED (và tương đương không phải tiếng Anh) bằng cách tạo lại các danh sách đã nói.

Tôi không thực sự quan tâm đến các định nghĩa và tôi hiểu một số từ có thể là nhiều phần của lời nói - điều đó tốt - những từ như "many" có thể là danh từ hoặc tính từ và có thể xuất hiện trong cả hai danh sách.

Có ai ở đây biết một nguồn như vậy? Nếu không, ai đó có thể chỉ cho tôi đi đúng hướng?

Tôi ổn với định dạng là bất kỳ định dạng nào sau đây (hoặc tương tự nếu mọi người có ý tưởng):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • các tệp văn bản gốc như "danh từ", "động từ", v.v.
  • một bảng mysql
  • Vân vân

Câu trả lời:


8

Tôi đã sử dụng WordNet từ Đại học Princeton cho một số dự án. Đây là một cơ sở dữ liệu từ vựng bằng tiếng Anh. Global WordNet là một phần mở rộng của dự án đang cố gắng làm tương tự cho tất cả các ngôn ngữ.

Bạn cũng có thể quan tâm đến các dự án liên quan tại http://wordnet.princeton.edu/wordnet/related-projects/


1
WordNet là con đường để đi. Tất cả các nhà nghiên cứu hàng đầu sử dụng điều này.
Ritwik Bose

4

Điều này có thể không giúp ích gì cả, tôi không biết. Nhưng MediaWiki có một api để liệt kê tất cả các trang thuộc một danh mục nhất định. Bạn có thể thử sử dụng nó trên Wiktionary.org.

Ghi chú:

  • Mỗi truy vấn chỉ trả về 500 kết quả. Tuy nhiên, cuối cùng, nó cũng chỉ định một tham số sẽ sử dụng trong một truy vấn khác để nhận 500 kết quả tiếp theo.
  • Nó bao gồm mọi thứ trong danh mục được chỉ định, thậm chí các danh mục phụ khác.
  • Các kết quả dường như được sắp xếp theo thứ tự bảng chữ cái, mặc dù mọi thứ bắt đầu bằng chữ in hoa xuất hiện trước mọi thứ bằng chữ thường.

Ví dụ:

Hy vọng điều này sẽ giúp, đó là những gì tôi có thể nghĩ ra.


1

Tôi sẽ đề xuất wordnet của @ teknikqa, nhưng tôi sẽ đề nghị bạn kiểm tra API của họ;

CÂU CHUYỆN : Tôi đã có một khóa học về AI có phần phân tích ngôn ngữ; Tôi đã sử dụng API perl của wordnet để tự động tra cứu ba loại định nghĩa hàng đầu và phân loại cụm từ từ đó trong thời gian gần kết thúc KẾT THÚC

Có nhiều API ngoài kia cho nhiều ngôn ngữ

FYI: Dự án có điểm A +

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.