Làm thế nào để có được cơ sở dữ liệu từ tiếng Anh? [đóng cửa]


148

Tôi cần một cơ sở dữ liệu của mỗi từ hợp lệ bằng tiếng Anh. Tôi đã kiểm tra /usr/share/dict/wordstập tin, nó chứa ít hơn 100k từ. Wikipedia nói tiếng Anh có từ 475k. Tôi lấy danh sách đầy đủ ở đâu (chính tả tiếng Mỹ)?

Ngoài ra, có một trang web duy nhất cung cấp các từ cho các ngôn ngữ khác, bao gồm cả các ngôn ngữ châu Á và châu Âu?

Chỉnh sửa: Quên thêm, tôi không cần tên, v.v., chỉ những từ tiếng Anh hợp lệ.


9
My /usr/share/dict/wordscó 479829 từ, vì vậy có thể có một số biến thể ở đây (và có thể phù hợp với những từ khác).
marshall.ward

4
wc -l /usr/share/dict/wordstrên Mac là 235.886 từ (tháng 7 năm 2014 - OSX Mavericks 10.9.4)
nelsonic

2
Danh sách tốt nhất tôi đã tìm thấy: raw.githubusercontent.com/docdis/english-words/master/ mẹo . Cảm ơn đến @vasonic.
james.garriss 21/07/2015


1
bạn có thể nhận được một danh sách ở đây marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. hãy tìm liên kết WORDLIST ở bên phải
kofifus

Câu trả lời:


75

Cơ sở dữ liệu WordNet có thể hữu ích. Tôi đã từng làm việc trên một tiện ích bổ sung Firefox liên quan đến các từ và tất cả các loại liên kết đơn giản đến phức tạp giữa chúng và các công cụ. Có vẻ như WordNet sẽ rất hữu ích cho bạn.

Đây là định dạng MySQL . Và cái này (liên kết lưu trữ web) sử dụng dữ liệu Wordnet v3.0, thay vì dữ liệu Wordnet 2.0 cũ hơn.


họ có một danh sách tải về quá không?

1
Có, họ cung cấp cho bạn phương tiện để tải xuống cơ sở dữ liệu của họ ở nhiều định dạng - CSV, Cơ sở dữ liệu MySQL, v.v. và thậm chí có API bạn có thể sử dụng thông qua .Net, Java, v.v ... Đây là trang tải xuống - wordnet.princeton .edu / wordnet / download
user266804


Tôi đã không tải xuống cá nhân, nhưng nó đã sẵn sàng khi tôi bắt đầu viết mã. Vì vậy, tôi không biết những tập tin nào sẽ được tải xuống. Tôi chỉ biết rằng bạn có thể tải xuống ở các định dạng khác nhau. Nếu bạn có thể cho tôi biết bạn muốn định dạng nào, tôi có thể giúp.
user266804

Trông giống như một dự án rất thú vị thực sự.
Wim Hollebrandse

36

Bạn có thể tìm thấy những gì bạn cần trên infochimps.org .

Họ có một danh sách 350.000 từ đơn giản (nghĩa là không ghép) có sẵn để tải xuống miễn phí.

Danh sách từ - 350.000+ từ tiếng Anh đơn giản

Về các ngôn ngữ khác, bạn có thể muốn tìm hiểu về Wiktionary. Đây là một liên kết đến tất cả các bản sao lưu cơ sở dữ liệu - thông tin không được tổ chức rất có thể nhưng nếu chúng có ngôn ngữ, bạn có thể tải xuống dữ liệu ở định dạng SQL.


6
Liên kết tải xuống đã thay đổi - infochimps.com/datasets/ Kẻ
Chris Rae

36
Khó chịu là tệp thông tin là .xls (một tệp excel với các từ được chia thành 6 bảng tính!) ... Tôi đã trích xuất tất cả 354986 từ thành một tệp txt : github.com/vasonic/english-words
nelsonic

@vasonic cảm ơn rất nhiều, liên kết thông tin là 404

1
@ChrisRae cả hai liên kết không hoạt động
garg10may

5
có vẻ như chúng bao gồm các từ có lỗi chính tả, như tecnology - có lẽ vì chúng thu thập mọi thứ hiển thị trên web. vì vậy nó tốt cho việc bẻ khóa / xác nhận mật khẩu, nhưng không tốt cho các ứng dụng yêu cầu từ thật (như trình kiểm tra chính tả, v.v.).
tối đa

13

Tôi không thấy http://wordlist.sourceforge.net/ được đề cập ở đây, nhưng đó là nơi tôi sẽ bắt đầu nếu tôi đang tìm kiếm một cái gì đó như thế này (và tôi đã, khi tôi vấp phải câu hỏi này).

Nếu bạn không thể tìm thấy những gì bạn muốn ở đó, và những gì bạn muốn là một danh sách các từ tiếng Anh, thì có lẽ bạn nên dành thêm thời gian để mô tả làm thế nào để nhận ra những gì bạn muốn.


1
Tôi đã hy vọng rằng những danh sách rộng hơn này sẽ chứa các từ có dấu chấm câu, như "C ++" hoặc "C #", nhưng không thể tìm thấy bất kỳ. Vì vậy, nếu đó là những gì bạn đang theo đuổi, bạn có thể bỏ qua câu hỏi này (và danh sách hẹp hơn trong các câu trả lời khác).
hobs

9

Không có thứ gọi là danh sách "hoàn chỉnh". Những người khác nhau có cách đo khác nhau - ví dụ, họ có thể bao gồm tiếng lóng, thần kinh học, cụm từ nhiều từ, thuật ngữ xúc phạm, từ nước ngoài, cách chia động từ, v.v. Một số người thậm chí đã đếm được một triệu từ ! Vì vậy, bạn sẽ phải quyết định những gì bạn muốn trong một danh sách từ.


3
Cảm ơn liên kết đó. Một bài đọc rất khai sáng về việc có bao nhiêu từ trong tiếng Anh và sự vô ích của việc cố gắng đi đến một số lượng rõ ràng của chúng. Để đọc ngắn gọn và cập nhật hơn, cũng có cái này: en.oxforddictionaries.com/explore/lingu-questions/ Lỗi .
Prometheus

4

Bạn có thể kiểm tra *spell từ điển en-GB được sử dụng bởi Mozilla, OpenOffice, rất nhiều phần mềm khác.


liên kết trên mozilla en-gb.pyxidium.co.uk/dipedia/en_GB.zip nói Máy chủ không tìm thấy, có bản cập nhật nào không? cảm ơn

@AMB Thx, tôi được cập nhật liên kết để trỏ đến nguồn thay thế của từ điển ở extensions.openoffice.org/en/project/...
mloskot

Và bây giờ liên kết mới là 404, @mloskot.
james.garriss

@ james.garriss Tôi sợ, toàn bộ extensions.openoffice.org trang web có vẻ là xuống.
mloskot

3

Bạn đã không nói những gì bạn cần danh sách này cho. Nếu một cái gì đó được sử dụng như một danh sách đen để kiểm tra mật khẩu là đủ cracklib có thể tốt cho bạn. Nó chứa hơn 1,5 triệu từ.


1
không, không phải cho danh sách đen. Tôi đang làm một số loại trò chơi từ / đồ thị.

Điều này có rất nhiều "từ rác", tuy nhiên tôi vẫn rất biết ơn vì bạn đã đặt nó ở đây - thật hoàn hảo khi tìm kiếm những từ cụ thể mà các từ điển khác không có (ví dụ: Firetruck)
kangalioo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.