Tôi có thể lấy một bộ văn bản mẫu đa dạng ở đâu? [đóng cửa]


14

Tôi đang cố gắng thu thập số liệu thống kê về các chuỗi ký tự hoặc từ được sử dụng trong ngôn ngữ tiếng Anh để sử dụng trong một dự án phần mềm.

Tôi có thể lấy số lượng lớn (vài GB sẽ tốt) ở đâu trong văn bản thuần tiếng Anh bao gồm nhiều chủ đề khác nhau?


3
Bằng cách nào đó tôi cảm thấy bạn sẽ đặc biệt thích những minh họa
yannis

@Yannis Rizos Đây là những điều tuyệt vời: D.
JSideris

@Yannis Rizos oh theyre khá ...
Sevenseacat

@YannisRizos Điều này đã bị đóng cửa vài năm trước. Cuối cùng tôi cũng đã chỉnh sửa câu hỏi để nó cụ thể hơn và tốt hơn cho định dạng QA. Tôi có thể đóng nó ngay bây giờ không? (Bạn là người duy nhất trong chủ đề này vẫn còn là người điều hành).
JSideris 2/2/2015

Câu trả lời:


19

Bạn có thể sử dụng bãi chứa dữ liệu của Wikipedia . Kết xuất dữ liệu XML cho Wikipedia tiếng Anh chỉ bao gồm các bản sửa đổi hiện tại là khoảng 31 GB, vì vậy tôi muốn nói rằng đó sẽ là một khởi đầu tốt cho nghiên cứu của bạn. Kết xuất dữ liệu khá lớn, vì vậy bạn nên xem xét trích xuất các văn bản từ XML bằng trình phân tích cú pháp SAX. WikiXMLJ là một API Java tiện dụng được điều chỉnh cho Wikipedia.

Và sau đó, tất nhiên, luôn có các bãi chứa dữ liệu Stack Exchange . Trang web mới nhất bao gồm tất cả các trang web Stack Exchange không beta công khai và các trang Meta tương ứng cho đến tháng 9 năm 2011. Nhưng, các bài đăng Stack Exchange tự nhiên tập trung vào phạm vi của từng trang web, vì vậy có thể không khái quát như bạn muốn. Các bài viết meta là một chút tổng quát hơn, vì vậy bạn có thể xem xét những người ngoài Wikipedia.

Tôi không nghĩ rằng bạn sẽ tìm thấy bất cứ điều gì tốt hơn, đặc biệt là trong văn bản đơn giản. Một số bộ dữ liệu mở có sẵn thông qua Trung tâm dữ liệu , nhưng tôi nghĩ rằng kết xuất dữ liệu Wikipedia tiếng Anh rất gần với những gì bạn đang tìm kiếm.


1
Đó là một số tài nguyên tuyệt vời.
hanzolo

Các Stack, trong khi mở rộng, sẽ bao quát một lĩnh vực diễn ngôn rất hẹp (do sự cần thiết), vì vậy chúng có thể không khái quát tốt.
jonsca

Trời ơi, những tập tin này rất lớn! Ngay khi tôi có thể tìm cách mở chúng và lọc ra tất cả các crap xml này sẽ hoạt động rất tốt. Cảm ơn!
JSideris

1
@Bizorke Vui mừng tôi có thể giúp. Khi bạn hoàn thành, bạn nên cập nhật câu hỏi với một liên kết đến nghiên cứu của bạn.
yannis

5

Google có một bộ các tập dữ liệu mà họ sử dụng để xác định xác suất n-gram. Kiểm tra bộ dữ liệu bigram (2 gram) của họ sẽ cho bạn một bức tranh đẹp. Có rất nhiều corpi khác mà những phân tích này đã được thực hiện.


3
Tôi chỉ đang viết điều tương tự.
jcmeloni

@jcmeloni Tâm trí tuyệt vời!
jonsca

5

Dự án Gutenberg có một khối lượng lớn các văn bản bằng tiếng Anh, đã ở dạng văn bản.

Dự án Gutenberg cung cấp hơn 42.000 sách điện tử miễn phí: chọn trong số các sách epub miễn phí, sách kindle miễn phí, tải xuống hoặc đọc chúng trực tuyến.

Chúng tôi mang theo sách điện tử chất lượng cao: Tất cả các sách điện tử của chúng tôi đã được xuất bản trước đây bởi các nhà xuất bản thực sự. Chúng tôi đã số hóa và siêng năng đọc lại chúng với sự giúp đỡ của hàng ngàn tình nguyện viên ...


1
Tôi đã nghĩ về Project Gutenberg nhưng tôi không thể tìm thấy một bãi chứa dữ liệu tập trung. Và để một cuốn sách được đưa vào, bản quyền của nó phải hết hạn và nói chung, điều đó có nghĩa là 50 đến 70 năm đã trôi qua kể từ khi cuốn sách xuất bản lần đầu tiên. Vì vậy, tôi không nghĩ rằng như một bộ dữ liệu, Project Gutenberg là đại diện của ngôn ngữ được sử dụng ngày nay.
yannis

1
Nếu bạn muốn một cái gì đó là "đại diện của ngôn ngữ như được sử dụng ngày hôm nay", hãy thử nhận xét YouTube. Đáng buồn nhưng là sự thật.
Jörg W Mittag

@ JörgWMittag - ouch. Điều thực sự làm phiền tôi là làm thế nào bạn không sai.
Michael Kohne

@ Jörg W Mittag Có thể, nhưng sau đó một số từ cụ thể cho youtube sẽ xuất hiện rất thường xuyên, như: YO OU UT TU UB BE, hoặc thậm chí tệ hơn: FA AK KE AN ND GA AY
JSideris

1

Để thống kê, có lẽ bạn đang xem "Tần số Bigram trong ngôn ngữ tiếng Anh". Hãy xem: Thống kê Wiki-Bigram

đối với việc tìm một văn bản lớn, lưu ý rằng tần số sẽ bị sai lệch so với loại văn bản. Ví dụ: nếu bạn phân tích địa chỉ, bạn sẽ nhận được kết quả khác nhau từ việc phân tích các câu chuyện trên báo. Nếu bạn chỉ muốn kiểm tra, bạn có thể sử dụng tệp PDF của bất kỳ cuốn sách nào (tốt hơn không phải là toán học hoặc lập trình hoặc sách y tế) và chuyển đổi nó thành văn bản sau đó chạy thử nghiệm của bạn. Bạn cũng có thể chuyển đổi các trang web báo thành văn bản và làm việc trên đó.


2
Phải tôi nhận ra rằng kết quả sẽ bị sai lệch. Tôi cần một nguồn tài nguyên bao gồm càng nhiều đối tượng càng tốt. Tôi đã cân nhắc tải xuống một loạt sách điện tử, vấn đề chính là chuyển đổi tất cả chúng thành văn bản. Nhưng sẽ không hại gì khi tra cứu một số thống kê về bigram (Tôi không nhận ra đó là cách gọi kết hợp 2 chữ cái).
JSideris

Cảm ơn bình luận của bạn. Bạn có thể chuyển đổi PDF thành văn bản bằng Tệp -> Lưu dưới dạng Văn bản trong trình đọc PDF ADOBE. Liên kết này cũng có thể có giá trị: data-compression.com/english.html
NoChance

@EmmadKareem OP đang yêu cầu một vài GB văn bản. Bạn có nghiêm túc đề nghị anh ấy sử dụng Adobe Reader để trích xuất văn bản từ các tệp PDF không?
yannis

@YannisRizos, tôi không nhận thấy rằng vài GB là yêu cầu bắt buộc. Nếu đây là trường hợp, có những công cụ tốt hơn có thể được sử dụng cho mục đích này. Cảm ơn đã chỉ ra điều này.
NoChance
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.