Bạn có thể sử dụng bãi chứa dữ liệu của Wikipedia . Kết xuất dữ liệu XML cho Wikipedia tiếng Anh chỉ bao gồm các bản sửa đổi hiện tại là khoảng 31 GB, vì vậy tôi muốn nói rằng đó sẽ là một khởi đầu tốt cho nghiên cứu của bạn. Kết xuất dữ liệu khá lớn, vì vậy bạn nên xem xét trích xuất các văn bản từ XML bằng trình phân tích cú pháp SAX. WikiXMLJ là một API Java tiện dụng được điều chỉnh cho Wikipedia.
Và sau đó, tất nhiên, luôn có các bãi chứa dữ liệu Stack Exchange . Trang web mới nhất bao gồm tất cả các trang web Stack Exchange không beta công khai và các trang Meta tương ứng cho đến tháng 9 năm 2011. Nhưng, các bài đăng Stack Exchange tự nhiên tập trung vào phạm vi của từng trang web, vì vậy có thể không khái quát như bạn muốn. Các bài viết meta là một chút tổng quát hơn, vì vậy bạn có thể xem xét những người ngoài Wikipedia.
Tôi không nghĩ rằng bạn sẽ tìm thấy bất cứ điều gì tốt hơn, đặc biệt là trong văn bản đơn giản. Một số bộ dữ liệu mở có sẵn thông qua Trung tâm dữ liệu , nhưng tôi nghĩ rằng kết xuất dữ liệu Wikipedia tiếng Anh rất gần với những gì bạn đang tìm kiếm.