Liên quan, nhưng không có câu trả lời thỏa đáng: Làm thế nào tôi có thể chia một tệp văn bản lớn thành nhiều phần 500 từ hoặc hơn?
Tôi đang cố gắng lấy một tệp văn bản ( http://mattmahoney.net/dc/text8.zip ) với> 10 ^ 7 từ tất cả trong một dòng và chia thành từng dòng với N từ. Cách tiếp cận hiện tại của tôi hoạt động, nhưng khá chậm và xấu (sử dụng shell script):
i=0
for word in $(sed -e 's/\s\+/\n/g' input.txt)
do
echo -n "${word} " > output.txt
let "i=i+1"
if [ "$i" -eq "1000" ]
then
echo > output.txt
let "i=0"
fi
done
Bất kỳ lời khuyên về làm thế nào tôi có thể làm cho điều này nhanh hơn hoặc nhỏ gọn hơn?