Tôi có một tài liệu văn bản có tải văn bản có thêm khoảng trắng được thêm vào sau mỗi chữ cái!
Thí dụ:
T h e b o o k a l s o h a s a n a n a l y t i c a l p u r p o s e w h i c h i s m o r e i m p o r t a n t…
Trực quan:
Th␣e␣␣b␣o␣o␣k␣␣a␣l␣s␣o␣␣h␣a␣s␣␣a␣n␣␣a␣n␣a␣l␣y␣t␣i ␣c␣a␣l␣␣p␣u␣r␣p␣o␣s␣e␣␣w␣h␣i␣c␣h␣␣i␣s␣␣m␣o␣r␣e␣␣i␣ mp␣o␣r␣t␣a␣n␣t
Lưu ý rằng có một khoảng trắng thừa sau mỗi chữ cái, vì vậy có hai khoảng trắng giữa các từ liên tiếp.
Có cách nào để tôi có thể nhận awk
hoặc sed
xóa các khoảng trắng thừa không? (Thật không may, tài liệu văn bản này rất lớn và sẽ mất nhiều thời gian để hoàn thành thủ công.)
Tôi đánh giá cao rằng đây có lẽ là một vấn đề phức tạp hơn nhiều để giải quyết chỉ với một tập lệnh bash đơn giản vì cũng cần phải có một số nhận dạng văn bản.
Làm thế nào tôi có thể tiếp cận vấn đề này?
echo 't h i s i s a n e x a m p l e' | sed 's/ //g'
echo 'T h i s ; i s .a n 9 8 e x a m p l e' | perl -pe 's/[a-z]\K (?=[a-z])//ig'