Tôi đang sử dụng lệnh sau để phạm vi thiết lập ký tự grep cho mã thập lục phân 0900 (thay vì अ) đến 097F (thay vì). Làm cách nào tôi có thể sử dụng mã thập lục phân thay cho và व?
bzcat archive.bz2 | grep -v '<[अ-व]*\s' | tr '[:punct:][:blank:][:digit:]' '\n' | uniq | grep -o '^[अ-व]*$' | sort -f | uniq -c | sort -nr | head -50000 | awk '{print "<w f=\""$1"\">"$2"</w>"}' > hindi.xml
Tôi nhận được đầu ra sau đây:
<w f="399651">और</w>
<w f="264423">एक</w>
<w f="213707">पर</w>
<w f="74728">कर</w>
<w f="44281">तक</w>
<w f="35125">कई</w>
<w f="26628">द</w>
<w f="23981">इन</w>
<w f="22861">जब</w>
...
Tôi chỉ muốn sử dụng mã thập lục phân thay vì và trong lệnh trên.
Nếu hoàn toàn không thể sử dụng mã thập lục phân, tôi có thể sử dụng mã unicode thay vì mã thập lục phân cho bộ ký tự ('अ - व') không?
Tôi đang sử dụng Ubuntu 10.04
-v
đảo ngược trận đấu, từ văn bản câu hỏi của bạn có vẻ như đó không phải là điều bạn muốn.