Tôi phải xử lý một tệp có nhiều ký tự điều khiển vô hình, như "phải sang trái" hoặc "không tham gia chiều rộng bằng không", các không gian khác với không gian bình thường, v.v. và tôi gặp khó khăn khi xử lý vấn đề đó.
Bây giờ, tôi muốn bằng cách nào đó xem tất cả các chữ cái trong một tệp nhất định, từng chữ cái (tôi muốn nói "từ trái sang phải", nhưng tôi không may xử lý ngôn ngữ từ phải sang trái) , như các mật mã unicode, chỉ sử dụng công cụ bash cơ bản (như vi
, less
, cat
...). Có thể bằng cách nào đó?
Tôi biết tôi có thể hiển thị tệp theo hệ thập lục phân hexdump
, nhưng tôi sẽ phải tính toán lại các điểm mã. Tôi thực sự muốn xem các điểm mã unicode thực tế, vì vậy tôi có thể google chúng và tìm hiểu những gì đang xảy ra.
chỉnh sửa: Tôi sẽ thêm rằng tôi không muốn chuyển mã nó sang mã hóa khác (vì đó là những gì tôi đang tìm hiểu trực tuyến). Tôi có tệp trong UTF8 và điều đó là tốt. Tôi chỉ muốn biết các mật mã chính xác của tất cả các chữ cái.