Tôi đã có một tệp html có rất nhiều văn bản UTF-8 được mã hóa% trong các URL.
Ví dụ: "% D1% 80% D0% B5% D1% 81% D1% 83% D1% 80% D1% 81% D1% 8B" là viết tắt của "ресурсы" ("tài nguyên" trong tiếng Nga).
Nhiệm vụ là thay thế tất cả các chuỗi con như vậy bằng văn bản UTF-8 có thể đọc được.
Để đơn giản hóa tác vụ chúng ta có thể xem xét không có %
cách sử dụng dấu hiệu nào khác trong tệp. Chữ số có thể là cả chữ hoa và chữ thường
Tôi nghi ngờ điều này có thể thực hiện thanh lịch với sed
, perl
, awk
hoặc một cái gì đó nhưng không biết làm thế nào.
Ứng dụng web này dường như thực hiện thủ thuật với văn bản bạn dán ở đó.