Trên Linux tôi có hai tệp văn bản với các từ UTF8 tiếng Nga được sắp xếp với sort -u
(thực ra tôi đã sử dụng :%sort u
trong Vim, nó tạo ra kết quả tương tự).
Một trong những tập tin dict.txt
chứa khoảng 700000 từ trong từ điển tùy chỉnh của tôi. Một tập tin khác bad-words.txt
chứa các từ thường bị nhầm.
Tôi muốn xóa tất cả các từ được tìm thấy bad-words.txt
từ dict.txt
.
Tôi biết rằng một tập lệnh perl sử dụng hàm băm có thể làm điều đó, nhưng tôi đang theo một lớp lót Unix.
Có một lệnh Unix (có thể là cái gì đó sử dụng diff
?) Để thực hiện nhiệm vụ này? Và tôi hy vọng diff
sẽ không bị nhầm lẫn bởi số lượng lớn các dòng - bởi vì chương trình "Vượt ra ngoài so sánh" trên Windows là ...
comm: file 1 is not in sorted order
(mặc dù tôi đã chế tạo nó) và tạo ra kết quả 2 cột kỳ lạ ...