Trên Linux tôi có hai tệp văn bản với các từ UTF8 tiếng Nga được sắp xếp với sort -u(thực ra tôi đã sử dụng :%sort utrong Vim, nó tạo ra kết quả tương tự).
Một trong những tập tin dict.txtchứa khoảng 700000 từ trong từ điển tùy chỉnh của tôi. Một tập tin khác bad-words.txtchứa các từ thường bị nhầm.
Tôi muốn xóa tất cả các từ được tìm thấy bad-words.txttừ dict.txt.
Tôi biết rằng một tập lệnh perl sử dụng hàm băm có thể làm điều đó, nhưng tôi đang theo một lớp lót Unix.
Có một lệnh Unix (có thể là cái gì đó sử dụng diff?) Để thực hiện nhiệm vụ này? Và tôi hy vọng diffsẽ không bị nhầm lẫn bởi số lượng lớn các dòng - bởi vì chương trình "Vượt ra ngoài so sánh" trên Windows là ...
comm: file 1 is not in sorted order(mặc dù tôi đã chế tạo nó) và tạo ra kết quả 2 cột kỳ lạ ...