TLD
Câu hỏi ban đầu không rõ ràng và đọc rằng OP chỉ muốn một phiên bản duy nhất của nội dung của một tệp. Điều đó được hiển thị dưới đây. Trong dạng cập nhật của câu hỏi, OP hiện đang tuyên bố rằng anh ấy / cô ấy chỉ muốn biết liệu nội dung của tệp có phải là duy nhất hay không.
Kiểm tra xem nội dung của tệp có duy nhất hay không
Bạn chỉ có thể sử dụng sort
để xác minh xem một tệp là duy nhất hoặc chứa các bản sao như vậy:
$ sort -uC input.txt && echo "unique" || echo "duplicates"
Thí dụ
Nói rằng tôi có hai tệp này:
tập tin mẫu trùng lặp
$ cat dup_input.txt
This is a thread 139737522087680
This is a thread 139737513694976
This is a thread 139737505302272
This is a thread 139737312270080
This is a thread 139737203164928
This is a thread 139737194772224
This is a thread 139737186379520
tập tin mẫu duy nhất
$ cat uniq_input.txt
A
B
C
D
Bây giờ khi chúng tôi phân tích các tệp này, chúng tôi có thể biết chúng là duy nhất hoặc chứa các bản sao:
kiểm tra trùng lặp tập tin
$ sort -uC dup_input.txt && echo "unique" || echo "duplicates"
duplicates
kiểm tra tập tin duy nhất
$ sort -uC uniq_input.txt && echo "unique" || echo "duplicates"
unique
Câu hỏi gốc (nội dung duy nhất của tệp)
Có thể được thực hiện chỉ với sort
:
$ sort -u input.txt
This is a thread 139737186379520
This is a thread 139737194772224
This is a thread 139737203164928
This is a thread 139737312270080
This is a thread 139737505302272
This is a thread 139737513694976
This is a thread 139737522087680