Tôi có hai văn bản song song liên kết câu (tệp văn bản) với khoảng 50 triệu từ. (từ văn bản Europarl -> dịch song song các tài liệu pháp lý). Bây giờ tôi muốn xáo trộn các dòng của hai tệp, nhưng cả hai đều theo cùng một cách. Tôi muốn tiếp cận việc sử dụng gshuf (Tôi trên máy Mac) bằng một nguồn ngẫu nhiên duy nhất.
gshuf --random-source /path/to/some/random/data file1
gshuf --random-source /path/to/some/random/data file2
Nhưng tôi nhận được thông báo lỗi end of file
, vì rõ ràng hạt giống ngẫu nhiên cần chứa tất cả các từ mà tệp được sắp xếp chứa. Điều đó có đúng không? Nếu có, làm thế nào tôi nên tạo một hạt giống ngẫu nhiên tốt cho nhu cầu của tôi? Nếu không, bằng cách nào khác tôi có thể ngẫu nhiên các tệp song song? Tôi nghĩ về việc dán chúng lại với nhau, ngẫu nhiên và sau đó tách ra một lần nữa. Tuy nhiên, điều này có vẻ xấu vì trước tiên tôi cần tìm một dấu phân cách không xảy ra trong các tệp.
random sources
. Đối vớipaste
, bạn có thể sử dụng như dấu phân cách một số char ascii thấp không có khả năng xảy ra trong các tệp của bạn (như\x02
,\x03
...).