Chuỗi của tôi là đường dẫn tệp như s/14/11/13/15/n7ce49B_235_25ed2d70.jpg
; mô hình của tôi là khá đơn giản, tất cả như thế n7ce49B_.+
.
Tôi đang chạy GNU grep 2.6.3
dưới Debian 6.0.10 trên Dell DL360G7 máy chủ (tôi đề cập đến nó chỉ để cung cấp cho một cảm giác máy Biến này) với 15k ổ cứng, và lệnh này: time LC_ALL=C grep -E -f path_to_patterns_file path_to_strings_file
chỉ có thể không đầy đủ - giao dịch hoán đổi máy chủ quá nặng. Với mẫu 20k phải mất hơn 3 giờ.
Điều đó có vẻ không hợp lý với tôi.
Mỗi yêu cầu bình luận, có các tệp: đường dẫn tệp 20k mẫu
Người ta cũng có thể kiểm tra và điều chỉnh số lượng dòng và mẫu đầu vào bằng:
xxd -p /dev/urandom | fold -sw 100 | head -n 1250 |
grep -Ef <(xxd -p /dev/urandom | fold -sw 10 | head -n 20000)
grep
.
xxd -p /dev/urandom | fold -sw 100 | head -n 1250 | grep -Ef <(xxd -p /dev/urandom | fold -sw 10 | head -n 20000)
. Có vẻ như thời gian được dành để biên dịch các biểu thức chính và phân bổ rất nhiều bộ nhớ. Với -F
thay vì -E
, nó ngay lập tức.
n7ce49B_.+
tương đương vớin7ce49B_.
90k
, mô tả có20K
các mẫu