Đây thực sự không phải là một câu hỏi khó, nhưng trong mọi trường hợp, tôi khuyên bạn nên sử dụng một cái gì đó khác với less
để xem các tệp csv. Nó không thực sự là công cụ phù hợp. Hãy thử một cái gì đó như R
, có hỗ trợ tốt để xem và nếu cần, làm việc với các tệp CSV. Ví dụ: để đọc 5 hàng của tệp csv, hãy làm
$ R
> read.csv("pheno.csv",nrows=5)
faid expid pid mid sex pheno
1 1420 NA12003 0 0 1 0
2 1420 NA12004 0 0 2 0
3 1420 NA10838 9 10 1 0
4 1420 NA12005 0 0 1 0
5 1420 NA12006 0 0 2 0
Xem
> help(read.csv)
để được giúp đỡ. Xem thêm
> help(write.csv)
để ghi vào một tập tin, vv
EDIT: Tôi tình cờ có một tệp csv là 1.1G và dài 934991 dòng.
$ time Rscript -e 'read.csv("GenomeWideSNP_6.na29.annot.csv", skip=500000, nrows=5, header=FALSE)'
Điều này bỏ qua 500.000 dòng và đọc 5 dòng. R mất 1 phút để trả lại cái này và đạt được mức sử dụng 620M (!) Có vẻ như nó có thể đang đọc các dòng bị bỏ qua vào bộ nhớ, mặc dù điều đó không có ý nghĩa gì.
Kết quả cuối cùng: Tôi không thực sự là một người hâm mộ R, nhưng để xử lý các tập dữ liệu vừa và nhỏ, đặc biệt nếu bạn muốn phân tích thống kê về nó, bạn có thể làm điều tồi tệ hơn R. Một thay thế là Python và một số thư viện xử lý csv.