Hầu hết các câu trả lời ngoại trừ người dùng slayton, rauchen, Paul Amstrong đều sai nếu nói về lưu trữ thuần túy một đối một mà không có kỹ thuật nén.
Bộ gen người có 3Gb nucleotide tương ứng với 3Gb byte chứ không phải ~ 750MB. Bộ gen "đơn bội" được xây dựng theo NCBI hiện có kích thước 3436687kb hoặc 3,436687 Gb. Kiểm tra tại đây cho chính mình.
Đơn bội = bản sao đơn của nhiễm sắc thể. Diploid = hai phiên bản của đơn bội. Con người có 22 nhiễm sắc thể duy nhất x 2 = 44. Nhiễm sắc thể thứ 23 của nam là X, Y và tổng cộng là 46. Con cái thứ 23 chrom. là X, X và do đó tạo ra 46 tổng số.
Đối với nam giới, nó sẽ là 23 + 1 nhiễm sắc thể trong lưu trữ dữ liệu trên ổ cứng và 23 nhiễm sắc thể cho nữ, giải thích sự khác biệt nhỏ được đề cập bây giờ và sau đó trong câu trả lời. Crom X. từ con đực bằng X crom. từ những con cái.
Do đó, việc tải bộ gen (23 + 1) vào bộ nhớ được thực hiện theo từng phần thông qua BLAST bằng cách sử dụng cơ sở dữ liệu được xây dựng từ tệp fasta. Bất kể phiên bản nén hay không nucleotide đều khó bị nén. Quay lại những ngày đầu, một trong những thủ thuật được sử dụng là thay thế các lần lặp lại song song (GACGACGAC với mã hóa ngắn hơn, ví dụ: "3GAC"; 9byte đến 4byte). Lý do là để tiết kiệm dung lượng ổ cứng (diện tích của đĩa cứng HDDD 500bm-2GB với 7.200 vòng / phút và đầu nối SCSI). Đối với tìm kiếm theo trình tự, điều này cũng được thực hiện với truy vấn.
Nếu "nucleotide được mã hóa" bộ nhớ sẽ là 2 bit cho mỗi chữ cái thì bạn nhận được một byte:
A = 00
C = 01
G = 10
T = 11
Chỉ bằng cách này, bạn hoàn toàn kiếm được lợi nhuận từ các vị trí 1,2,3,4,5,6,7 và 8 cho 1 byte mã hóa. Ví dụ kết hợp 00.01.10.11 (dưới dạng byte00011011
) sau đó sẽ tương ứng với "ACTG" (và hiển thị trong tệp văn bản dưới dạng ký tự không thể nhận dạng). Chỉ điều này là nguyên nhân dẫn đến việc giảm kích thước tệp xuống bốn lần như chúng ta thấy trong các câu trả lời khác. Do đó, 3,4Gb sẽ được giảm kích thước xuống 0,85917175 Gb ... ~ 860MB bao gồm một chương trình chuyển đổi bắt buộc sau đó (23kb-4mb).
Nhưng ... trong sinh học, bạn muốn có thể đọc một cái gì đó, do đó nén gzipped là quá đủ. Đã giải nén bạn vẫn có thể đọc được. Nếu việc điền byte này được sử dụng, việc đọc dữ liệu sẽ trở nên khó khăn hơn. Đó là lý do tại sao tệp fasta là tệp văn bản thuần túy trong thực tế.