Cần bao nhiêu dung lượng để lưu trữ một bộ gen người?


83

Tôi đang tìm dung lượng lưu trữ theo byte (MB, GB, TB, v.v.) cần thiết để lưu trữ một bộ gen người. Tôi đọc một vài bài báo trên Wikipedia về DNA, nhiễm sắc thể, cặp cơ sở, gen và có một số phỏng đoán sơ bộ, nhưng trước khi tiết lộ bất cứ điều gì, tôi muốn xem những người khác sẽ tiếp cận vấn đề này như thế nào.

Một câu hỏi khác sẽ là có bao nhiêu nguyên tử trong DNA của con người, nhưng điều đó sẽ không chủ đề đối với trang web này.

Tôi hiểu rằng đây sẽ là một con số gần đúng, vì vậy tôi đang tìm kiếm giá trị tối thiểu có thể lưu trữ DNA của bất kỳ con người nào.


Đối với số lượng nguyên tử, điều này phụ thuộc vào thành phần. A và T là những phân tử nhỏ hơn G và C. Tuy nhiên, cấu trúc của phân tử là thịt bò, không phải thành phần nguyên tử của nó, vì vậy đây không thực sự là một phép tính rất hữu ích. (Đối với những gì nó có giá trị, ví dụ như A phân tử aka deoxyadenosine là C10H13N5O3 quá 31 nguyên tử.)
tripleee


Ngoại trừ người dùng slayton, Paul Amstrong và rauchen tất cả các câu trả lời khác được đưa ra đều sai về bản chất hoặc còn lâu mới hoàn thành. Trong câu trả lời, người dùng (không) đề cập đến các phương pháp nén hoặc được giải thích kém. Hãy xem câu trả lời của tôi để làm rõ việc giảm kích thước bộ gen 4 lần như đã thấy trong nhiều câu trả lời.
ZF007

Tôi bỏ phiếu để đóng câu hỏi này như off-topic vì nó là off-topic ở đây, nên trên bioinformatics.stackexchange.com
Chris_Rands

Câu trả lời:


67

Nếu bạn tin tưởng những điều như vậy, đây là những gì Wikipedia tuyên bố (từ http://en.wikipedia.org/wiki/Human_genome#Information_content ):

2,9 tỷ cặp cơ sở của bộ gen người đơn bội tương ứng với tối đa khoảng 725 megabyte dữ liệu, vì mỗi cặp cơ sở có thể được mã hóa bằng 2 bit. Vì các bộ gen riêng lẻ khác nhau ít hơn 1%, chúng có thể được nén không mất mát xuống khoảng 4 megabyte.


7
Chỉ cần thêm một số bình luận sinh học, "đơn bội" ở đây có nghĩa là chỉ một bản sao của mỗi nhiễm sắc thể. Tổ hợp tham chiếu của con người là đơn bội (và một thể khảm của nhiều người). Một bộ gen cá thể thực sự sẽ là lưỡng bội (2 bản sao của mỗi nhiễm sắc thể, ngoại trừ X và Y) nhưng một lần nữa chỉ biến thể giữa hai bản sao tại một tập hợp con nhỏ của các vị trí.
Alex Stoddard

9
Suy nghĩ về nó trong một ngày, và nhận ra điều này: Nếu bạn lưu trữ một số DNA của con người trong trường hợp cơ sở, thì bất kỳ DNA nào của con người tiếp theo sẽ chỉ cần được lưu trữ như sự khác biệt giữa nó và trường hợp cơ sở. Đối với các ví dụ về giới tính ADN giống nhau 99,9%. Và giữa các giới, tỷ lệ này giống như 98,5%.
Costa

3
Cũng cần nhớ rằng không phải tất cả thông tin được mã hóa trong các cặp cơ sở DNA đều có thông tin biểu sinh .
Annarfych

Điều này thật ý nghĩa. các cặp cơ bản về cơ bản là 4-nary. số 4 nary là 2 bit, vì vậy hãy tăng gấp đôi kích thước. vì vậy đó là 5,8 gigabit hoặc 5,8 / 8 gigabyte là 0,725 GB hoặc 725 MB. "nén" chỉ có thể thực hiện được vì bạn có thể lưu trữ một điểm khác biệt so với bộ gen được lập bản đồ thay vì lưu trữ toàn bộ bộ gen của bạn.
Dave Cousineau

@Annarfych Điều này cực kỳ gây hiểu lầm vì thông tin biểu sinh, theo định nghĩa, không thể kế thừa (mặc dù các tuyên bố sai trái ngược lại trên báo chí phổ biến). Di truyền các thông tin được lưu trữ trong chỉ DNA.
Konrad Rudolph

25

Bạn không lưu trữ tất cả DNA trong một dòng, mà phần lớn thời gian nó được lưu trữ bởi các nhiễm sắc thể.

Một nhiễm sắc thể lớn chiếm khoảng 300 MB và một nhiễm sắc thể nhỏ khoảng 50 MB.


Biên tập:

Tôi nghĩ lý do đầu tiên tại sao nó không được lưu trong 2 bit cho mỗi cặp cơ sở là nó sẽ gây ra một trở ngại để làm việc với dữ liệu. Hầu hết mọi người sẽ không biết cách chuyển đổi nó. Và ngay cả khi một chương trình chuyển đổi sẽ được đưa ra, rất nhiều người trong các công ty lớn hoặc viện nghiên cứu không được phép / không cần hỏi hoặc không biết cách cài đặt chương trình ...

Dung lượng lưu trữ 1GB không tốn kém gì, thậm chí việc tải xuống 3 GB chỉ mất 4 phút với 100 Mbitsp và hầu hết các công ty đều có tốc độ nhanh hơn.

Một điểm khác là dữ liệu không đơn giản như bạn được biết.

ví dụ: Phương pháp giải trình tự do Craig_Venter phát minh là một bước đột phá tuyệt vời nhưng có những mặt trái của nó. Nó không thể tách các chuỗi dài của cùng một cặp cơ sở, vì vậy không phải lúc nào cũng rõ ràng 100% nếu có 8 chữ A hay 9 chữ A. Những điều bạn phải quan tâm sau này ...

Một ví dụ khác là quá trình methyl hóa DNA vì bạn không thể lưu trữ Thông tin này dưới dạng biểu diễn 2 bit.


2
+1 từ tôi. Tuy nhiên, tôi không biết nhiễm sắc thể "lớn" hay "nhỏ" nghĩa là gì?
Milan Babuškov

1
Những con số này không khớp với những gì Wikipedia nói (xem bảng tại en.wikipedia.org/wiki/Human_genome#Information_content ); Tôi không nói rằng bạn sai, nhưng bạn có thể giải thích sự khác biệt không?
Oliver Charlesworth

Dường như anh đang trích dẫn Mbp (triệu cặp bazơ, mỗi cặp nucleotide là một vị trí duy nhất trong bộ gen) hơn là MB có thể giả định một mã hóa 2-bit của từng vị trí
Alex Stoddard

Một số sự methyl hóa DNA của bộ gen thay đổi trong suốt thời gian tồn tại của sinh vật. Bao gồm dữ liệu methyl hóa DNA cho bộ gen người sẽ giống như một bản chụp chi tiết của một người tại một thời điểm cụ thể, hơn là một mô tả chung chung về cá nhân. Mặc dù OP không chỉ rõ họ muốn cái nào.
cowlinator

12

Về cơ bản, mỗi cặp cơ sở lấy 2 bit (bạn có thể sử dụng 00, 01, 10, 11 cho T, G, C và A). Vì có khoảng 2,9 tỷ cặp bazơ trong bộ gen người, (2 * 2,9 tỷ) bit ~ = 691 megabyte.

Tôi không phải là chuyên gia, tuy nhiên, bộ gen người trang trên Wikipedia tuyên bố như sau:

MB thô:

  • Nam (XY): 770MB
  • Nữ (XX): 756MB

Tôi không chắc phương sai của chúng đến từ đâu, nhưng tôi chắc rằng bạn có thể tìm ra.


6
Trên thực tế, yêu cầu nhiều hơn 2 bit, vì có các cơ sở khác được lưu trữ trong thông tin trình tự ( Nví dụ, nơi dữ liệu không thể lập bản đồ và do đó không xác định). Các mã nucleotide IUPAC bao gồm nhiều hơn bốn mã tiêu chuẩn và điều này có thể làm tăng chi phí lưu trữ. ebi.ac.uk/2can/tutorials/aa.html
Alex Reynolds

@AlexReynolds bị hỏng liên kết: /
o0 '.

2
@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html là một liên kết tốt hơn cho các mã IUPAC đó. AIUI, một "quét" bộ gen cụ thể cần nhiều hơn 2 bit do không chính xác, do đó Rđối với A hoặc G, Nđối với bất kỳ cơ sở nào, .đối với khoảng trống, v.v. Nếu chúng ta có thể đọc hoàn hảo một bộ gen, nó sẽ chỉ là 2 bit cho mỗi cơ sở .
skierpage

1
Nhiễm sắc thể X là đơn đối với con cái. Con đực có thêm crôm Y. được mã hóa, như chúng ta đều biết khác với X crhom.
ZF007

Nó cũng phụ thuộc vào cách bạn xác định Megabyte : nhị phân 2 ^ 20 hoặc số liệu 10 ^ 6 byte. Bạn sử dụng nhị phân, vì vậy số của bạn thấp hơn.
il - ya

8

Có, RAM tối thiểu cần thiết cho toàn bộ DNA của con người là khoảng 770 MB. Tuy nhiên, biểu diễn 2 bit là không thực tế. Thật khó để tìm kiếm hoặc thực hiện một số tính toán trên đó. Do đó, một số nhà toán học đã thiết kế cách hiệu quả hơn để lưu trữ các chuỗi cơ sở đó ... và sử dụng chúng trong các thuật toán tìm kiếm và so sánh, chẳng hạn như GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Ứng dụng này hiện đang chạy trên PC của tôi, vì vậy tôi có thể nói với Bạn rằng ... thực tế nó có DNA được lưu trữ trong khoảng: 1 563 MB .


4

Hầu hết các câu trả lời ngoại trừ người dùng slayton, rauchen, Paul Amstrong đều sai nếu nói về lưu trữ thuần túy một đối một mà không có kỹ thuật nén.

Bộ gen người có 3Gb nucleotide tương ứng với 3Gb byte chứ không phải ~ 750MB. Bộ gen "đơn bội" được xây dựng theo NCBI hiện có kích thước 3436687kb hoặc 3,436687 Gb. Kiểm tra tại đây cho chính mình.

Đơn bội = bản sao đơn của nhiễm sắc thể. Diploid = hai phiên bản của đơn bội. Con người có 22 nhiễm sắc thể duy nhất x 2 = 44. Nhiễm sắc thể thứ 23 của nam là X, Y và tổng cộng là 46. Con cái thứ 23 chrom. là X, X và do đó tạo ra 46 tổng số.

Đối với nam giới, nó sẽ là 23 + 1 nhiễm sắc thể trong lưu trữ dữ liệu trên ổ cứng và 23 nhiễm sắc thể cho nữ, giải thích sự khác biệt nhỏ được đề cập bây giờ và sau đó trong câu trả lời. Crom X. từ con đực bằng X crom. từ những con cái.

Do đó, việc tải bộ gen (23 + 1) vào bộ nhớ được thực hiện theo từng phần thông qua BLAST bằng cách sử dụng cơ sở dữ liệu được xây dựng từ tệp fasta. Bất kể phiên bản nén hay không nucleotide đều khó bị nén. Quay lại những ngày đầu, một trong những thủ thuật được sử dụng là thay thế các lần lặp lại song song (GACGACGAC với mã hóa ngắn hơn, ví dụ: "3GAC"; 9byte đến 4byte). Lý do là để tiết kiệm dung lượng ổ cứng (diện tích của đĩa cứng HDDD 500bm-2GB với 7.200 vòng / phút và đầu nối SCSI). Đối với tìm kiếm theo trình tự, điều này cũng được thực hiện với truy vấn.

Nếu "nucleotide được mã hóa" bộ nhớ sẽ là 2 bit cho mỗi chữ cái thì bạn nhận được một byte:

A = 00
C = 01
G = 10
T = 11

Chỉ bằng cách này, bạn hoàn toàn kiếm được lợi nhuận từ các vị trí 1,2,3,4,5,6,7 và 8 cho 1 byte mã hóa. Ví dụ kết hợp 00.01.10.11 (dưới dạng byte00011011 ) sau đó sẽ tương ứng với "ACTG" (và hiển thị trong tệp văn bản dưới dạng ký tự không thể nhận dạng). Chỉ điều này là nguyên nhân dẫn đến việc giảm kích thước tệp xuống bốn lần như chúng ta thấy trong các câu trả lời khác. Do đó, 3,4Gb sẽ được giảm kích thước xuống 0,85917175 Gb ... ~ 860MB bao gồm một chương trình chuyển đổi bắt buộc sau đó (23kb-4mb).

Nhưng ... trong sinh học, bạn muốn có thể đọc một cái gì đó, do đó nén gzipped là quá đủ. Đã giải nén bạn vẫn có thể đọc được. Nếu việc điền byte này được sử dụng, việc đọc dữ liệu sẽ trở nên khó khăn hơn. Đó là lý do tại sao tệp fasta là tệp văn bản thuần túy trong thực tế.


1
Bạn cũng có thể lưu trữ nó dưới dạng pictire hoặc bản ghi âm, hoặc thậm chí là video - và sẽ mất nhiều terabate để lưu trữ. Nhưng điều này không bắt buộctối thiểu , như nó đã được yêu cầu.
il - ya

@ il - ya ... Tôi đang thiếu điểm mà bạn cố gắng thực hiện ... (Tôi đoán bạn thích di chuyển khoảng 250 km băng TDK .. nặng 600kg và mất ba giờ để tua lại)?
ZF007

1
Vấn đề là 1 trong 4 cặp cơ sở được mã hóa bằng 2 bit thông tin. Đây là lượng dữ liệu cần thiết để mã hóa nó - bạn không thể viết mã với ít hơn. Nhưng bạn có thể chọn mã hóa nó theo một cách khác: bạn có thể sử dụng toàn bộ byte, hoặc vẽ một bức tranh tốn ít kB hoặc tạo bản ghi âm. Tất cả điều này sẽ vẫn cho phép lưu trữ thông tin bắt buộc, nhưng điều đó sẽ không bắt buộc hoặc mã hóa tối thiểu . Bạn đã tự ý áp đặt các tiêu chí về khả năng đọc (sử dụng trình soạn thảo văn bản chuẩn), đó không phải là những gì được hỏi trong câu hỏi ban đầu.
il - ya

Thật không may, đó không phải là cách nó hoạt động trong sinh học. Phương thức giao tiếp giữa các nhà khoa học là bằng lời nói, giấy hoặc định dạng tệp văn bản có thể dễ dàng đọc được từ màn hình. Trong trường hợp bạn có một cặp cơ sở, điền vào một byte bằng các số không hoặc các số một là đủ. Tuy nhiên, có 4 cơ sở (2 cặp). Trong một byte, bạn có 4 vị trí cho một bản sao và 4 vị trí cho biết loại bản sao. Tính năng nén dữ liệu hoạt động nhưng con người cần khả năng đọc. Một pixel duy nhất trong mã RGB (3 giá trị và một giá trị cường độ) sử dụng 32byte. Có 8 bit cho một chữ cái. Vì vậy, không có ích gì để biến nó thành Mona Lisa, phải không?
ZF007

6
ZF007, bạn đã bỏ lỡ quan điểm của tôi về tính tối thiểu. Câu hỏi đặt ra là: "sẽ được bao nhiêu bộ nhớ cần thiết để lưu trữ ADN của con người?" với chi tiết hơn "... Tôi đang tìm kiếm giá trị tối thiểu có thể lưu trữ DNA của bất kỳ con người nào." Bạn đang cố gắng trả lời một câu hỏi khác , đó là "Cần bao nhiêu bộ nhớ để lưu trữ DNA của con người ở dạng có thể đọc được mà các nhà sinh học sử dụng để truyền đạt dữ liệu bộ gen ?" nếu bạn nén dữ liệu văn bản có thể đọc được bằng thuật toán nén tốt, điều đó sẽ đưa kích thước của nó xuống dưới 2 bit trên mỗi cặp cơ sở.
il - ya

3

Bộ gen người chứa 2,9 tỷ cặp bazơ. Vì vậy, nếu bạn biểu diễn mỗi cặp cơ sở dưới dạng byte thì nó sẽ mất 2,9 tỷ byte hoặc 2,9 GB. Bạn có thể nghĩ ra một cách sáng tạo hơn để lưu trữ các cặp cơ sở vì mỗi cặp cơ sở chỉ yêu cầu 2 bit. Vì vậy, bạn có thể lưu trữ 4 cặp cơ sở mỗi byte làm giảm tổng số ít hơn một GB.


bit ~ = byte. 2,9 tỷ bit là khoảng 350 MB
SDGuero

4
@SDGuero, các cặp cơ sở là cơ số 4 không phải cơ sở 2, vì vậy bạn cần ít nhất 2 bit để đại diện cho một cặp cơ sở.
slayton

BS trên bit lingo ... mỗi cơ sở nucleotide là 1 ký tự và do đó 1 byte, bất kể bảng chuyển đổi ký tự (AscII, UTF-8, v.v.) được sử dụng; không bao gồm mã hóa Châu Á 2byte.
ZF007

1
@ zf007 Các cặp cơ sở được biểu diễn bằng TOKENS của a, c, g và t. Mã thông báo không giống với một ký tự. Không có lý do một không thể được mã hóa như 00, c như 01, g là 10 và t là 11
MatBailie

1
Có sự khác biệt; bạn đang khẳng định nhu cầu về một tệp có thể đọc được của con người, tệp này không có trong bài đăng gốc.
MatBailie

3

Có 4 gốc nucleotide tạo nên DNA của chúng ta, đó là A, C, G, T do đó mỗi base trong DNA chiếm 2bit. Có khoảng 2,9 tỷ cơ sở tương đương với khoảng 700 megabyte. Điều kỳ lạ là nó sẽ điền vào một cd dữ liệu bình thường! trùng hợp?!?


3

vừa làm nó quá. trình tự thô là ~ 700 MB. nếu một người sử dụng một trình tự lưu trữ cố định hoặc một thuật ngữ lưu trữ trình tự cố định - và thực tế là các thay đổi là 1% tôi tính ~ 120 MB với bộ lưu trữ perchromosome-sequoffset-đã nêu trong bộ nhớ. đó là nó để lưu trữ.


1

Tất cả các câu trả lời đều bỏ qua thực tế rằng nuDNA không phải là DNA duy nhất xác định bộ gen người. mtDNA cũng được kế thừa và nó đóng góp thêm 16.500 cặp bazơ vào bộ gen người, khiến nó phù hợp hơn với dự đoán của Wikipedia là 770MB đối với nam và 756MB đối với nữ.

Điều này không có nghĩa là bộ gen người có thể dễ dàng được lưu trữ trên một thanh USB 4GB. Bản thân bit không đại diện cho thông tin, nó là sự kết hợp của các bit đại diện cho thông tin. Vì vậy, trong trường hợp của nuDNA và mtDNA, các bit được mã hóa (không nên nhầm lẫn với nén) để đại diện cho các protein và enzym mà bản thân nó sẽ yêu cầu nhiều MB dữ liệu thô để biểu diễn, đặc biệt là về mặt chức năng.

Thức ăn cho suy nghĩ: 80% bộ gen của con người được gọi là DNA "không mã hóa", vậy bạn có thực sự tin rằng toàn bộ cơ thể và bộ não của con người có thể được biểu diễn trong chỉ 151 đến 154MB dữ liệu thô?


-3

Chỉ có 2 loại cặp bazơ, Cytosine chỉ có thể liên kết với Guanine, và Adenine chỉ có thể liên kết với thymine, Vì vậy, mỗi cặp bazơ có thể được coi là một bit duy nhất. Điều này có nghĩa là toàn bộ chuỗi DNA của con người ~ 3 tỷ "Bit" sẽ có kích thước khoảng ~ 350 megabyte.


2
Bạn có 2 loại cặp và chúng có thể theo hai hướng - vì vậy bạn cần hai bit cho mỗi cặp. Đây là lý do tại sao hầu hết các bài viết ở trên ghi ~ 700MB chứ không phải 350MB.
Trondster

-3

Một cơ số - T, C, A, G (trong hệ thống số cơ số 4: 0, 1, 2, 3) - được mã hóa thành hai bit (không phải một), vì vậy một cặp cơ sở được mã hóa bởi bốn bit .


2
Ngoại trừ các cơ sở trong một cặp so sánh với nhau, vì vậy không thêm bất kỳ thông tin nào. Vì vậy, cả cặp cơ sở và cơ sở đều có thể được mã hóa bằng hai bit.
il - ya

Nếu bạn có chữ "A" thì bạn bổ sung cho nó bằng gì? "AC" "AG" "AT" đều hợp lệ. Tương tự như vậy, nếu bạn có "T" thì "TG" "TC" "TA" là hợp lệ, Vậy bạn phải làm gì?
Roger Johansson

1
@RogerJohansson Không, chỉ có cặp cơ sở “AT” mới hợp lệ trong DNA. Tương tự như vậy đối với “TA”, “CG” và “GC”. Không có kết hợp cặp cơ sở nào khác tồn tại.
Konrad Rudolph

@KonradRudolph có ít nhất chín nhân purin ( en.wikipedia.org/wiki/Purine ). Tất cả chúng có thể được sử dụng để thay thế A hoặc G. Điều này sẽ làm cho lời giải cho câu hỏi của OP phức tạp hơn. Tôi đồng ý để giữ cho nó đơn giản và thanh đến A, G, T và C.
ZF007

1
@ ZF007 Chúng tồn tại nhưng không xuất hiện ổn định trong bộ gen người và do đó không thích hợp để lưu trữ bộ gen. Sự liên quan sinh học của chúng chỉ quan trọng trong bối cảnh đột biến (và chỉ xảy ra nhất thời) và các biến đổi RNA. Đặc biệt (trong ngữ cảnh của câu trả lời này), dữ liệu bộ gen không được lưu trữ dưới dạng "cặp cơ sở", nó được lưu trữ dưới dạng một chuỗi các cơ sở duy nhất và mỗi vị trí có thể được mã hóa thành hai bit. Đây không phải là lý thuyết, đây là cách nó thực sự được thực hiện (ngoại trừ việc, đối với hầu hết các ứng dụng, dữ liệu di truyền được lưu trữ trong (gzipped) ASCII, không được nén bit).
Konrad Rudolph
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.