Câu trả lời:
Sự trùng lặp là nơi bạn xem xét nội dung của tập dữ liệu, lưu ý tất cả các bit trùng lặp có mặt và lưu trữ dữ liệu chỉ một lần, thay thế tất cả các bản sao dữ liệu khác bằng một con trỏ trở lại một bản sao. Nó đặc biệt hữu ích với các bản sao lưu vì khi bạn sao lưu những thứ như máy chủ thì rất nhiều dữ liệu là như nhau. Ví dụ, hãy tưởng tượng, bạn đang sao lưu 1.000 máy chủ Windows - phần lớn nội dung trên các hộp đó sẽ giống hệt nhau.
Sự trùng lặp rất phổ biến ngày nay vì 3 lý do:
Gần đây mọi người đều bị ám ảnh với việc xây dựng các giải pháp khắc phục thảm họa sử dụng các máy chủ bên ngoài. Để làm điều này, bạn phải sao chép rất nhiều dữ liệu sản xuất đến trang web từ xa và băng thông là một vấn đề rất lớn. Bất kỳ việc giảm số lượng dữ liệu bạn phải sao chép đều giúp ích rất nhiều.
Số lượng các công ty dữ liệu đang giữ lại đang bùng nổ - nhờ lưu trữ rẻ hơn và các yêu cầu đa ngành để lưu giữ hồ sơ.
Các công nghệ tương đối gần đây đạt điểm ngọt. Chúng ta đã có những thứ như sự trùng lặp trong một thời gian dài (lưu trữ một ví dụ, v.v.) đã giúp ích nhưng chỉ trong năm ngoái, chúng ta đã thấy sự trùng lặp thực sự có thể làm giảm đáng kể lượng lưu trữ đạt đến dòng chính.
Một trong những điều chúng tôi phát hiện ra tại công ty của tôi khi làm việc với Netapp là sự trùng lặp thực sự chỉ hoạt động tốt trong môi trường VM nếu bạn sắp xếp các ổ đĩa của mình. Đó là một vấn đề đối với chúng tôi vì chúng tôi có rất nhiều máy Windows Server 2003 và không có ổ đĩa nào được căn chỉnh. Điều đó có nghĩa là bạn hầu như không phục hồi được khoảng một phần tư dung lượng nếu các ổ đĩa được căn chỉnh chính xác.
Mặc dù chúng tôi được thông báo rằng một khi các ổ đĩa được căn chỉnh chính xác, chúng tôi sẽ có thể phục hồi 40-60% dung lượng của chúng tôi trở lại với khoản khấu trừ.