Làm thế nào để các công ty lớn sao lưu dữ liệu của họ?


8

Làm thế nào để các công ty xử lý lượng lớn dữ liệu, ví dụ Google hoặc Facebook, sao lưu mọi thứ?

Theo bài viết về nền tảng Google này trên Wikipedia, Google ước tính có hơn 450.000 máy chủ mỗi máy chủ có ổ cứng hơn 80 GB. Đó là rất nhiều dữ liệu. Họ có thực sự giữ hơn 1 GB sao lưu cho mỗi 1 GB dữ liệu không?


Tôi nghi ngờ Boogle sao lưu phần mềm máy chủ vì dường như họ có thể xây dựng một máy chủ từ kim loại trần rất nhanh. Họ dường như có bản sao lưu dữ liệu người dùng.
BillThor

Chà, Google có hơn 1 triệu máy chủ (từ năm 2007): pandia.com/sew/481-gartner.html
Kedare

Tôi nghĩ bạn đã mắc MỘT lỗi cơ bản: GOogle có RẤT NHIỀU máy chủ đều là SIMILAR. Các nút của máy chủ X phục vụ chỉ mục. YOu không sao lưu cùng một chỉ số một triệu lần.
TomTom

Câu trả lời:


8

Nó phụ thuộc vào mục đích của bạn là gì.

Nếu bạn đang tìm kiếm các bản sao lưu để khắc phục thảm họa (máy chủ phát nổ, trung tâm dữ liệu bị cháy, v.v.) thì câu trả lời ngắn gọn là chúng có thể không thực hiện sao lưu. Chúng tôi có một khách hàng liên quan đến dữ liệu nhạy cảm của chính phủ và một phần của nhiệm vụ của họ là chúng tôi không được phép thực hiện sao lưu hoặc sao lưu trên phương tiện lưu động . Chúng tôi được phép sao chép trực tiếp vào một trang web DR và ​​đó là nó. Cả hai trang web đều được bảo vệ trong cùng một mức độ bảo mật vật lý và logic. Điều hấp dẫn ở đây là nếu tôi làm hỏng cái gì đó trên Trang A, thì nó được sao chép sang Trang B gần như ngay lập tức.

Nếu bạn đang nói về các bản sao lưu từ quan điểm toàn vẹn dữ liệu (ví dụ: bạn vô tình làm rơi bảng Khách hàng và nó đã được sao chép sang trang DR), thì các băng LTO-5 trong thư viện băng lớn thường được sử dụng. Với tối đa 3TB mỗi băng và nhiều băng trong thư viện băng, bạn có thể nhanh chóng sao lưu lượng dữ liệu khổng lồ (nhanh chóng ở đây đề cập đến Mbps, có thể vẫn phải mất nhiều, nhiều giờ để sao lưu 25TB dữ liệu).

Bất kỳ bộ sao lưu dự phòng nào cũng sẽ thực hiện nén và khử trùng cao, giúp giảm đáng kể dung lượng lưu trữ cần thiết. Tôi đã thấy một ước tính cho một công cụ sao lưu Exchange được nén và tách đôi khi đã xác nhận tỷ lệ 15: 1 (15gb dữ liệu được lưu trữ trong 1gb sao lưu).

Tôi rất nghi ngờ Google bận tâm với các bản sao lưu cho rất nhiều dữ liệu của công cụ tìm kiếm của họ, bởi vì phần lớn nó có thể thay thế và nó được phân phối rộng rãi đến mức nếu chúng mất đi một phần đáng kể, hoặc thậm chí là toàn bộ, trung tâm dữ liệu vẫn giữ nguyên hệ thống trực tuyến nhờ các tuyến BGP failover.


Trên thực tế, có vẻ như Google sao lưu dữ liệu dữ liệu vào băng , đó không phải là điều tôi mong đợi:

Một phần của thư viện băng Google


2

Hầu hết dữ liệu của họ được lưu trữ trên hệ thống tệp GFS của riêng họ và GFS yêu cầu phải có ít nhất ba bản sao của mỗi khối 64 MB tạo tệp (GFS sử dụng khối 64 MB). Như đã nói, tôi không nghĩ họ bận tâm với các bản sao lưu, vì họ có ít nhất ba bản sao của mỗi tệp và các khối trên nút bị lỗi có thể nhanh chóng được thay thế bằng cách sao chép dữ liệu từ bất kỳ hai bản sao tốt nào còn lại sang một nút mới.

Để biết thêm thông tin, hãy xem http://labs.google.com.vn/ con / gfs.html


1
Sự dư thừa làm tăng tính khả dụng, nhưng nó không chính xác là một bản sao lưu (và bạn đã không gọi nó là như vậy) bởi vì nó rất dễ ghi đè.
Tobu

Vâng, đó là một điểm tốt. Quan điểm của tôi chỉ đơn thuần là họ có thể không cần sao lưu cho hầu hết dữ liệu của họ.
ipozgaj

0

Câu trả lời của farseeker là tốt nhưng tôi nghĩ có thể được làm rõ bằng cách nghĩ về nó từ quan điểm này: Bạn đang cố gắng khôi phục điều gì? Có phải cho DR? Thời gian phục hồi cần thiết là gì? Như một ví dụ giả sử công ty của bạn dựa trên cơ sở dữ liệu máy chủ sql 25 TB. Trong trường hợp dữ liệu bị lỗi hoặc lỗi (bảng bị rớt, db bị hỏng, v.v.), CTO muốn có thể khôi phục cơ sở dữ liệu trong vòng một giờ. Trong trường hợp trang web bị lỗi 2 giờ là bắt buộc.

Trên mặt của nó điều này nghe có vẻ khó khăn nhưng nó không phải là không thể. Vì bạn biết chiến lược sao lưu của mình phải phục hồi sau một giờ, bạn biết rằng bạn sẽ không khôi phục lại toàn bộ bản sao lưu, bạn sẽ phải làm việc với các nhóm dba để đảm bảo rằng DB được phân chia thành các phần có thể quản lý được. Bạn cũng sẽ được thực hiện sao lưu trans-log thường xuyên. Đối với DR nên xem xét một chiến lược sao chép (có thể là phiên bản bị trì hoãn thời gian với dữ liệu nhật ký được sao chép thời gian thực nhưng không được áp dụng). Như farseeker đã nói, nó phụ thuộc vào mục đích và mục đích đó là để thực hiện một số hình thức phục hồi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.