Hệ thống tệp phân tán nào làm phụ trợ cho Điện toán đám mây?


11

Tôi có một đám mây cơ bản chạy trên Ubuntu Server (9.04) và Eucalyptus. Walrus (triển khai S3 tương thích API của Eucalyptus) lưu trữ các tệp bằng trên bộ điều khiển đám mây. Tuy nhiên, mỗi máy chủ trong số 4 máy chủ khác có dung lượng lưu trữ 1TB mà phần lớn không được sử dụng. Tôi đang tìm cách gộp tất cả các bộ lưu trữ lại với nhau để sử dụng tất cả các tài nguyên có sẵn. Tôi đã nới lỏng các lựa chọn khác nhau bao gồm PVFS, Luster, HDFS (Hadoop).

Yêu cầu duy nhất của tôi là nó cần có khả năng mở rộng và nó chạy tốt trên Ubuntu. Tôi sẽ đánh giá cao từ bất cứ ai có kinh nghiệm với các công nghệ như vậy và tôi mong muốn được nghe đề xuất của bạn.


Nếu nó không cần phải là Ubuntu, tôi sẽ nói ZFS.
Brad Gilbert

3
Ngoại trừ ZFS không phải là một hệ thống tập tin cụm.
MarkR

Câu trả lời:


5

Trong khi cá nhân tôi chưa triển khai nó ở bất cứ đâu trong hệ thống của chúng tôi, tôi đã nhìn khá rộng rãi vào Gluster . Tôi biết một vài người tại một số trang web lớn sử dụng điều này và nó rõ ràng hoạt động rất tốt. Họ sử dụng nó trong sản xuất cho một số ứng dụng HPC hạng nặng.


2

GlusterFS dường như là giải pháp lý tưởng cho tôi. Đối với anh chàng tuyên bố rằng Gluster mất rất nhiều nỗ lực để thiết lập tôi phải nói rằng có lẽ anh ta chưa bao giờ thử. Kể từ Gluster 3.2, các tiện ích cấu hình khá tuyệt vời và phải mất 2 hoặc 3 lệnh để tăng âm lượng và chia sẻ trên mạng. Gắn khối lượng gluster cũng đơn giản như nhau.

Về mặt tích cực, nó cũng giúp bạn linh hoạt hơn rất nhiều so với NFS. Nó không phân chia, cung cấp, địa lý, tất nhiên là tuân thủ POSIX và như vậy. Có một phần mở rộng được gọi là HekaFS, cũng bổ sung SSL và các cơ chế xác thực nâng cao hơn, có lẽ rất thú vị cho điện toán đám mây. Ngoài ra nó vảy! Đó là F / OSS và được phát triển bởi RedHat, người gần đây đã mua Gluster.


1

Bạn đã bao giờ nhìn vào mogileFS chưa? http://danga.com/mogilefs/

Nó không phải là một hệ thống tệp theo nghĩa truyền thống, nhưng nó tốt cho việc phân phối dữ liệu tệp trên một cụm (với sự sao chép và dự phòng được tính đến).

Nếu bạn đang phục vụ các tệp cho một ứng dụng web, bạn sẽ cần một cái gì đó để phục vụ các tệp. Tôi sẽ đề xuất một tập lệnh PHP sử dụng yêu cầu HTTP làm khóa tìm kiếm để tìm tệp bạn muốn trong FS mogile. Sau đó, bạn có thể đọc nội dung của tệp vào bộ đệm và echo / in nó ra.

MogileFS đã khá nhanh, nhưng bạn có thể kết hợp mogileFS với memcache để tăng tốc truy cập vào các tệp được sử dụng phổ biến nhất.


Tôi dường như nhớ lại rằng MogileFS có một điểm thất bại duy nhất, trong trường hợp nút siêu dữ liệu. HDFS có một vấn đề tương tự.
David Pashley

MogileFS có vẻ khá thú vị và sự sao chép và dự phòng của nó là lý tưởng tuy nhiên nó dường như không được sử dụng cho mục đích sử dụng chung vì các ứng dụng cần lưu ý rằng chúng đang chạy trên nó. Một hệ thống tập tin truyền thống hơn, theo đó các ứng dụng có thể là thuyết bất khả tri của FS sẽ phù hợp hơn.
Jickyy

1
MogileFS có thể có một vài trình theo dõi đang chạy và bạn có thể có failover mysql ở phần phụ trợ. Bằng cách này bạn có thể loại bỏ tất cả các điểm thất bại duy nhất.
davidsheldon

1

Với Luster, bạn phải có một kernel đặc biệt trên các máy chủ và tôi sẽ chỉ có các máy chủ là máy chủ chứ không có gì khác.

Kỳ lạ nhất là câu trả lời lành mạnh nhất cũng là NFS. Chúng tôi đã sử dụng NFS trên đám mây của Amazon. Nó có thể không mở rộng quy mô cũng như một số hệ thống tập tin nhưng sự đơn giản không nên bỏ qua. Một không gian tên duy nhất có lẽ không đáng để nỗ lực thực hiện.


1

Bạn vẫn đang xem xét HDFS? Một trong những người Cloudera đã nói chuyện tại VelocityConf năm nay về Hadoop và HDFS tập trung vào việc quản lý các cụm dữ liệu lớn, vì vậy anh ta đã nói về HDFS khá nhiều. Các slide khá nhiều thông tin. Tôi đã không làm việc với HDFS cá nhân, nhưng tôi đã nói chuyện với một số người ngẫu nhiên tại Velocity đang sử dụng nó trên Ubuntu để thực hiện phân tích dữ liệu khác nhau.


1

Đặt một số loại hệ thống tập tin chia sẻ đằng sau một môi trường ảo hóa là khá phổ biến. Bạn có rất nhiều sự lựa chọn, tùy thuộc vào những gì bạn đang muốn thực hiện.

Giải pháp đơn giản nhất có lẽ là NFS, bởi vì điều này sẽ được hỗ trợ nguyên bản bởi bất kỳ phân phối nào bạn đang chạy. NFS có thể thực hiện hợp lý tốt như một hệ thống tập tin phụ trợ ảo hóa, mặc dù nó sẽ không phải là thứ nhanh nhất ngoài kia.

Nếu bạn đang chạy một cụm RedHat (hoặc phái sinh), bạn sẽ có hỗ trợ ngoài luồng tốt cho GFS2, hệ thống tệp cụm của RedHat. Điều này không mở rộng tới hàng trăm nút, nhưng nó tốt cho các cụm nhỏ hơn.

Ngoài ra, bạn đang bắt đầu tham gia vào hàng loạt thứ như Luster, Glusterfs, GPFS, v.v. Đây là tất cả các hệ thống tệp song song hiệu năng cao, nhưng chúng đòi hỏi nhiều công việc để thiết lập hơn các tùy chọn khác ở đây. Nếu bạn có một môi trường rộng lớn, họ có thể đáng để xem xét.


1

Tôi đồng ý với @larsks rằng NFS là lựa chọn tốt nhất; thiết lập một số mục tiêu iSCSI, NFS, đã hoàn thành. điều này sẽ mở rộng đến khoảng 5-10 nút; YMMV dựa trên I / O, khả năng mạng, v.v. (cách khác, thiết lập iSCSI với hỗ trợ I / O đa đường).

Nếu bạn cần một cái gì đó khoảng 20+ nút, bạn có thể muốn điều tra Ceph . Luster có triển vọng và ổn định, nhưng là một sản phẩm (F / OSS) của Oracle và tôi không thích cá nhân chống lại Oracle. :)

Ceph cũng khá tích cực; bản phát hành gần đây nhất là 5 ngày trước.


Luster không còn nằm dưới chiếc ô của Oracle. Xem whamcloud.com
tưởng

1

XtreemFS có thể là một giải pháp cho bạn. Nó khá đơn giản để cài đặt và cấu hình, cũng có các gói cho Ubuntu.



0

Không chắc chắn những gì bạn đang làm, nhưng điều này nghe có vẻ như là một ứng dụng thú vị cho CouchDB .


0

Bạn có thể thử PVFS2 . Việc cài đặt dễ dàng hơn nhiều so với Luster và thường nhanh hơn Gluster.


nhanh hơn Gluster? bạn có thể chia sẻ bất kỳ dữ liệu xung quanh hiệu suất?
John-ZFS

Tôi không có điểm chuẩn gần đây trong tay. Trở lại năm 2008, Gluster chậm hơn Luster rất nhiều, trong khi PVFS2 chỉ chậm hơn một chút. Nó có thể khác ngày nay, có lẽ tôi sẽ điểm chuẩn này.
wazoox

cảm ơn, nếu bạn làm điểm chuẩn, xin vui lòng cho tôi biết. maruti.j @ gmail hoặc bạn có thể tạo một bài đăng trên serverfault vì lợi ích của mọi người
John-ZFS
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.