Hạn chế bộ nhớ của R là gì?


9

Khi xem xét mô hình dự đoán ứng dụng của ứng dụng ", một nhà phê bình tuyên bố :

Một bài phê bình tôi có về sư phạm học thống kê (SL) là không có sự cân nhắc hiệu suất tính toán trong việc đánh giá các kỹ thuật mô hình khác nhau. Với những điểm nhấn của nó về bootstrapping và xác thực chéo để điều chỉnh / kiểm tra các mô hình, SL khá chuyên sâu. Thêm vào đó, việc lấy mẫu lại được nhúng trong các kỹ thuật như đóng gói và tăng cường, và bạn có bóng ma của địa ngục tính toán để học có giám sát các tập dữ liệu lớn. Trên thực tế, các ràng buộc về bộ nhớ của R áp đặt các giới hạn khá nghiêm trọng đối với kích thước của các mô hình có thể phù hợp bằng các phương pháp hoạt động hàng đầu như các khu rừng ngẫu nhiên. Mặc dù SL thực hiện tốt công việc hiệu chỉnh mô hình đối với các tập dữ liệu nhỏ, nhưng chắc chắn sẽ rất tốt nếu hiểu hiệu suất so với chi phí tính toán cho dữ liệu lớn hơn.

Các hạn chế về bộ nhớ của R là gì và chúng có áp đặt các giới hạn nghiêm trọng đối với kích thước của các mô hình có thể phù hợp với các phương pháp hoạt động hàng đầu như các khu rừng ngẫu nhiên không?


Câu trả lời:


9

Như Konstantin đã chỉ ra, R thực hiện tất cả các tính toán của nó trong bộ nhớ của hệ thống, tức là RAM. Do đó, dung lượng RAM là một hạn chế rất quan trọng đối với các hoạt động chuyên sâu tính toán trong R. Khắc phục hạn chế này, dữ liệu đang được lưu trữ trong các hệ thống HDFS, nơi dữ liệu không được tải vào bộ nhớ và chương trình được chạy thay vào đó, chương trình đi đến dữ liệu và thực hiện các hoạt động, do đó khắc phục các hạn chế bộ nhớ. RHadoop ( https://github.com/RevolutionAnalytics/RHadoop/wiki ) là trình kết nối bạn đang tìm kiếm.

Đến với tác động đối với các thuật toán chuyên sâu về tính toán, Rừng ngẫu nhiên / Cây quyết định / Phương pháp tập hợp trên một lượng dữ liệu đáng kể (tối thiểu 50.000 quan sát theo kinh nghiệm của tôi) chiếm rất nhiều bộ nhớ và chậm đáng kể. Để tăng tốc quá trình, song song hóa là cách để đi và song song vốn đã có sẵn trong Hadoop! Đó là nơi, Hadoop thực sự hiệu quả.

Vì vậy, nếu bạn đang sử dụng các phương pháp tập hợp chuyên sâu và chậm, bạn sẽ muốn dùng thử hệ thống HDFS mang lại sự cải thiện hiệu suất đáng kể.


1
+1 Cảm ơn bạn đã dành thời gian để cải thiện câu trả lời hiện có và theo ý kiến ​​của tôi, câu trả lời của bạn bây giờ là câu trả lời tốt hơn, tôi đã chọn câu trả lời của bạn làm câu trả lời. Chúc mừng!
sai lầm ngớ ngẩn

Vui mừng trả lời!
binga

7

R thực hiện tất cả tính toán trong bộ nhớ để bạn không thể thực hiện thao tác trên tập dữ liệu lớn hơn dung lượng RAM khả dụng. Tuy nhiên, có một số thư viện cho phép xử lý bigdata bằng R và một trong những thư viện phổ biến để xử lý bigdata như Hadoop.


2

Bài phê bình này không còn hợp lý:

Mặc dù sự thật là hầu hết các thư viện R tiêu chuẩn và được tôn trọng nhất đều bị giới hạn trong các tính toán trong bộ nhớ, ngày càng có nhiều thư viện chuyên biệt để xử lý dữ liệu không phù hợp với bộ nhớ.
Ví dụ, đối với các khu rừng ngẫu nhiên trên các bộ dữ liệu lớn, bạn có thư viện bigrf. Thêm thông tin ở đây: http://cran.r-project.org/web/packages/bigrf/

Một lĩnh vực tăng trưởng khác là sự kết nối của R với các môi trường dữ liệu lớn như hadoop, mở ra một thế giới khả năng khác.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.