Xem xét các tiêu chí khác, tôi nghĩ rằng trong một số trường hợp sử dụng Python có thể vượt trội hơn nhiều so với R cho Dữ liệu lớn. Tôi biết việc sử dụng R rộng rãi trong các tài liệu giáo dục khoa học dữ liệu và các thư viện phân tích dữ liệu tốt có sẵn cho nó, nhưng đôi khi nó chỉ phụ thuộc vào nhóm.
Theo kinh nghiệm của tôi, đối với những người đã quen thuộc với lập trình, sử dụng Python mang lại sự linh hoạt và tăng năng suất hơn nhiều so với ngôn ngữ như R, vốn không được thiết kế tốt và mạnh mẽ so với Python về ngôn ngữ lập trình. Như một bằng chứng, trong một khóa khai thác dữ liệu trong trường đại học của tôi, dự án cuối cùng tốt nhất đã được viết bằng Python, mặc dù những người khác có quyền truy cập vào thư viện phân tích dữ liệu phong phú của R. Đó là, đôi khi năng suất tổng thể (xem xét tài liệu học tập, tài liệu, v.v.) cho Python có thể tốt hơn R ngay cả khi thiếu các thư viện phân tích dữ liệu mục đích đặc biệt cho Python. Ngoài ra, có một số bài viết hay giải thích về tốc độ nhanh chóng của Python trong khoa học dữ liệu: Python dịch chuyển R và cấu trúc dữ liệu khoa học phong phú trong Python có thể sớm lấp đầy khoảng trống của các thư viện có sẵn cho R.
Một lý do quan trọng khác cho việc không sử dụng R là khi làm việc với các vấn đề về Dữ liệu lớn trong thế giới thực, trái với các vấn đề chỉ mang tính hàn lâm, cần rất nhiều công cụ và kỹ thuật khác, như phân tích dữ liệu, làm sạch, trực quan hóa, xóa web và nhiều vấn đề khác. dễ dàng hơn nhiều bằng cách sử dụng một ngôn ngữ lập trình mục đích chung. Đây có thể là lý do tại sao ngôn ngữ mặc định được sử dụng trong nhiều khóa học Hadoop (bao gồm cả khóa học trực tuyến của Udacity ) là Python.
Biên tập:
Gần đây, DARPA cũng đã đầu tư 3 triệu đô la để giúp tài trợ cho khả năng xử lý và hiển thị dữ liệu của Python cho các công việc dữ liệu lớn, đây rõ ràng là dấu hiệu của tương lai của Python trong Dữ liệu lớn. ( chi tiết )