Tôi là một R
lập trình viên ngôn ngữ. Tôi cũng thuộc nhóm những người được coi là Nhà khoa học dữ liệu nhưng đến từ các ngành học thuật khác ngoài CS.
Điều này thể hiện rất tốt vai trò của tôi với tư cách là Nhà khoa học dữ liệu, tuy nhiên, bằng cách bắt đầu sự nghiệp của mình R
và chỉ có kiến thức cơ bản về các ngôn ngữ kịch bản / web khác, tôi cảm thấy hơi bất cập trong 2 lĩnh vực chính:
- Thiếu kiến thức vững chắc về lý thuyết lập trình.
- Thiếu trình độ kỹ năng cạnh tranh trong các ngôn ngữ nhanh hơn và được sử dụng rộng rãi hơn
C
,C++
vàJava
, có thể được sử dụng để tăng tốc độ của đường ống và tính toán Dữ liệu lớn cũng như tạo ra các sản phẩm DS / dữ liệu có thể dễ dàng phát triển thành nhanh hơn kịch bản back-end hoặc các ứng dụng độc lập.
Tất nhiên, giải pháp rất đơn giản - hãy tìm hiểu về lập trình, đó là những gì tôi đã làm bằng cách đăng ký vào một số lớp (hiện đang lập trình C).
Tuy nhiên, bây giờ khi tôi bắt đầu giải quyết các vấn đề # 1 và # 2 ở trên, tôi sẽ tự hỏi mình " Ngôn ngữ như thế nào C
và khả thi C++
đối với Khoa học dữ liệu? ".
Chẳng hạn, tôi có thể di chuyển dữ liệu rất nhanh và tương tác tốt với người dùng, nhưng còn về hồi quy nâng cao, Machine Learning, khai thác văn bản và các hoạt động thống kê nâng cao khác thì sao?
Vì thế. có thể C
thực hiện công việc - công cụ nào có sẵn cho thống kê nâng cao, ML, AI và các lĩnh vực khác của Khoa học dữ liệu? Hoặc tôi phải mất phần lớn hiệu quả đạt được bằng cách lập trình C
bằng cách gọi R
các tập lệnh hoặc ngôn ngữ khác?
Tài nguyên tốt nhất tôi tìm thấy từ trước đến nay trong C là một thư viện có tên Shark , cung cấp C
/ C++
khả năng sử dụng Support Vector Machines, hồi quy tuyến tính (không phải phi tuyến tính và hồi quy nâng cao khác như probit đa phương, v.v.) và một danh sách rút gọn khác (tuyệt vời nhưng) chức năng thống kê.