Trước tiên hãy để tôi làm rõ rằng tôi đang bắt đầu hành trình của mình vào khoa học dữ liệu từ quan điểm của một lập trình viên và nhà phát triển cơ sở dữ liệu. Tôi không phải là một chuyên gia khoa học dữ liệu 10 năm cũng không phải là một vị thần thống kê. Tuy nhiên, tôi làm nhà khoa học dữ liệu và bộ dữ liệu lớn cho một công ty làm việc với các khách hàng khá lớn trên toàn thế giới.
Từ kinh nghiệm của tôi, nhà khoa học dữ liệu sử dụng bất kỳ công cụ nào họ cần để hoàn thành công việc. Excel, R, SAS, Python và nhiều hơn nữa là tất cả các công cụ trong hộp công cụ dành cho nhà khoa học dữ liệu tốt. Tốt nhất có thể sử dụng nhiều công cụ để phân tích và xử lý dữ liệu.
Do đó, nếu bạn thấy mình so sánh R với Python, thì có khả năng bạn đã làm sai tất cả trong thế giới khoa học dữ liệu. Nhà khoa học dữ liệu tốt sử dụng cả hai khi nó có ý nghĩa để sử dụng cái này hơn cái kia. Điều này cũng áp dụng cho Excel.
Tôi nghĩ rằng thật khó để tìm thấy bất cứ ai sẽ có kinh nghiệm trong rất nhiều công cụ và ngôn ngữ khác nhau trong khi mọi thứ đều tuyệt vời. Tôi cũng nghĩ rằng sẽ rất khó để tìm thấy nhà khoa học dữ liệu cụ thể không chỉ có thể lập trình các thuật toán phức tạp mà còn biết cách sử dụng chúng theo quan điểm thống kê.
Hầu hết các nhà khoa học dữ liệu tôi từng làm việc có khoảng 2 hương vị. Những người có thể lập trình và những người không thể. Tôi hiếm khi làm việc với nhà khoa học dữ liệu có thể lấy dữ liệu bằng Python, thao tác với dữ liệu giống như Pandas, khớp mô hình với dữ liệu trong R và sau đó trình bày nó cho quản lý vào cuối tuần.
Ý tôi là, tôi biết chúng tồn tại. Tôi đã đọc nhiều blog khoa học dữ liệu từ những kẻ phát triển web scrappers, đẩy nó vào Hadoop, kéo nó ra khỏi Python, lập trình những thứ phức tạp và chạy nó qua R để khởi động. Chúng tồn tại. Họ đang ở ngoài kia. Tôi đã không chạy vào quá nhiều có thể làm tất cả điều đó. Có lẽ đó chỉ là khu vực của tôi?
Vì vậy, điều đó có nghĩa là chỉ chuyên về một điều xấu? Không. Rất nhiều bạn bè của tôi chỉ chuyên về một ngôn ngữ chính và giết nó. Tôi biết nhiều kẻ dữ liệu chỉ biết R và giết nó. Tôi cũng biết nhiều người chỉ sử dụng Excel để phân tích dữ liệu vì đó là điều duy nhất mà hầu hết các nhà khoa học không có dữ liệu có thể mở và sử dụng (đặc biệt là trong các công ty B2B). Câu hỏi bạn thực sự cần trả lời là liệu điều này có phải là MỘT điều bạn cần cho vị trí này không? Và quan trọng nhất, họ có thể học những điều mới?
PS
Khoa học dữ liệu không chỉ giới hạn ở "BIG DATA" hoặc NoQuery.