Thống kê + Khoa học máy tính = Khoa học dữ liệu? [đóng cửa]


10

tôi muốn trở thành một nhà khoa học dữ liệu . Tôi đã nghiên cứu thống kê ứng dụng (khoa học tính toán), vì vậy tôi có một nền tảng thống kê tuyệt vời (hồi quy, quá trình ngẫu nhiên, chuỗi thời gian, chỉ đề cập đến một vài). Nhưng bây giờ, tôi sẽ lấy bằng thạc sĩ về Khoa học máy tính tập trung vào Hệ thống thông minh.

Đây là kế hoạch học tập của tôi:

  • Học máy
  • Học máy nâng cao
  • Khai thác dữ liệu
  • Lập luận mờ
  • Hệ thống khuyến nghị
  • Hệ thống dữ liệu phân tán
  • Điện toán đám mây
  • Khám phá tri thức
  • Kinh doanh thông minh
  • Lấy thông tin
  • Khai thác văn bản

Cuối cùng, với tất cả kiến ​​thức khoa học máy tính và thống kê, tôi có thể tự gọi mình là nhà khoa học dữ liệu không? , hoặc là tôi sai?

Cảm ơn câu trả lời.



Câu hỏi này dường như lạc đề vì đó là về lời khuyên nghề nghiệp. Tư vấn nghề nghiệp đã được chứng minh dẫn đến các câu hỏi định hướng ý kiến, câu hỏi rộng hoặc đôi khi cực kỳ hạn chế, hầu hết trong số đó không dẫn đến kết luận hữu ích. Nếu bạn không đồng ý với ý kiến ​​này, vui lòng nêu vấn đề trên Data Science Meta .
asheeshr

Tóm lại, không. Dữ liệu + Phương pháp khoa học = Khoa học dữ liệu :-). Mọi thứ khác chỉ là một phương pháp để đạt được điều đó
I_Play_With_Data

Câu trả lời:


1

Tôi nghĩ rằng bạn đang đi đúng hướng để trở thành một nhà khoa học dữ liệu chuyên gia . Gần đây tôi đã trả lời câu hỏi liên quan ở đây trên Data Science StackExchange: /datascience//a/742/2452 (chú ý đến định nghĩa tôi đề cập ở đó, vì nó chủ yếu trả lời câu hỏi của bạn, cũng như để các khía cạnh của thực hành kỹ thuật phần mềmáp dụng kiến thức để giải quyết các vấn đề trong thế giới thực ). Tôi hy vọng rằng bạn sẽ tìm thấy tất cả những điều hữu ích. Chúc may mắn trong sự nghiệp!


9

Vâng, nó phụ thuộc vào loại "Khoa học dữ liệu" mà bạn muốn tham gia. Đối với phân tích cơ bản và thống kê báo cáo chắc chắn sẽ có ích, nhưng đối với Machine Learning và Artificial Intelligence thì bạn sẽ muốn có thêm một vài kỹ năng

  • Lý thuyết xác suất - bạn phải có một nền tảng vững chắc về xác suất thuần túy để bạn có thể phân tách bất kỳ vấn đề nào, dù đã thấy trước hay chưa, thành các nguyên tắc xác suất. Thống kê giúp ích rất nhiều cho các vấn đề đã được giải quyết, nhưng các vấn đề mới và chưa được giải quyết đòi hỏi sự hiểu biết sâu sắc về xác suất để bạn có thể thiết kế các kỹ thuật phù hợp.

  • Lý thuyết thông tin - đây (liên quan đến thống kê) là một lĩnh vực khá mới (mặc dù vẫn còn nhiều thập kỷ), công việc quan trọng nhất là của Shannon, nhưng lưu ý thậm chí quan trọng hơn và thường bị bỏ quên trong văn học là tác phẩm của Hobson đã chứng minh rằng Kullback-Leibler Divergence là định nghĩa toán học duy nhất thực sự nắm bắt được khái niệm "thước đo thông tin" . Bây giờ cơ bản cho sự thâm nhập nhân tạo là có thể định lượng thông tin. Đề nghị đọc "Các khái niệm trong cơ học thống kê" - Arthur Hobson (cuốn sách rất đắt tiền, chỉ có sẵn trong các thư viện học thuật).

  • Lý thuyết phức tạp- Một vấn đề lớn mà nhiều nhà khoa học dữ liệu phải đối mặt mà không có nền tảng lý thuyết phức tạp vững chắc là thuật toán của họ không mở rộng được hoặc chỉ mất một thời gian rất dài để chạy trên dữ liệu lớn. Lấy PCA làm ví dụ, nhiều người trả lời yêu thích câu hỏi phỏng vấn "làm thế nào để bạn giảm số lượng tính năng trong tập dữ liệu của chúng tôi", nhưng ngay cả khi bạn nói với ứng viên "bộ dữ liệu thực sự rất lớn" họ vẫn đề xuất nhiều hình thức khác nhau PCA là O (n ^ 3). Nếu bạn muốn nổi bật, bạn muốn có thể tự mình giải quyết từng vấn đề, KHÔNG ném một số giải pháp sách giáo khoa vào nó được thiết kế từ lâu trước khi Big Data là một vấn đề hóc búa. Cho rằng bạn cần phải hiểu mọi thứ sẽ chạy trong bao lâu, không chỉ về mặt lý thuyết, mà còn trên thực tế - vậy làm thế nào để sử dụng một cụm máy tính để phân phối một thuật toán,

  • Kỹ năng giao tiếp - Một phần rất lớn của Khoa học dữ liệu là hiểu về kinh doanh. Cho dù đó là phát minh ra một sản phẩm được điều khiển bởi khoa học dữ liệu hay cung cấp cái nhìn sâu sắc về kinh doanh được thúc đẩy bởi khoa học dữ liệu, việc có thể giao tiếp tốt với cả Người quản lý dự án và sản phẩm, nhóm công nghệ và nhà khoa học dữ liệu của bạn là rất quan trọng. Bạn có thể có một ý tưởng tuyệt vời, nói một giải pháp AI tuyệt vời, nhưng nếu bạn không thể (a) giao tiếp hiệu quả TẠI SAO điều đó sẽ tạo ra tiền kinh doanh, (b) thuyết phục đồng nghiệp của bạn, nó sẽ hoạt động và (c) giải thích cho dân công nghệ về cách bạn cần sự giúp đỡ của họ để xây dựng nó, sau đó nó sẽ không được thực hiện.


6

Nhà khoa học dữ liệu (với tôi) một thuật ngữ ô lớn. Tôi sẽ thấy một nhà khoa học dữ liệu là một người có thể sử dụng thành thạo các kỹ thuật từ các lĩnh vực khai thác dữ liệu, học máy, phân loại mẫu và thống kê.

Tuy nhiên, các thuật ngữ đó được đan xen với nhau: học máy được gắn liền với phân loại mẫu và cũng có thể khai thác dữ liệu chồng chéo khi tìm thấy các mẫu trong dữ liệu. Và tất cả các kỹ thuật có nguyên tắc thống kê cơ bản của họ. Tôi luôn hình dung đây là sơ đồ Venn với một giao lộ lớn.

Khoa học máy tính cũng liên quan đến tất cả các lĩnh vực đó. Tôi muốn nói rằng bạn cần các kỹ thuật "khoa học dữ liệu" để thực hiện nghiên cứu khoa học máy tính, nhưng kiến ​​thức khoa học máy tính không nhất thiết phải được ngụ ý trong "khoa học dữ liệu". Tuy nhiên, kỹ năng lập trình - tôi thấy lập trình và khoa học máy tính là những ngành nghề khác nhau, trong đó lập trình là công cụ để giải quyết vấn đề - cũng rất quan trọng để làm việc với dữ liệu và tiến hành phân tích dữ liệu.

Bạn có một kế hoạch học tập thực sự tốt đẹp, và tất cả đều có ý nghĩa. Nhưng tôi không chắc nếu bạn "muốn" tự gọi mình là "nhà khoa học dữ liệu", tôi có cảm tưởng rằng "nhà khoa học dữ liệu" là một thuật ngữ mơ hồ có thể có nghĩa là tất cả mọi thứ hoặc không có gì. Điều tôi muốn truyền tải là cuối cùng bạn sẽ trở thành một thứ gì đó - chuyên biệt hơn - hơn là "chỉ" một nhà khoa học dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.