Làm thế nào để tự học khoa học dữ liệu? [đóng cửa]


16

Tôi là một nhà phát triển web tự học và quan tâm đến việc dạy bản thân khoa học dữ liệu, nhưng tôi không chắc chắn về cách bắt đầu. Đặc biệt, tôi đang tự hỏi:

  1. Những lĩnh vực nào có trong khoa học dữ liệu? (ví dụ: Trí tuệ nhân tạo, học máy, phân tích dữ liệu, v.v.)
  2. Có lớp học trực tuyến mọi người có thể giới thiệu?
  3. Có các dự án có sẵn ngoài đó mà tôi có thể thực hành (ví dụ: bộ dữ liệu mở).
  4. Có những chứng nhận nào tôi có thể nộp đơn hoặc hoàn thành?

Câu trả lời:


15

Chào mừng đến với trang web, Martin! Đó là một câu hỏi khá rộng, vì vậy bạn có thể sẽ nhận được nhiều câu trả lời khác nhau. Đây là của tôi.

  1. Khoa học dữ liệu là một lĩnh vực liên ngành thường được cho là kết hợp giữa thống kê cổ điển, học máy và khoa học máy tính (một lần nữa, điều này phụ thuộc vào người bạn hỏi, nhưng khác có thể bao gồm trí thông minh kinh doanh ở đây, và có thể hình dung thông tin hoặc khám phá kiến ​​thức; bài viết trên wikipedia về khoa học dữ liệu ). Một nhà khoa học dữ liệu giỏi cũng có kỹ năng chọn ra các đặc điểm của miền cụ thể của miền mà họ làm việc. Ví dụ, một nhà khoa học dữ liệu làm việc về phân tích hồ sơ bệnh viện sẽ hiệu quả hơn nhiều nếu họ có nền tảng về Tin học y sinh.
  2. Có nhiều tùy chọn ở đây, tùy thuộc vào loại phân tích mà bạn quan tâm. Khóa học coursera của Andrew Ng là tài nguyên đầu tiên được đề cập bởi hầu hết , và đúng như vậy. Nếu bạn quan tâm đến học máy, đó là nơi khởi đầu tuyệt vời. Nếu bạn muốn khám phá chuyên sâu về toán học có liên quan, Các yếu tố học tập thống kê của Tibshirani là văn bản tuyệt vời, nhưng khá tiên tiến. Có nhiều khóa học trực tuyến có sẵn trên coursera ngoài Ng's, nhưng bạn nên chọn chúng với mục đích phân tích loại bạn muốn tập trung vào và / hoặc tên miền mà bạn dự định làm việc.
  3. Kaggle . Bắt đầu với kaggle, nếu bạn muốn tìm hiểu thêm về một số vấn đề phân tích trong thế giới thực. Tùy thuộc vào trình độ chuyên môn của bạn, mặc dù có thể tốt hơn để bắt đầu đơn giản hơn. Project Euler là một nguồn tài nguyên tuyệt vời cho các vấn đề thực hành một lần mà tôi vẫn sử dụng làm công việc khởi động.
  4. Một lần nữa, điều này có thể phụ thuộc vào miền bạn muốn làm việc. Tuy nhiên, tôi biết Coursera cung cấp chứng chỉ khoa học dữ liệu, nếu bạn hoàn thành một loạt các khóa học liên quan đến khoa học dữ liệu. Đây có lẽ là một nơi tốt để bắt đầu.

Chúc may mắn! Nếu bạn có bất kỳ câu hỏi cụ thể nào khác, vui lòng hỏi tôi trong các nhận xét và tôi sẽ làm hết sức mình để giúp đỡ!


1
Trở lại này, dĩ nhiên Andrew Ngkhó khăn . Tôi nên đề cập đến việc tôi không mạnh về toán học. Tôi đã nghe nói rằng khóa học Khoa học dữ liệu khác này dễ dàng hơn một chút để học các sợi dây. Bạn nghĩ sao?
Martin

5

Tôi là một nhà khoa học dữ liệu tự học và tôi sẽ cố gắng hết sức để giải thích cho bạn cách thực hiện.


Những lĩnh vực nào có trong khoa học dữ liệu? (ví dụ: Trí tuệ nhân tạo, học máy, phân tích dữ liệu, v.v.)

Khoa học dữ liệu là một lĩnh vực rất rộng. Đó là về khoa học dữ liệu. Vì vậy, bất kỳ lĩnh vực nào sử dụng dữ liệu để đưa ra quyết định đều thuộc miền này. Một số lĩnh vực bao gồm:

  • AI
  • Nhận dạng và phân tích mẫu
  • Thống kê sinh học
  • Học thống kê
  • Học máy
  • Thẩm mỹ dữ liệu (hoặc trực quan hóa dữ liệu)
  • Báo chí dữ liệu

Có lớp học trực tuyến mọi người có thể giới thiệu?

Tôi đã trả lời một câu hỏi tương tự . Vì vậy, tôi muốn trích dẫn nó ở đây:

Bắt đầu với khóa học Machine Learning của Coursera . Nó thực sự làm rất tốt trong việc giới thiệu cho sinh viên về lĩnh vực Machine Learning và giúp bạn đặt nền tảng vững chắc trong các khái niệm.

Trong trường hợp, bạn cảm thấy rằng toán học hơi bị câm trong khóa học đó, bạn có thể tham gia khóa học này , được dạy bởi cùng một giáo sư và chuyên sâu về toán học hơn trước đây.

Bây giờ, bạn sẽ có một trực giác rõ ràng về các khái niệm cơ bản của Machine Learning. Bây giờ, hãy tham gia khóa học này , có thể nói là tiếp theo hoặc bổ sung cho khóa học của Andrew Ng.

Tài nguyên này từ IAPR có các ghi chú chuyên sâu về rất nhiều khái niệm ML như xác thực chéo, chính quy hóa, v.v.

Bạn cũng có thể xem danh sách các tài nguyên tuyệt vời này được biên soạn thành một blog trên Quora.

Bây giờ, để đi sâu vào các khái niệm nâng cao về mạng lưới thần kinh và học sâu, bạn có thể sử dụng cuốn sách miễn phí này .

Cuối cùng, cuốn sách điện tử miễn phí: Các yếu tố của học thống kê là một cuốn sách tuyệt vời cho người mới bắt đầu học ML hoặc học thống kê.

Tôi cũng thêm vào đó, hãy kiểm tra kho lưu trữ tài liệu tham khảo khoa học dữ liệu này của Quora .


Có các dự án có sẵn ngoài đó mà tôi có thể thực hành (ví dụ: bộ dữ liệu mở).

Tôi đã bắt đầu thực hiện các dự án với các bộ dữ liệu mở của Ấn Độ. Tuy nhiên, tôi khuyên bạn nên xem cuộc thảo luận tuyệt vời này ở đây và sau khi thực hiện các dự án đó, bạn có thể bắt đầu với Kaggle.


Có những chứng nhận nào tôi có thể nộp đơn hoặc hoàn thành?

Theo tôi, không có bất kỳ chứng chỉ khoa học dữ liệu nào . Vâng, có rất nhiều chứng chỉ Dữ liệu lớn ngoài kia, nhưng tôi không thấy chúng thực sự hữu ích cho một nhà khoa học dữ liệu vừa chớm nở, vì vậy tôi khuyên bạn không nên theo đuổi chúng ít nhất cho đến khi bạn đủ tự tin với kỹ năng ML và dữ liệu của mình.


1

Tôi khuyên bạn nên bắt đầu từ các chuyên ngành Coursera trong khoa học dữ liệu. Chuyên ngành khoa học dữ liệu của Johns Hopkins là chuyên ngành lâu đời nhất. Tôi không giới thiệu sách và kaggle. Họ chỉ làm bạn bối rối khi bắt đầu. Hãy nhớ rằng mã hóa là phần dễ nhất của khoa học dữ liệu và bạn phải học hỏi rất nhiều. Để có được một ý tưởng về lĩnh vực này, Sơ đồ Venn này là một khởi đầu tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.