Những môn toán nào bạn muốn đề xuất để chuẩn bị khai thác dữ liệu và học máy?


30

Tôi đang cố gắng kết hợp một chương trình toán tự định hướng để chuẩn bị cho việc học khai thác dữ liệu và học máy. Điều này được thúc đẩy bằng cách bắt đầu lớp học máy của Andrew Ng trên Coursera và cảm thấy rằng trước khi tiếp tục, tôi cần phải cải thiện các kỹ năng toán học của mình. Tôi đã tốt nghiệp đại học cách đây một thời gian nên đại số và số liệu thống kê của tôi (cụ thể là từ các lớp khoa học chính trị / tâm lý học) bị hoen gỉ.

Các câu trả lời trong chủ đề Là một nền tảng vững chắc trong toán học có phải là một điều cần thiết cho ML không? chỉ đề xuất sách hoặc lớp học liên quan trực tiếp đến học máy; Tôi đã xem xét một số lớp và sách đó và không biết chính xác môn học nào cần học (ví dụ: trường nào của địa chỉ toán học có được một phương trình để "tối thiểu hóa hàm chi phí"?). Các chủ đề khác được đề xuất ( Kỹ năng & khóa học cần thiết để trở thành một nhà phân tích dữ liệu ) chỉ đề cập đến các loại kỹ năng cần thiết để phân tích dữ liệu. Chủ đề Giới thiệu về thống kê cho các nhà toán học không áp dụng vì tôi chưa có bằng cấp về toán; một chủ đề tương tự Nhà toán học muốn có kiến ​​thức tương đương với mức độ thống kê chất lượng có một danh sách đáng kinh ngạc về các cuốn sách thống kê, nhưng một lần nữa, tôi đang xem xét việc bắt đầu toán học từ một hồi ức rỉ sét của đại số và tiến lên từ đó.

Vì vậy, đối với những người làm việc trong học máy và khai thác dữ liệu, lĩnh vực toán học nào bạn thấy cần thiết để thực hiện công việc của mình? Những môn toán nào bạn muốn đề xuất để chuẩn bị cho việc khai thác dữ liệu và học máy, và theo thứ tự nào? Đây là danh sách và thứ tự tôi có cho đến nay:

  • Đại số học
  • Tính toán trước
  • Giải tích
  • Đại số tuyến tính
  • Xác suất
  • Thống kê (nhiều trường con khác nhau ở đây, nhưng không biết cách loại bỏ chúng)

Đối với việc khai thác dữ liệu và học máy, thông qua công việc hiện tại của tôi, tôi có quyền truy cập vào các hồ sơ về hoạt động của trang web / ứng dụng, giao dịch khách hàng / đăng ký và dữ liệu bất động sản (cả tĩnh và chuỗi thời gian). Tôi hy vọng sẽ áp dụng khai thác dữ liệu và học máy cho các bộ dữ liệu này.

Cảm ơn bạn!

CHỈNH SỬA:

Vì lợi ích của hậu thế, tôi muốn chia sẻ một bản tự đánh giá toán học hữu ích cho lớp Giới thiệu về Máy học của Geoffrey Gordon / Alex Smola tại CMU.


3
Xét về các điều kiện tiên quyết cho các lớp Coursera, thông tin đó nên có sẵn ở đâu đó trong tài liệu của họ. Bên ngoài các lớp học của họ / nói chung hơn, câu hỏi về toán học mà bạn cần cho stat / ML / DM đánh vào tôi như một bản sao. Có một số chủ đề trên CV bao gồm tài liệu này, bao gồm: is-a-strong-nền-in-maths-a-constisite-for-ml , & skill-Coursework-cần-to-a-data-phân tích ( có lẽ trong số những người khác).
gung - Phục hồi Monica

1
Vui lòng xem lại các chủ đề đó, các chủ đề được liên kết ở đó có liên quan chặt chẽ và có thể tìm kiếm trang web. Nếu bạn vẫn còn một câu hỏi sau khi đọc xung quanh, hãy quay lại đây và chỉnh sửa Q này để làm cho nó khác biệt hơn / chỉ định chính xác hơn những gì bạn vẫn cần biết mà không được đề cập ở nơi khác.
gung - Phục hồi Monica

Câu trả lời:


15

Những gợi ý mà @gung đưa ra chắc chắn đáng để theo dõi. Đã thực hiện khóa học coursera, tôi nghĩ rằng danh sách của bạn là một khởi đầu tốt. Một vài bình luận:

  1. đại số tuyến tính và đại số ma trận là cùng một thứ, vì vậy bỏ cái sau.
  2. trong tính toán hãy chắc chắn bao gồm sự khác biệt một phần. Đây là phép tính được áp dụng cho các hàm của nhiều hơn một biến (về mặt tượng trưng, ​​nếu, giả sử, là hàm của và thì bạn muốn thay vì ). May mắn là điều này không khó.zxyzxdzdx
  3. trong tính toán, bạn không cần bất cứ điều gì ngoài tích hợp cơ bản (và thậm chí có thể không). Điều này là may mắn vì hội nhập là khó khăn.
  4. thêm tối ưu hóa cơ bản, tức là tìm tối đa hoặc tối thiểu của một hàm, thường là một hàm có nhiều hơn một biến. Một sự đánh giá cao về độ dốc ít nhất là rất cần thiết.
  5. về độ khó bạn có thể muốn ở đâu đó giữa đầu và cuối năm thứ nhất đại học.
  6. cố gắng đọc một số văn bản xác suất và thống kê cơ bản, trực tuyến hoặc cách khác, nhưng đừng quá lo lắng (toán học cơ bản dù sao cũng là điều kiện tiên quyết để hiểu xác suất và thống kê). Nếu bạn thực hiện một số khóa học như khóa học bạn đề xuất, bạn sẽ tìm ra những gì bạn cần học và sở thích của bạn nằm ở đâu. Một điều bạn không muốn làm, ít nhất là lúc đầu, là dành nhiều thời gian để tìm hiểu về kiểm tra giả thuyết. Bạn muốn hướng đến việc hiểu các số liệu thống kê cơ bản - các biến ngẫu nhiên, phân phối xác suất (PFD, CDF), thống kê mô tả - và sau đó cố gắng hiểu hồi quy.

5

Có một số chủ đề tuyệt vời trên diễn đàn này - bao gồm MỘT NÀY mà tôi thấy đặc biệt hữu ích cho tôi trong việc phát triển một phác thảo khái niệm về các kỹ năng quan trọng cho công việc khoa học dữ liệu.

Như đã đề cập ở trên, có rất nhiều khóa học trực tuyến có sẵn. Ví dụ, Coursera hiện có Chuyên ngành Khoa học Dữ liệu với một số khóa học có thể bao gồm một số công cụ bạn cần cho công việc của mình.


3

Nếu bạn đang tìm cách tăng số lượng lớn cho việc học máy / khai thác dữ liệu, tôi rất mong muốn tối ưu hóa / đại số tuyến tính / thống kê và xác suất. Dưới đây là danh sách các cuốn sách cho xác suất. Mong rằng sẽ giúp.


3

Theo như kỹ năng toán học rất cơ bản, tôi đang sử dụng những cuốn sách này:

Các yếu tố của Toán học cho Kinh tế và Tài chính. Mavron, Vassilis C., Phillips, Timothy N Cuốn sách này bao gồm các kỹ năng toán học thiết yếu (cơ số bổ sung), để phân biệt một phần, tích hợp, ma trận và các định thức, và một chương nhỏ về tối ưu hóa, và cả phương trình vi phân. Nó nhắm đến kinh tế và tài chính, nhưng đó là một cuốn sách nhỏ, chuỗi chương phù hợp với nhu cầu của tôi và dễ đọc đối với tôi.

Phân tích thống kê: Microsoft Excel 2010. Conrad Carlberg Bao gồm phân tích thống kê cơ bản, để hồi quy bội và phân tích hiệp phương sai, và nó sử dụng excel.

Khám phá thống kê bằng cách sử dụng R. Andy Field, Jeremy Miles, Zoë Field. Chưa đọc nó. Nó sử dụng R.

Đại số tuyến tính sơ cấp. Ron Larson, David C. Falvo.

Phương pháp ma trận: Đại số tuyến tính ứng dụng của Richard Bronson, Gabriel B. Costa. bao gồm đại số tuyến tính cơ bản và tính toán ma trận

Đó là những cuốn sách toán học cơ bản mà tôi sử dụng để liên quan đến khai thác dữ liệu / học máy

Hi vọng điêu nay co ich


3

Có khá nhiều tài nguyên có liên quan được liệt kê (và phân loại) ở đây , tại cái gọi là "Bậc thầy khoa học dữ liệu nguồn mở".

Cụ thể cho toán học họ liệt kê:

  1. Đại số tuyến tính & lập trình
  2. Số liệu thống kê
  3. Phương trình vi phân & phép tính

Các khuyến nghị khá chung chung, mặc dù chúng liệt kê một số sách giáo khoa mà bạn có thể thấy hữu ích.


2
  • Xác suất và thống kê là rất cần thiết. Một số từ khóa là kiểm tra giả thuyết, phân phối chuẩn nhiều biến số, suy luận Bayes (xác suất chung, xác suất có điều kiện), trung bình, phương sai, hiệp phương sai, phân kỳ Kullback-Leibler, ...
  • Đại số tuyến tính cơ bản là cần thiết cho máy học. Các chủ đề mà bạn có thể tìm hiểu là phân tách Eigen và phân tách giá trị số ít. (Tất nhiên bạn nên biết cách tính toán một sản phẩm ma trận.)
  • Như TooTone đã đề cập: tối ưu hóa là quan trọng. Bạn nên biết độ dốc gốc là gì và có thể xem phương pháp của Newton, Levenberg-Marquest, Broyden-Fletcher-Goldfarb-Shanno.
  • Giải tích không quan trọng lắm nhưng có thể hữu ích khi biết cách tính các đạo hàm riêng của các hàm (ma trận Jacobi, ma trận hut, ...) và bạn nên biết tích phân là gì.

0

Đại số tuyến tính, số liệu thống kê, tính toán. Tôi nghĩ bạn có thể học chúng theo song song w / ML - hoặc thậm chí sau những điều cơ bản. Các khóa học / sách khởi đầu làm rất tốt với các chương sơ khai toán học, và bạn học các yếu tố cần thiết trong toán học khi học ML. Tôi đã thực hiện một tập podcast về toán học bạn cần cho học máy và các tài nguyên để học chúng: Hướng dẫn học máy # 8


0

Trước khi bắt đầu bất kỳ khóa học máy học, hãy đi qua khóa học toán học. Cũng đừng cố gắng đào trong nỗ lực duy nhất. Học các khái niệm cơ bản sau đó một lần nữa cải thiện các kỹ năng toán học của bạn và lặp lại: -

Các chủ đề toán học như sau: -

  • Đại số tuyến tính
  • Xác suất
  • Tính toán cơ bản
  • Cực đại và cực tiểu của hàm
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.