Tôi muốn tìm hiểu về lý thuyết xác suất, đo lường lý thuyết và cuối cùng là học máy. Tôi bắt đầu từ đâu? [đóng cửa]


9

Tôi muốn tìm hiểu về lý thuyết xác suất, đo lường lý thuyết và cuối cùng là học máy. Mục tiêu cuối cùng của tôi là sử dụng máy học trong một phần mềm.

Tôi đã học tính toán và xác suất rất cơ bản ở trường đại học nhưng đó là khá nhiều. Bạn có biết một số khóa học hoặc sách trực tuyến mà tôi có thể sử dụng để tìm hiểu về các chủ đề này. Tôi đã tìm thấy nhiều tài nguyên trên web nhưng tất cả chúng dường như được nhắm mục tiêu đến đối tượng chuyên gia. Tôi biết sẽ mất một chút thời gian nhưng tôi phải bắt đầu từ đâu nếu tôi muốn học lại từ đầu?



2
Ba câu hỏi này có vẻ được bao phủ khá tốt bởi các bản sao được liệt kê bởi @General.
whuber

Câu trả lời:


13

Tôi nghĩ rằng có tồn tại hai tài liệu tham khảo rất hay và phổ biến cho bạn (tôi bắt đầu với những tài liệu này cũng như có một nền tảng của bậc thầy về khoa học chuyên gia tính toán):

  1. Giới thiệu về Học thống kê (với ứng dụng trong R) của Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Nó là miễn phí có sẵn trên trang web, khá toàn diện và dễ hiểu với các ví dụ pratical. Bạn có thể bắt đầu học nhiều thứ ngay cả khi không có nền tảng thống kê rất mạnh, tài liệu tham khảo này phù hợp với nhiều loại hình khác nhau và bao gồm đủ số thuật toán phổ biến cùng với việc triển khai trong R mà không đi sâu vào chi tiết toán học.

  2. Các yếu tố của học thống kê của Trevor Hastie, Robert Tibshirani, Jerome Friedman . So với cuốn đầu tiên, cuốn sách này đi sâu hơn vào các khía cạnh toán học nếu bạn muốn khám phá thêm về các thuật toán cụ thể mà bạn thấy hữu ích cho bạn. (cũng miễn phí )

Và tất nhiên, Cross Validated là một trong những nguồn tốt nhất mà bạn có thể học được nhiều điều, đối với tôi: những điều tốt nhất, hiểu lầm và lạm dụng thống kê, và nhiều hơn nữa. Sau vài năm học tập tại các trường học / trường đại học cũng như học tập toàn diện, tôi thấy rằng sự hiểu biết của tôi quá hạn chế khi lần đầu tiên tôi đi đến Xác thực chéo. Tôi tiếp tục đến đây mỗi ngày kể từ lần đầu tiên đến thăm và học hỏi rất nhiều.


3
Nếu bạn thích những tài liệu tham khảo này, hãy chắc chắn để mắt đến các khóa học trực tuyến của Stanford. T. Hastie và R. Tibshirani thường xuyên cung cấp các khóa học liên quan đến Machine Learning.
Marcel10

Tôi đã đọc khoảng 20% ​​Giới thiệu về Học thống kê với ứng dụng trong R. Đây chính xác là những gì tôi đang tìm kiếm. Cuốn sách tuyệt vời và khá dễ hiểu. Cảm ơn bạn rất nhiều! :)
Tối đa

6

Dưới đây là một vài khóa học trực tuyến miễn phí mà tôi từng nghe rất được khuyến khích:

  • http://projects.iq.harvard.edu/stat110/home (Tùy thuộc vào sự thoải mái hiện tại của bạn với lý thuyết xác suất. Khóa học của Tiến sĩ Blitzstein đã trở nên rất phổ biến tại Harvard ngay cả đối với những người không tham gia thống kê / xác suất. một vài bài giảng cho bài đánh giá của riêng tôi và thấy chúng rất hữu ích.)
  • https://www.coursera.org/learn/machine-learning (Đây là phiên bản hiện tại của một trong những khóa học trực tuyến lớn đầu tiên của Stanford bởi Andrew Ng, người đã kết thúc khóa học đồng sáng lập Coursera. Tôi có ý định tham gia khóa học này , nhưng không có thời gian.)

5

bạn không cần lý thuyết đo lường. Lý thuyết đo lường được sử dụng bởi các nhà toán học để biện minh cho các thủ tục toán học khác, ví dụ như lấy giới hạn của các xấp xỉ tích phân. Hầu hết các kỹ sư sẽ không nghiên cứu lý thuyết đo lường, họ sẽ chỉ sử dụng kết quả. Kiến thức toán học cần thiết cho ML có đặc điểm đại khái là có thể tích hợp một Gaussian đa biến- Nếu bạn tự tin về điều đó thì có lẽ bạn có phép tính đa biến, đại số tuyến tính và lý thuyết xác suất cần thiết.

Tôi muốn giới thiệu Think Stats của Allen Downey - nhằm mục đích dạy xác suất / thống kê cho các lập trình viên. Ý tưởng là tận dụng chuyên môn lập trình để thực hiện mô phỏng và do đó hiểu lý thuyết xác suất / phương pháp thống kê. allen downey blog (anh ấy đã viết người khác) Hãy nghĩ số liệu thống kê (miễn phí) pdf )


4
Lý thuyết đo lường rất hữu ích trong các quá trình ngẫu nhiên thời gian liên tục. Trên thực tế, mọi bài báo về tài chính thời gian liên tục (định giá tài sản) đều bắt đầu bằng lời cầu nguyện sau(F,Ω,P)
Aksakal

@Aksakal không chỉ là quá trình liên tục theo ý kiến ​​của tôi!
Metariat

5

Vì bạn quan tâm đến học máy, tôi sẽ bỏ qua xác suất và mesaure, và nhảy ngay vào ML. Cours e của Andrew Ng là một nơi tuyệt vời để bắt đầu. Bạn có thể hoàn thành nó trong hai tuần.

Chơi với những gì bạn đã học được trong vài tuần, sau đó quay trở lại cội nguồn và nghiên cứu một số xác suất. Nếu bạn là một kỹ sư, thì tôi sẽ bối rối với cách bạn đã bỏ qua khi học đại học. Nó từng là khóa học bắt buộc trong kỹ thuật. Dù sao đi nữa, bạn có thể bắt kịp bằng cách tham gia khóa học MIT OCW tại đây .

Tôi không nghĩ rằng bạn cần lý thuyết đo lường. Không ai cần lý thuyết đo lường. Những người làm, họ sẽ không đến đây để hỏi, bởi vì cố vấn của họ sẽ cho họ biết nên tham gia khóa học nào. Nếu bạn không có một cố vấn thì bạn chắc chắn không cần nó. Tautology, nhưng sự thật.

Điều với một lý thuyết đo lường là bạn không thể học nó bằng cách "đọc dễ dàng". Bạn phải làm các bài tập và các vấn đề, về cơ bản, làm điều đó một cách khó khăn. Điều đó hầu như không thể ở bên ngoài phòng học, theo ý kiến ​​của tôi. Lựa chọn tốt nhất ở đây là học một lớp tại trường đại học địa phương, nếu họ cung cấp như vậy. Đôi khi, khóa học xác suất trình độ tiến sĩ sẽ thực hiện các biện pháp và xác suất trong một lớp, có lẽ là thỏa thuận tốt nhất. Tôi không khuyên bạn nên tham gia một lớp lý thuyết đo lường thuần túy trong khoa Toán, trừ khi bạn thực sự muốn tự hành hạ mình, mặc dù cuối cùng bạn sẽ rất hài lòng.


2

Đối với học máy, tôi nghĩ Machine Learning: Nghệ thuật và khoa học về thuật toán tạo cảm giác dữ liệu của Peter Flach có thể là một nguồn tài nguyên tốt để bắt đầu. Nó đưa ra một giới thiệu chung về học máy với các ví dụ trực quan, và phù hợp cho người mới bắt đầu. Tôi thích cuốn sách này đặc biệt vì chương cuối cùng, liên quan đến các thí nghiệm học máy. Trong khi học về học máy, làm quen với các mô hình khác nhau là chưa đủ, và người ta có thể so sánh các thuật toán học máy khác nhau. Tôi nghĩ cuốn sách này đã giúp dễ hiểu cách so sánh các thuật toán đó. Bài giảng có thể được tìm thấy ở đây .


2

Để thêm vào những gợi ý tuyệt vời ở trên, tôi sẽ nói nếu bạn quan tâm đến việc nắm vững các khái niệm cơ bản hơn về xác suất và thống kê, "Từ thuật toán đến Z-Scores: Tính toán xác suất trong thống kê" là một công cụ tuyệt vời trong việc sử dụng máy tính để hiểu một số khái niệm mới bắt đầu / trung gian quan trọng nhất trong lý thuyết xác suất và các quá trình ngẫu nhiên. Tôi cũng sẽ thứ hai "Giới thiệu về học thống kê" hoặc "Các yếu tố của học thống kê" (ESL) là phần giới thiệu về học máy (ML). Tôi nghĩ rằng nói riêng về ngôn ngữ học là tuyệt vời, nhưng nó có cái nhìn nặng nề hơn về toán học đối với các khái niệm ML, vì vậy nếu bạn chỉ xem mình "ổn" về số liệu thống kê, bạn có thể muốn đọc nó khi bạn đã hiểu thêm kinh nghiệm với ML.

Nếu bạn quan tâm đến Machine Learning vì mục đích được tuyển dụng hoặc giải quyết vấn đề, có được kinh nghiệm thực tiễn là chìa khóa. Giới thiệu một số giới thiệu về khoa học dữ liệu / các khóa học máy. Andrew Ng giới thiệu tuyệt vời về học máy trong khóa học của mình tại Coursera tại đây . Tôi cũng sẽ đề nghị bạn tải xuống một số bộ dữ liệu và bắt đầu chơi xung quanh chúng. Nếu bạn chưa có, hãy tải xuống R và RStudio (theo ý kiến ​​của tôi, thân thiện với người mới bắt đầu hơn Python hoặc Matlab) và đăng ký tại kaggle và thực hiện một số vấn đề về người mới bắt đầu. Họ có những hướng đi tuyệt vời có thể giúp bạn sử dụng ML mà về cơ bản không có ý tưởng gì về những gì đang thực sự xảy ra, nhưng nó cho bạn ý tưởng về loại bước bạn cần thực hiện để thực hiện giải pháp ML.

Cá nhân tôi khuyến khích sự kết hợp bắt đầu sử dụng các công cụ ML mà không thực sự biết chúng làm gì (sử dụng bộ dữ liệu Kaggle hoặc tương tự); và học các khái niệm cơ bản như xác nhận chéo, quá mức, sử dụng ma trận nhầm lẫn, các biện pháp khác nhau về mức độ tốt của một mô hình, v.v ... Đối với tôi, điều quan trọng hơn là phải biết cách sử dụng các thuật toán và biết cách xác định khi mọi thứ đang hoạt động / không hoạt động, hơn là để hiểu các thuật toán hoạt động như thế nào.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.