Thống kê cho máy học, giấy tờ để bắt đầu?


10

Tôi có một nền tảng về lập trình máy tính và lý thuyết số cơ bản, nhưng không được đào tạo thống kê thực sự và gần đây đã "phát hiện" rằng thế giới tuyệt vời của toàn bộ các kỹ thuật thực sự là một thế giới thống kê. Dường như các yếu tố ma trận, hoàn thành ma trận, tenxơ cao, nhúng, ước lượng mật độ, suy luận Bayes, phân vùng Markov, tính toán eigenvector, PageRank đều là các kỹ thuật thống kê cao và thuật toán học máy sử dụng những thứ đó, sử dụng rất nhiều số liệu thống kê .

Mục tiêu của tôi là có thể đọc các bài báo thảo luận về những điều đó, và thực hiện hoặc tạo ra các thuật toán, trong khi hiểu các ký hiệu, "bằng chứng" và các đối số thống kê được sử dụng. Tôi đoán điều khó nhất là tuân theo tất cả các bằng chứng liên quan đến ma trận.

Những giấy tờ cơ bản có thể giúp tôi bắt đầu? Hoặc một cuốn sách giáo khoa tốt với các bài tập đáng để làm việc thông qua?

Cụ thể, một số giấy tờ tôi muốn hiểu hoàn toàn là:

  1. Hoàn thành ma trận chính xác thông qua tối ưu hóa lồi, Candes, Recht, 2008
  2. Biến đổi nhanh Cauchy và hồi quy tuyến tính mạnh mẽ nhanh hơn, Clarkson và cộng sự, 2013
  3. Dự đoán ngẫu nhiên cho các máy Vector hỗ trợ, Paul et al, 2013
  4. Ước tính xác suất chiều cao với các mô hình mật độ sâu, Rippel, Adams, 2013
  5. Có được các ước tính tối thiểu hóa lỗi và các giới hạn lỗi phổ biến cho việc hoàn thành ma trận cấp thấp, Király, Theran, 2013

1
Bạn đã quen thuộc với ma trận, ví dụ, thông qua một khóa học đại số tuyến tính được áp dụng, hoặc đó là một phần của những gì bạn đang tìm hiểu? Tôi muốn nói rằng nửa đầu của danh sách bạn đưa ra là những chủ đề quan trọng trong thống kê hơn là kỹ thuật thống kê cao (điều này khiến tôi đi theo hướng ngược lại). Có một số câu hỏi ở đây trên các cuốn sách được đề nghị cho việc học máy học thống kê. Tôi khuyên bạn nên cung cấp một ví dụ hoặc hai trong số các giấy tờ cụ thể mà bạn gặp phải mà bạn muốn hiểu; Điều đó sẽ giúp tập trung tốt hơn các câu trả lời bạn nhận được.
Đức hồng y

2
Đúng, quen thuộc với ma trận, thông qua đại số tuyến tính và với các khái niệm về không gian vectơ, cơ sở, định mức, nhưng tôi không hiểu đầy đủ những thứ như nhân tố LU, mặc dù tôi khá rõ về trực giao hóa Gram-Schmidt và thuật toán QR không được tối ưu hóa, mặc dù không hoàn toàn rõ ràng về lý do tại sao họ làm việc. Ngoài ra, tôi không hiểu làm thế nào mọi người có thể rút ra các hàm riêng cho một ma trận ngẫu nhiên mà không cần thực hiện thuật toán eigenvector trên nó.
Cris Stringfellow

Câu trả lời:


2

Tôi muốn giới thiệu khóa học Andrew Ngs Machine Learning trên Coursera, đây là một phạm vi bao quát tuyệt vời trên tất cả các điều cơ bản. Nếu bạn đang nghiên cứu bất cứ điều gì để làm với các mô hình đồ họa xác suất, khóa học Daphne Kollers sẽ rất tốt để xem xét.

Đây cũng là một kho báu cho các tài nguyên tự học http://ragle.sanukcode.net/articles/machine-learning-elf-study-resource/ Các bài giảng của Herb Grossman rất tuyệt vời.

Tôi cũng đã được giới thiệu cuốn sách này https://www.openintro.org/stat/textbook.php vì tôi vẫn luôn tự học và số liệu thống kê không phải là nền tảng của tôi!

Hai xu của tôi là mặt toán học của các thứ và giấy tờ mặc dù không bị cuốn vào các nền toán học. Tìm hiểu những điều cơ bản và tham khảo các giấy tờ mà những bài báo mà bạn đề cập được xây dựng và xem chúng có dễ dàng hơn không (có thể bạn sẽ phải quay lại một vài bài để nhận được những gì bạn có thể hiểu - đó là những gì tôi tự làm) có rất nhiều các yếu tố toán học khác nhau trong ML và thật dễ dàng để bị hút xuống một cái hố thỏ (một lần nữa điều mà tôi đã tự mình làm hơn một lần!).

Điều may mắn nhất, đó là một lĩnh vực thực sự thú vị!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.