Các thuật toán nóng của Cameron là gì cho máy học?


14

Đây là một câu hỏi ngây thơ từ một người bắt đầu học máy học. Tôi đang đọc những cuốn sách "Học máy: Một viễn cảnh thuật toán" từ Marsland. Tôi thấy nó hữu ích như một cuốn sách giới thiệu, nhưng bây giờ tôi muốn đi sâu vào các thuật toán tiên tiến, những thuật toán hiện đang cho kết quả tốt nhất. Tôi chủ yếu quan tâm đến tin sinh học: phân cụm các mạng lưới sinh học và tìm ra các kiểu trong các trình tự sinh học, đặc biệt được áp dụng cho phân tích đa hình đơn nucleotide (SNP). Bạn có thể giới thiệu cho tôi một số đánh giá hoặc sách để đọc?

Câu trả lời:


15

Deep Learning đã tập trung rất nhiều kể từ năm 2006. Về cơ bản, đây là một cách tiếp cận để đào tạo các mạng lưới thần kinh sâu sắc và dẫn đến kết quả thực sự ấn tượng trên các bộ dữ liệu rất khó (như phân cụm tài liệu hoặc nhận dạng đối tượng). Một số người đang nói về sự phục hưng mạng thần kinh thứ hai (ví dụ như trong cuộc nói chuyện trên Google này của Schmidhuber).

Nếu bạn muốn được ấn tượng, bạn nên xem bài báo Khoa học này về Giảm kích thước của dữ liệu với Mạng thần kinh, Hinton & Salakhutdinov.

(Hiện tại có rất nhiều công việc đang diễn ra ở khu vực đó, chỉ có hai cuốn sách sắp tới mà tôi biết về nó sẽ xử lý nó: Học máy quy mô lớn , Langford et al và Machine Learning: một viễn cảnh xác suất của Kevin Murphy.)

Nếu bạn muốn biết thêm, hãy xem các nhóm học sâu chính đang làm gì: Stanford , Montreal và quan trọng nhất là Toronto # 1Toronto # 2 .


8

Hầu hết các câu trả lời được đưa ra cho đến nay đều đề cập đến "Học có giám sát" (tức là nơi bạn có nhãn cho một phần của tập dữ liệu của mình, mà bạn có thể sử dụng để đào tạo các thuật toán). Câu hỏi được đề cập cụ thể về phân cụm, đó là một cách tiếp cận "Không giám sát" (nghĩa là không có nhãn nào được biết trước). Trong kịch bản này, tôi khuyên bạn nên xem xét:

  • k-nghĩa và nhân k-nghĩa
  • Phân cụm liên kết
  • Hệ số ma trận không âm
  • Phân bổ Dirichlet tiềm ẩn
  • Quy trình Dirichlet và Quy trình Dirichlet phân cấp

Nhưng thực tế có lẽ bạn sẽ thấy rằng độ tương tự / khoảng cách của bạn quan trọng hơn thuật toán cụ thể bạn sử dụng.

Nếu bạn có một số dữ liệu được dán nhãn, thì phương pháp "Học bán giám sát" đang trở nên phổ biến và có thể rất mạnh mẽ. Một điểm khởi đầu tốt cho SSL là LapSVM (Máy Vector Hỗ trợ Laplacian).


7

Đây là những cuốn sách có thể hữu ích:

  • Giới thiệu về Khai thác dữ liệu của Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Đây là cuốn sách được đề xuất trong các lớp Khai thác dữ liệu của tôi tại trường đại học. Tôi thích cách bố trí của nó và cách tiếp cận lý thuyết;
  • Khai thác dữ liệu: Các công cụ và kỹ thuật máy học thực tế của Ian H. Witten, Eibe Frank, Mark A. Hall. Một cuốn sách rất thú vị. Cuốn sách này cũng bao gồm nhiều kỹ thuật được triển khai với Khung khai thác dữ liệu WEKA ;
  • Học máy của Thomas Mitchell. Đó là một cuốn sách hơi cũ nhưng nó có thể hữu ích.

Sau đó, hãy nhớ rằng bạn có thể tham dự các lớp học máy miễn phí tại Stanford vừa mới bắt đầu: www.ml- class.com .

Và đối với vấn đề cụ thể của bạn, đó là phân tích SNP, tôi khuyên bạn nên xem xét nhóm của Di Camillo tại Đại học Padova.


5

Dưới đây là một bài viết và cuốn sách tuyệt vời giải thích lý do, lý thuyết và ứng dụng của hầu hết các phương pháp phổ biến nhất:

10 thuật toán hàng đầu trong khai thác dữ liệu

Nó đặc biệt gọn gàng vì đây là "top 10" được lựa chọn bởi các chuyên gia bỏ phiếu trong lĩnh vực này.

Ngoài ra, đối với dữ liệu gen nói chung, việc lựa chọn tính năng cực kỳ quan trọng vì có nhiều tính năng. Ví dụ, loại bỏ tính năng đệ quy SVM (SVM-RFE) và các phương pháp liên quan rất phổ biến và được tích cực phát triển và áp dụng trong bối cảnh dữ liệu gen.


4

Cây được tăng cường và một số hình thức của Svm giành chiến thắng rất nhiều cuộc thi, nhưng nó luôn đi vào bối cảnh. Manifold chính quy là trên tiên tiến là tốt.


4

Tôi đề xuất "Các yếu tố của học thống kê", bởi Hastie, Tibshirani và Friedman. Đừng chỉ đọc nó, chơi với một số thuật toán được mô tả bởi chúng (hầu hết chúng được triển khai trong R hoặc thậm chí bạn có thể tự thực hiện một số) và tìm hiểu các điểm mạnh và yếu của chúng.



3

Các quy trình Gaussian cho Machine Learning của Rasmussen và Williams (MIT Press) là phải. Các quy trình Gaussian là một trong những thuật toán nóng cho học máy hiện nay có sẵn thuật toán Tuyên truyền kỳ vọng và các thuật toán suy luận đa dạng. Cuốn sách được viết rất tốt, có hộp công cụ MATLAB miễn phí (bộ công cụ tốt) và cuốn sách có thể được tải xuống miễn phí.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.