Khi nào nên sử dụng cái gì - Machine Learning [đã đóng]


39

Gần đây, trong một lớp học về máy học từ giáo sư Oriol Pujol tại UPC / Barcelona, ​​ông đã mô tả các thuật toán, nguyên tắc và khái niệm phổ biến nhất để sử dụng cho một loạt các nhiệm vụ liên quan đến học máy. Ở đây tôi chia sẻ chúng với bạn và hỏi bạn:

  • Có bất kỳ nhiệm vụ phù hợp khung toàn diện với các phương pháp hoặc phương pháp liên quan đến các loại vấn đề khác nhau liên quan đến máy học không?

Làm thế nào để tôi học một Gaussian đơn giản? Xác suất, biến ngẫu nhiên, phân phối; ước tính, hội tụ và tiệm cận, khoảng tin cậy.

Làm thế nào để tôi học một hỗn hợp Gaussian (MoG)? Khả năng, tối đa hóa kỳ vọng (EM); khái quát hóa, lựa chọn mô hình, xác nhận chéo; phương tiện k, mô hình markov ẩn (HMM)

Làm thế nào để tôi học bất kỳ mật độ? Ước lượng tham số so với không tham số, Sobolev và các không gian chức năng khác; l 2 lỗi; Ước tính mật độ hạt nhân (KDE), hạt nhân tối ưu, lý thuyết KDE

Làm thế nào để tôi dự đoán một biến liên tục (hồi quy)? Hồi quy tuyến tính, chính quy, hồi quy sườn và LASSO; hồi quy tuyến tính cục bộ; ước tính mật độ có điều kiện.

Làm thế nào để tôi dự đoán một biến rời rạc (phân loại)? Phân loại Bayes, Bayes ngây thơ, hào phóng và phân biệt đối xử; perceptron, giảm trọng lượng, máy vectơ hỗ trợ tuyến tính; lý thuyết phân loại hàng xóm gần nhất

Nên sử dụng chức năng mất nào? Lý thuyết ước tính khả năng tối đa; l -2 ước tính; Dự toán Bayessian; minimax và lý thuyết quyết định, chủ nghĩa Bayes vs chủ nghĩa thường xuyên

Tôi nên sử dụng mô hình nào? AIC và BIC; Lý thuyết vnnik-Chervonenskis; lý thuyết xác nhận chéo; bootstrapping; Có lẽ là lý thuyết gần đúng (PAC); Giới hạn bắt nguồn từ

Làm thế nào tôi có thể học các mô hình fancier (kết hợp)? Học tập lý thuyết; thúc đẩy; đóng bao; xếp chồng

Làm thế nào tôi có thể học các mô hình fancier (phi tuyến)? Mô hình tuyến tính tổng quát, hồi quy logistic; Định lý Kolmogorov, mô hình phụ gia tổng quát; nhân hóa, tái tạo không gian Hilbert kernel, SVM phi tuyến tính, hồi quy quy trình Gaussian

Làm thế nào tôi có thể học các mô hình fancier (sáng tác)? Mô hình đệ quy, cây quyết định, phân cụm phân cấp; mạng lưới thần kinh, truyền bá trở lại, mạng lưới niềm tin sâu sắc; mô hình đồ họa, hỗn hợp các HMM, trường ngẫu nhiên có điều kiện, mạng Markov tối đa; mô hình log-linear; ngữ pháp

Làm cách nào để giảm hoặc liên quan các tính năng? Lựa chọn tính năng so với giảm kích thước, phương pháp trình bao bọc để lựa chọn tính năng; quan hệ nhân quả và tương quan, tương quan một phần, học cấu trúc mạng Bayes

Làm cách nào để tạo các tính năng mới? phân tích thành phần chính (PCA), phân tích thành phần độc lập (ICA), nhân rộng đa chiều, học đa dạng, giảm kích thước có giám sát, học theo hệ mét

Làm cách nào để giảm hoặc liên quan đến dữ liệu? Phân cụm, phân cụm, phân cụm hạn chế; quy tắc hiệp hội và phân tích giỏ thị trường; hồi quy xếp hạng / thứ tự; phân tích liên kết; dữ liệu quan hệ

Làm thế nào để tôi điều trị chuỗi thời gian? ARMA; Bộ lọc Kalman và mô hình không gian stat, bộ lọc hạt; phân tích dữ liệu chức năng; phát hiện điểm thay đổi; xác nhận chéo cho chuỗi thời gian

Làm thế nào để tôi xử lý dữ liệu không lý tưởng? thay đổi đồng biến; mất cân bằng giai cấp; thiếu dữ liệu, dữ liệu lấy mẫu không thường xuyên, lỗi đo lường; phát hiện bất thường, mạnh mẽ

Làm cách nào để tối ưu hóa các tham số? Không bị ràng buộc so với tối ưu hóa bị ràng buộc / lồi, phương pháp không có đạo hàm, phương pháp thứ nhất và thứ hai, backfelling; độ dốc tự nhiên; tối ưu hóa ràng buộc và EM

Làm cách nào để tối ưu hóa các hàm tuyến tính? đại số tuyến tính tính toán, đảo ngược ma trận cho hồi quy, phân rã giá trị số ít (SVD) để giảm kích thước

Làm cách nào để tối ưu hóa với các ràng buộc? Độ lồi, số nhân Lagrange, điều kiện Karush-Kuhn-Tucker, phương pháp điểm bên trong, thuật toán SMO cho SVM

Làm thế nào để tôi đánh giá các khoản tiền lồng nhau sâu sắc? Suy luận mô hình đồ họa chính xác, giới hạn thay đổi trên tổng, suy luận mô hình đồ họa gần đúng, lan truyền kỳ vọng

Làm cách nào để đánh giá số tiền lớn và tìm kiếm? Các vấn đề cơ thể N tổng quát (GNP), cấu trúc dữ liệu phân cấp, tìm kiếm lân cận gần nhất, phương pháp đa nhanh; Tích hợp Monte Carlo, Chuỗi Markov Monte Carlo, Monte Carlo SVD

Làm thế nào để tôi điều trị các vấn đề thậm chí lớn hơn? EM song song / phân phối, GNP song song / phân phối; phương pháp nâng cấp ngẫu nhiên, học trực tuyến

Làm thế nào để tôi áp dụng tất cả điều này trong thế giới thực? Tổng quan về các phần của ML, lựa chọn giữa các phương pháp để sử dụng cho từng nhiệm vụ, kiến ​​thức và giả định trước đó; phân tích dữ liệu thăm dò và trực quan hóa thông tin; đánh giá và giải thích, sử dụng khoảng tin cậy và kiểm tra giả thuyết, các đường cong ROC; vấn đề nghiên cứu trong ML là ở đâu


Thực sự rộng. Tôi nghĩ rằng mỗi câu hỏi phụ phải là một câu hỏi riêng biệt để có câu trả lời có ý nghĩa.
Amir Ali Akbari

2
Câu hỏi này có thể đủ điều kiện là quá rộng hoặc không quá rộng, tùy thuộc vào cách bạn nhìn vào nó. Nếu câu hỏi ngụ ý mô tả chi tiết về các nhiệm vụ và phương pháp, thì điều đó chắc chắn sẽ rộng không chỉ cho một câu hỏi, mà ngay cả đối với một cuốn sách. Tuy nhiên, tôi không nghĩ rằng câu hỏi này ngụ ý giải thích . Tôi tin rằng câu hỏi này tìm kiếm một khung hoặc phân loại , kết hợp các nhiệm vụ với các phương pháp hoặc phương pháp ( thuật toánkhái niệm nên được bỏ qua do các vấn đề chi tiết). Từ quan điểm đó, câu trả lời này không quá rộng và do đó, IMHO là hợp lệ.
Alexanderr Blekh

@AleksandrBlekh Chính xác là một khung của loại bạn đề cập là ý định của câu hỏi. Tôi đang chỉnh sửa nó để làm rõ. Cảm ơn bạn
Javierfdr

@Javierfdr: Bạn được chào đón.
Alexanderr Blekh

@SeanOwen Tôi đã sửa đổi câu hỏi chính. Xin vui lòng cho tôi biết nếu vẫn còn rộng và tôi sẽ cần phải làm cho nó sắc nét hơn. Cám ơn!
Javierfdr

Câu trả lời:


6

Tôi đồng ý với @geogaffer. Đây là một danh sách rất tốt, thực sự. Tuy nhiên, tôi thấy một số vấn đề với danh sách này vì nó hiện đang được xây dựng. Ví dụ, một vấn đề là các giải pháp được đề xuất có mức độ chi tiết khác nhau - một số trong số chúng đại diện cho các cách tiếp cận , một số - phương pháp , một số - thuật toán và một số khác - chỉ là các khái niệm (nói cách khác, thuật ngữ trong thuật ngữ tên miền của một chủ đề). Ngoài ra, - và tôi tin rằng điều này quan trọng hơn nhiều so với ở trên - tôi nghĩ rằng nó sẽ có giá trị, nếu tất cả các giải pháp trong danh sách được sắp xếp trong một khung thống kê chuyên đề thống nhất. Ý tưởng này được lấy cảm hứng từ việc đọc một cuốn sách xuất sắc của Lisa Harlow "Bản chất của suy nghĩ đa biến". Do đó, gần đây tôi đã bắt đầu một cuộc thảo luận tương ứng, mặc dù hiện tại có phần hạn chế, trên trang web Xác thực chéo của StackExchange . Đừng để tiêu đề làm bạn bối rối - ý định và hy vọng ngụ ý của tôi là xây dựng một khuôn khổ thống nhất , như đã đề cập ở trên.


Khung mà bạn đề cập sẽ là một điều tuyệt vời để có! Có điều gì tương tự đang được viết?
Javierfdr

@Javierfdr: Không có gì tôi biết. Tuy nhiên, tôi tiếp tục tìm kiếm.
Alexanderr Blekh

@AleksandrBlekh càng nghĩ về nó, tôi càng nghĩ rằng việc tìm kiếm một khung thống kê là sai lầm. Xem câu trả lời của Frank Harrell về câu hỏi của bạn và câu trả lời của tôi cho câu hỏi này. Nhưng cuốn sách của Harlow nghe có vẻ rất thú vị và tôi sẽ lấy nó từ thư viện trong tuần này.
Shadowtalker

1
@ssdecontrol: Tôi tôn trọng không đồng ý. Giả sử rằng khung như vậy không tồn tại (rất có thể là trường hợp hiện tại) và nhận ra rằng đó không phải là một nhiệm vụ dễ dàng để tạo ra nó, tuy nhiên tôi tin tưởng rằng nó rất có thể, tuy nhiên. Đối với các câu trả lời bạn đã đề cập (tôi luôn đọc tất cả chúng), tôi đã đọc cả hai, nhưng chúng không chứng minh rằng việc tạo khung như vậy là không thể - chỉ là khó khăn, như tôi đã đề cập. Đó không phải là thứ nên ngăn mọi người nghĩ về nó và thậm chí làm việc theo hướng đó. Thưởng thức cuốn sách của Harlow.
Alexanderr Blekh

3

Đó là một danh sách tốt bao gồm rất nhiều. Tôi đã sử dụng một số phương pháp này từ trước khi mọi thứ được gọi là học máy và tôi nghĩ bạn sẽ thấy một số phương pháp bạn liệt kê ra vào sử dụng theo thời gian. Nếu một phương pháp không được ưa chuộng quá lâu, đó có thể là thời gian để xem xét lại. Một số phương pháp có thể che giấu đằng sau các tên khác nhau do các lĩnh vực nghiên cứu khác nhau.

Một trong những lĩnh vực chính tôi đã sử dụng các phương pháp này là trong mô hình hóa tiềm năng khoáng sản, đó là không gian địa lý và để hỗ trợ bạn có thể thêm một số danh mục bổ sung liên quan đến phương pháp dữ liệu không gian và định hướng.

Đưa câu hỏi rộng của bạn đến các lĩnh vực cụ thể có thể sẽ là nơi bạn tìm thấy nhiều ví dụ về các phương thức không có trong danh sách toàn diện của bạn. Ví dụ, hai phương pháp tôi đã thấy trong tiềm năng khoáng sản là hồi quy từng bước và trọng số của mô hình bằng chứng. Tôi không phải là một nhà thống kê; có lẽ những điều này sẽ được coi là được đề cập trong danh sách theo phương pháp hồi quy tuyến tính và phương pháp Bayes.


1

Tôi nghĩ rằng cách tiếp cận của bạn là một chút ngược.

"Ý nghĩa của phân phối Gaussian phù hợp với dữ liệu này là gì?" không bao giờ là câu lệnh vấn đề, vậy "làm thế nào để tôi phù hợp với một Gaussian?" không bao giờ là vấn đề bạn thực sự muốn giải quyết.

Sự khác biệt là nhiều hơn ngữ nghĩa. Hãy xem xét câu hỏi "làm thế nào để tôi xây dựng các tính năng mới?" Nếu mục tiêu của bạn là phát triển một chỉ mục, bạn có thể sử dụng một số loại phân tích nhân tố. Nếu mục tiêu của bạn chỉ đơn giản là giảm không gian tính năng trước khi lắp mô hình tuyến tính, bạn có thể bỏ qua bước hoàn toàn và sử dụng hồi quy mạng đàn hồi thay thế.

Một cách tiếp cận tốt hơn sẽ là biên soạn một danh sách các nhiệm vụ phân tích dữ liệu thực tế mà bạn muốn có thể giải quyết . Những câu hỏi như:

Làm cách nào để dự đoán liệu khách hàng có quay lại trang web mua sắm của tôi không?

Làm thế nào để tôi biết có bao nhiêu mô hình mua sắm tiêu dùng "chính", và chúng là gì?

Làm cách nào để tạo một chỉ mục "biến động" cho các mặt hàng khác nhau trong cửa hàng trực tuyến của tôi?

Ngoài ra danh sách của bạn ngay bây giờ bao gồm một lượng lớn tài liệu; quá nhiều để "xem xét" và đạt được nhiều hơn một sự hiểu biết ở cấp độ bề mặt. Có một mục đích thực tế trong tâm trí có thể giúp bạn sắp xếp các ưu tiên của bạn.


Tôi hiểu những gì bạn nói @ssdecontrol, thực sự có một danh sách toàn diện về giải pháp cho các vấn đề điển hình như bạn đề cập cũng có thể rất hữu ích. Bây giờ, sự khác biệt chính giữa hai cách tiếp cận là những gì tôi đề xuất có liên quan trực tiếp đến các câu hỏi kỹ thuật mà bạn có thể tự hỏi khi bạn đang thử các lựa chọn thay thế, và trong đó bạn đã đưa ra một số giả định. Vì vậy, nếu bạn đã giả định rằng các tính năng của bạn không phải là gaussian, tôi có nên sử dụng PCA để giảm kích thước không? Không. Cách tiếp cận của bạn rộng hơn: Sử dụng gì cho mờ. giảm -> PCA, nhưng giả sử các tính năng gaussian. Thx
Javierfdr

@Javierfdr quan điểm của tôi là các câu hỏi kỹ thuật là một sự phân tâm nếu bạn không có một câu hỏi thực sự trong tâm trí.
Shadowtalker
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.