Những thuật toán học máy nào có thể được thu nhỏ bằng cách sử dụng hadoop / map-less

9

Các thuật toán học máy có thể mở rộng có vẻ như là tiếng vang ngày nay. Mỗi công ty đang xử lý không có gì thiếu dữ liệu lớn . Có một cuốn sách giáo khoa nào thảo luận về những thuật toán học máy nào có thể được thu nhỏ bằng cách sử dụng các kiến trúc song song như Map-Giảm, và thuật toán nào không thể? Hoặc một số giấy tờ có liên quan?

machine-learning large-data

— Nik
nguồn

5

Mahout in Action là một cuốn sách hay để đọc về Mahout ( http://manning.com/owen/ ). Tất nhiên trang web có một cái nhìn tổng quan về các thuật toán được đề cập ( http://mahout.apache.org/ ).

— BudhORG
nguồn

4

Vowpal Wợi, một chương trình học máy rất nhanh tập trung vào học tập giảm dần trực tuyến, có thể được sử dụng với Hadoop: http://arxiv.org/abs/1110.4198 Mặc dù, tôi chưa bao giờ sử dụng nó theo cách này. Nếu tôi hiểu chính xác, nó thực sự chỉ sử dụng Hadoop cho độ tin cậy và cung cấp dữ liệu cho các quy trình Vowpal Wợi. Nó sử dụng một cái gì đó như AllReduce của MPI để thực hiện hầu hết các giao tiếp.

— sinh vật
nguồn

4

Như Jimmy Lin và Chris Dyer đã chỉ ra trong chương đầu tiên trong cuốn sách về Khai thác văn bản chuyên sâu dữ liệu với MapReduce , ở quy mô dữ liệu lớn, hiệu suất của các thuật toán khác nhau hội tụ sao cho sự khác biệt về hiệu suất gần như biến mất. Điều này có nghĩa là với một tập dữ liệu đủ lớn, thuật toán bạn muốn sử dụng là thuật toán ít tốn kém hơn về mặt tính toán. Chỉ ở quy mô dữ liệu nhỏ hơn mà sự khác biệt hiệu năng giữa các thuật toán là quan trọng.

Điều đó đang được nói, cuốn sách của họ (được liên kết ở trên) và Khai thác dữ liệu khổng lồ của Anand Rajaraman, Jure Leskovec và Jeffrey D. Ullman có lẽ là hai cuốn sách bạn sẽ muốn xem, đặc biệt là khi chúng liên quan trực tiếp đến MapReduce cho mục đích khai thác dữ liệu.

— Richard D
nguồn

1

".. quy mô lớn, hiệu suất của các thuật toán khác nhau hội tụ ..." Tôi không biết điều này. Cảm ơn vì cái nhìn sâu sắc hữu ích này. Ngoài ra, tôi đã vấp ngã trong "Khai thác dữ liệu lớn" và thấy nó rất hữu ích. Sẽ nhìn vào cuốn sách khác quá.

— Nik

2

Nếu bạn có quyền truy cập vào cụm Hadoop, tôi sẽ cho Spark xem. https://spark.apache.org/

— tiếng rít
nguồn

MLlib chứa một số thuật toán học máy phân tán cho Spark với các ví dụ trong Scala, Java, Python và R: spark.apache.org/docs/latest/ml-guide.html

— Vadim Smolyakov

1

Không ai đã đề cập đến bài báo sau đây - http: // Vogue.nips.cc/apers/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng là một trong những tác giả)

Bản thân bài báo dành cho các máy đa lõi, nhưng về cơ bản là tìm lại các vấn đề về máy học để chúng phù hợp với mô hình thu nhỏ bản đồ và có thể được sử dụng cho một cụm máy tính. (để xem lý do tại sao đó không phải là một ý tưởng tốt nói chung, bạn có thể muốn đọc bài viết này - http://arxiv.org/pdf/1006.4990v1.pdf . Nó có một tổng quan tốt).

— người dùng48654
nguồn

Ngoài ra, Mahout là một nỗ lực để thực hiện bài báo Andrew Ng mà tôi đã đề cập.

— dùng48654

0

Mở rộng quy mô học máy : phương pháp tiếp cận song song và phân tán là một cuốn sách tuyệt vời của John Langford et. al. thảo luận về việc triển khai song song các thuật toán được giám sát và không giám sát. Nó nói về MapReduce, các nhóm cây quyết định, phương tiện K song song, SVM song song, truyền bá niềm tin và AD-LDA.

https://www.amazon.com/Scaling-Machine-Learning-Distribution-Approaches/dp/0521192242

— Smimimovov
nguồn