Phương pháp tiếp cận khi học từ bộ dữ liệu khổng lồ?


10

Về cơ bản, có hai cách phổ biến để học chống lại các bộ dữ liệu khổng lồ (khi bạn phải đối mặt với các hạn chế về thời gian / không gian):

  1. Gian lận :) - chỉ sử dụng tập hợp con "có thể quản lý" để đào tạo. Việc mất độ chính xác có thể không đáng kể do quy luật lợi nhuận giảm dần - hiệu suất dự đoán của mô hình thường bị san phẳng từ lâu trước khi tất cả dữ liệu đào tạo được đưa vào nó.
  2. Tính toán song song - chia vấn đề thành các phần nhỏ hơn và giải quyết từng vấn đề trên một máy / bộ xử lý riêng biệt. Bạn cần một phiên bản song song của thuật toán, nhưng tin tốt là có rất nhiều thuật toán phổ biến song song tự nhiên: hàng xóm gần nhất, cây quyết định, v.v.

Có phương pháp nào khác không? Có bất kỳ quy tắc của ngón tay cái khi sử dụng mỗi? Hạn chế của từng phương pháp là gì?

Câu trả lời:


10

Stream Mining là một câu trả lời. Nó cũng được gọi là:


đồng ý, hộp công cụ MOA sẽ là một nơi tốt để bắt đầu
tdc

7

Thay vì chỉ sử dụng một tập hợp con, bạn có thể sử dụng nhiều tập hợp con như trong học tập theo đợt nhỏ (ví dụ: giảm dần độ dốc ngẫu nhiên). Bằng cách này, bạn vẫn sẽ sử dụng tất cả dữ liệu của mình.


Aha đó là một điểm tốt - tôi đã làm rõ câu hỏi. Tôi quan tâm đến một kịch bản khi bạn phải đối mặt với các hạn chế về thời gian / không gian và "không thể đủ khả năng" học tập theo đợt nhỏ.
andreister

1

Các vấn đề như đóng gói hoặc pha trộn - không có dữ liệu nào bị lãng phí, vấn đề tự động trở thành song song tầm thường và có thể có độ chính xác / độ mạnh đáng kể.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.