Phương pháp thống kê trực tuyến, có thể mở rộng


12

Điều này được lấy cảm hứng từ hồi quy tuyến tính trực tuyến hiệu quả , mà tôi thấy rất thú vị. Có bất kỳ văn bản hoặc tài nguyên nào dành cho tính toán thống kê quy mô lớn, qua đó tính toán với các bộ dữ liệu quá lớn để phù hợp với bộ nhớ chính và có lẽ quá đa dạng để tạo mẫu hiệu quả. Ví dụ, có thể phù hợp với các mô hình hiệu ứng hỗn hợp trong một thời trang trực tuyến? Có ai đã xem xét các tác động của việc thay thế các kỹ thuật tối ưu hóa bậc 2 tiêu chuẩn cho MLE bằng các kỹ thuật bậc 1, kiểu SGD chưa?


Tôi nghĩ câu trả lời là có". Tất nhiên, có một chút vấn đề về định nghĩa ở đây. Những gì một người coi là "quy mô lớn" đôi khi rất khác so với những người khác. Ấn tượng của tôi là, ví dụ, nhiều nhà nghiên cứu hàn lâm coi bộ dữ liệu Netflix là "quy mô lớn", trong khi ở nhiều cơ sở công nghiệp, nó sẽ bị coi là "trừng phạt". Liên quan đến kỹ thuật ước tính, thông thường với dữ liệu rất lớn, hiệu quả tính toán vượt qua hiệu quả thống kê. Ví dụ, trong nhiều trường hợp, phương pháp khoảnh khắc sẽ thực hiện (gần) cũng như MLE trong các cài đặt này và có thể dễ dàng hơn nhiều để tính toán.
hồng y

2
bạn cũng có thể tra cứu Hội thảo về thuật toán cho các bộ dữ liệu lớn hiện đại (MMDS). Nó còn trẻ, nhưng thu hút một bộ loa khá ấn tượng tại các giao diện thống kê, kỹ thuật và khoa học máy tính cũng như giữa học viện và ngành công nghiệp.
hồng y

Chỉ vài thập kỷ vì hầu hết các bộ dữ liệu quá lớn để phù hợp với bộ nhớ chính và sự lựa chọn thuật toán được sử dụng trong các chương trình thống kê ban đầu phản ánh điều đó. Các chương trình như vậy không có cơ sở cho các mô hình hiệu ứng hỗn hợp mặc dù.
onestop

Bạn có thể tính toán số liệu thống kê cho tập dữ liệu? nói ví dụ tổng, hoặc trung bình của các mục dữ liệu?
xác suất

Câu trả lời:


5

Bạn có thể xem xét dự án Vowpal Wợi , từ John Langford tại Yahoo! Nghiên cứu . Nó là một người học trực tuyến thực hiện giảm độ dốc chuyên biệt trên một vài chức năng mất. VW có một số tính năng sát thủ:

  • Cài đặt trên Ubuntu một cách tầm thường, với "sudo apt-get install vowpal-wợi".
  • Sử dụng thủ thuật băm cho không gian tính năng rất lớn.
  • Trọng lượng thích ứng đặc trưng.
  • Quan trọng nhất, có một danh sách gửi thư đang hoạt động và cộng đồng đang cắm đầu vào dự án.

Cuốn sách Dự đoán, học tập và trò chơi Bianchi & Lugosi mang đến một nền tảng lý thuyết vững chắc cho việc học trực tuyến. Một đọc nặng, nhưng giá trị nó!

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.