Hay nhiều hơn "nó sẽ"? Dữ liệu lớn làm cho số liệu thống kê và kiến thức có liên quan trở nên quan trọng hơn nhưng dường như không phù hợp với Lý thuyết lấy mẫu.
Tôi đã thấy sự cường điệu này xung quanh 'Dữ liệu lớn' và không thể tự hỏi rằng "tại sao" tôi muốn phân tích mọi thứ ? Không có lý do nào để "Lý thuyết lấy mẫu" được thiết kế / thực hiện / phát minh / khám phá? Tôi không có điểm phân tích toàn bộ 'dân số' của bộ dữ liệu. Chỉ vì bạn có thể làm điều đó không có nghĩa là bạn nên (Sự ngu ngốc là một đặc quyền nhưng bạn không nên lạm dụng nó :)
Vì vậy, câu hỏi của tôi là: Có liên quan đến thống kê để phân tích toàn bộ tập dữ liệu không? Điều tốt nhất bạn có thể làm là giảm thiểu lỗi nếu bạn lấy mẫu. Nhưng chi phí để giảm thiểu lỗi đó có thực sự đáng không? "Giá trị của thông tin" có thực sự xứng đáng với công sức, chi phí thời gian, v.v. đi vào việc phân tích dữ liệu lớn trên các máy tính song song ồ ạt không?
Ngay cả khi một người phân tích toàn bộ dân số, kết quả vẫn sẽ là dự đoán tốt nhất với xác suất đúng cao hơn. Có lẽ cao hơn một chút so với lấy mẫu (hoặc sẽ nhiều hơn nữa?) Liệu cái nhìn sâu sắc thu được từ việc phân tích dân số so với phân tích mẫu có khác nhau nhiều không?
Hay chúng ta nên chấp nhận nó như "thời gian đã thay đổi"? Lấy mẫu như một hoạt động có thể trở nên ít quan trọng hơn khi có đủ sức mạnh tính toán :)
Lưu ý: Tôi không cố bắt đầu một cuộc tranh luận nhưng đang tìm câu trả lời để hiểu lý do tại sao dữ liệu lớn làm những gì nó làm (tức là phân tích mọi thứ) và bỏ qua lý thuyết lấy mẫu (hoặc không?)