"Dữ liệu lớn" có ở khắp mọi nơi trên các phương tiện truyền thông. Mọi người đều nói rằng "dữ liệu lớn" là điều quan trọng trong năm 2012, ví dụ cuộc thăm dò của KDNuggets về các chủ đề nóng cho năm 2012 . Tuy nhiên, tôi có mối quan tâm sâu sắc ở đây. Với dữ liệu lớn, mọi người dường như rất vui khi nhận được bất cứ điều gì . Nhưng không phải chúng ta vi phạm tất cả các nguyên tắc thống kê cổ điển như kiểm tra giả thuyết và lấy mẫu đại diện sao?
Miễn là chúng tôi chỉ đưa ra dự đoán về cùng một tập dữ liệu, điều này sẽ ổn. Vì vậy, nếu tôi sử dụng dữ liệu Twitter để dự đoán hành vi của người dùng Twitter, điều đó có thể ổn. Tuy nhiên, sử dụng dữ liệu Twitter để dự đoán, ví dụ Bầu cử hoàn toàn bỏ qua thực tế rằng người dùng Twitter không phải là mẫu đại diện cho toàn bộ dân số. Thêm vào đó, hầu hết các phương pháp sẽ thực sự không thể phân biệt giữa một tâm trạng "cơ sở" thực sự và một chiến dịch. Và twitter có đầy đủ các chiến dịch. Vì vậy, khi phân tích Twitter, bạn nhanh chóng kết thúc việc đo chiến dịch và bot. (Xem ví dụ "Yahoo dự đoán người chiến thắng chính trị của Mỹ"trong đó có đầy đủ các cuộc thăm dò ý kiến và "phân tích tình cảm là tốt hơn nhiều". Họ dự đoán "Romney có hơn 90% khả năng giành được đề cử và giành được giải chính ở Nam Carolina" (anh ta có 28%, trong khi Gingrich có 40% ở hạng chính này).
Bạn có biết dữ liệu lớn như vậy thất bại ? Tôi nhớ đại khái rằng một nhà khoa học dự đoán bạn không thể duy trì hơn 150 tình bạn. Anh ta thực sự chỉ phát hiện ra giới hạn giới hạn trong ...
Đối với dữ liệu twitter, hoặc thực sự là bất kỳ "dữ liệu lớn" nào được thu thập từ web, tôi tin rằng mọi người thậm chí còn giới thiệu sự thiên vị bổ sung bằng cách họ thu thập dữ liệu của họ. Vài người sẽ có tất cả Twitter. Họ sẽ có một tập hợp con nhất định mà họ đặt ra và đây chỉ là một thành kiến khác trong tập dữ liệu của họ.
Việc chia dữ liệu thành một bộ kiểm tra hoặc để thực hiện xác nhận chéo có thể không giúp ích nhiều. Các bộ khác sẽ có cùng độ lệch. Và đối với dữ liệu lớn, tôi cần "nén" thông tin của mình thật nhiều để tôi không thể quá phù hợp.
Gần đây tôi đã nghe thấy trò đùa này, với nhà khoa học dữ liệu lớn đã phát hiện ra có khoảng 6 giới tính trên thế giới ... và tôi có thể tưởng tượng điều này xảy ra ... "Nam, Nữ, Orc, Furry, Có và Không".
Vì vậy, những phương pháp nào chúng ta phải có được một số giá trị thống kê trở lại phân tích, đặc biệt là khi cố gắng dự đoán một cái gì đó bên ngoài bộ dữ liệu "dữ liệu lớn"?