Làm thế nào để rút ra kết luận hợp lệ từ dữ liệu lớn của Viking?


40

"Dữ liệu lớn" có ở khắp mọi nơi trên các phương tiện truyền thông. Mọi người đều nói rằng "dữ liệu lớn" là điều quan trọng trong năm 2012, ví dụ cuộc thăm dò của KDNuggets về các chủ đề nóng cho năm 2012 . Tuy nhiên, tôi có mối quan tâm sâu sắc ở đây. Với dữ liệu lớn, mọi người dường như rất vui khi nhận được bất cứ điều gì . Nhưng không phải chúng ta vi phạm tất cả các nguyên tắc thống kê cổ điển như kiểm tra giả thuyết và lấy mẫu đại diện sao?

Miễn là chúng tôi chỉ đưa ra dự đoán về cùng một tập dữ liệu, điều này sẽ ổn. Vì vậy, nếu tôi sử dụng dữ liệu Twitter để dự đoán hành vi của người dùng Twitter, điều đó có thể ổn. Tuy nhiên, sử dụng dữ liệu Twitter để dự đoán, ví dụ Bầu cử hoàn toàn bỏ qua thực tế rằng người dùng Twitter không phải là mẫu đại diện cho toàn bộ dân số. Thêm vào đó, hầu hết các phương pháp sẽ thực sự không thể phân biệt giữa một tâm trạng "cơ sở" thực sự và một chiến dịch. Và twitter có đầy đủ các chiến dịch. Vì vậy, khi phân tích Twitter, bạn nhanh chóng kết thúc việc đo chiến dịch và bot. (Xem ví dụ "Yahoo dự đoán người chiến thắng chính trị của Mỹ"trong đó có đầy đủ các cuộc thăm dò ý kiến ​​và "phân tích tình cảm là tốt hơn nhiều". Họ dự đoán "Romney có hơn 90% khả năng giành được đề cử và giành được giải chính ở Nam Carolina" (anh ta có 28%, trong khi Gingrich có 40% ở hạng chính này).

Bạn có biết dữ liệu lớn như vậy thất bại ? Tôi nhớ đại khái rằng một nhà khoa học dự đoán bạn không thể duy trì hơn 150 tình bạn. Anh ta thực sự chỉ phát hiện ra giới hạn giới hạn trong ...

Đối với dữ liệu twitter, hoặc thực sự là bất kỳ "dữ liệu lớn" nào được thu thập từ web, tôi tin rằng mọi người thậm chí còn giới thiệu sự thiên vị bổ sung bằng cách họ thu thập dữ liệu của họ. Vài người sẽ có tất cả Twitter. Họ sẽ có một tập hợp con nhất định mà họ đặt ra và đây chỉ là một thành kiến ​​khác trong tập dữ liệu của họ.

Việc chia dữ liệu thành một bộ kiểm tra hoặc để thực hiện xác nhận chéo có thể không giúp ích nhiều. Các bộ khác sẽ có cùng độ lệch. Và đối với dữ liệu lớn, tôi cần "nén" thông tin của mình thật nhiều để tôi không thể quá phù hợp.

Gần đây tôi đã nghe thấy trò đùa này, với nhà khoa học dữ liệu lớn đã phát hiện ra có khoảng 6 giới tính trên thế giới ... và tôi có thể tưởng tượng điều này xảy ra ... "Nam, Nữ, Orc, Furry, Có và Không".

Vì vậy, những phương pháp nào chúng ta phải có được một số giá trị thống kê trở lại phân tích, đặc biệt là khi cố gắng dự đoán một cái gì đó bên ngoài bộ dữ liệu "dữ liệu lớn"?

Câu trả lời:


31

Nỗi sợ hãi của bạn là hoàn toàn có cơ sở và nhận thức. Yahoo và có lẽ một số công ty khác đang thực hiện các thử nghiệm ngẫu nhiên trên người dùng và thực hiện tốt điều đó. Nhưng dữ liệu quan sát là sợ hãi với những khó khăn. Đó là một hiểu lầm phổ biến rằng các vấn đề giảm dần khi kích thước mẫu tăng. Điều này đúng với phương sai, nhưng độ lệch không đổi khi n tăng. Khi độ lệch lớn, một mẫu thực sự ngẫu nhiên rất nhỏ hoặc nghiên cứu ngẫu nhiên có thể có giá trị hơn 100.000.000 quan sát.


8
Dữ liệu lớn có lẽ là một lĩnh vực mà phân tích phương sai sai lệch không hữu ích - chất lượng dữ liệu và quản lý dữ liệu quan trọng hơn. Điều này là do chúng ta không thể hy vọng biết mọi điểm dữ liệu hoặc thậm chí các trường hợp đặc biệt - chỉ có quá nhiều trong số chúng
xác suất

24

Có một số kỹ thuật trong thiết kế và phân tích thử nghiệm có thể giúp bạn giảm bớt sự thiên vị của mình, nhưng điều này một lần nữa luôn làm sôi cùng một điều: Người ta phải biết người ta đang làm gì. Phân tích dữ liệu lớn có cùng một vấn đề như bất kỳ phân tích dữ liệu khác; nó bị thiếu các giả thuyết.

Một ví dụ rõ ràng là hồi quy bội với lựa chọn biến từng bước. Rất tốt, một người nói, nhưng với 100 biến số được đo theo luật thống kê cho thấy một số trong số chúng sẽ cho thấy mối quan hệ đáng kể khi được đánh giá bằng cách xem liệu hệ số tương ứng có khác biệt đáng kể so với không. Vì vậy, càng có nhiều biến trong tập dữ liệu của bạn, càng có nhiều cơ hội tìm thấy hai biến thể hiện mối quan hệ (vô nghĩa). Và tập dữ liệu của bạn càng lớn, càng có nhiều cơ hội cho các mô hình vô nghĩa do ví dụ như một hiệu ứng gây nhiễu nhỏ. Nếu bạn kiểm tra nhiều mô hình (và thậm chí chỉ có 10 biến có thể là toàn bộ nhiều mô hình), bạn rất có thể tìm thấy ít nhất một biến đáng kể. Nó có ý nghĩa gì không? Không.

Nên làm gì sau đó? Sử dụng bộ não của bạn:

  • hình thành một giả thuyết trước khi thu thập dữ liệu và kiểm tra giả thuyết đó. Đó là cách duy nhất để đảm bảo số liệu thống kê của bạn thực sự kể một câu chuyện.
  • Sử dụng đồng biến của bạn để phân tầng lấy mẫu của bạn trước khi thực hiện một số thử nghiệm. Ví dụ ngu ngốc: Nếu bạn có 1000 nam và 100 nữ trong tập dữ liệu của mình, hãy chọn ngẫu nhiên 50 mỗi nếu bạn muốn nói về một dân số trung bình. Đó thực sự là một cái gì đó mà dữ liệu lớn có ích: Bạn có quá nhiều để lấy mẫu.
  • Mô tả dân số kiểm tra kỹ lưỡng, vì vậy rõ ràng kết luận của bạn được đưa ra cho dân số nào.
  • Nếu bạn sử dụng tập dữ liệu lớn của mình cho mục đích khám phá, hãy kiểm tra các giả thuyết bạn đưa ra trong quá trình khám phá này trên một tập dữ liệu mớikhác , không chỉ là tập hợp con của những gì bạn đã thu thập. Và kiểm tra chúng một lần nữa bằng cách sử dụng tất cả các biện pháp phòng ngừa cần thiết.

Những điều này là tất cả rõ ràng và nổi tiếng. Heck, đã có từ năm 1984 Rosenbaum và Rubin đã minh họa cách sử dụng điểm số xu hướng để giảm sai lệch trong các nghiên cứu quan sát, và đó là những gì hầu hết các bộ dữ liệu lớn là: dữ liệu quan sát. Trong công trình gần đây của Feng et al , việc sử dụng khoảng cách Mahalanobis cũng được ủng hộ. Và trên thực tế, một trong những anh hùng thống kê của tôi, Cochran, đã viết một bài đánh giá về vấn đề đó đã có từ năm 1973! Hoặc những gì về Rubin, người đã giới thiệu lấy mẫu và hồi quy phù hợp đa biến đã có từ năm 1979. Các ấn phẩm cũ bị đánh giá thấp nghiêm trọng và quá thường xuyên bị bỏ qua, chắc chắn trong một lĩnh vực như thống kê.

Tất cả các kỹ thuật này đều có ưu và nhược điểm, và người ta phải hiểu rằng giảm sai lệch không giống như loại bỏ sai lệch. Nhưng nếu bạn biết:

  • những gì bạn muốn kiểm tra, và
  • làm thế nào bạn đang làm điều đó

Dữ liệu lớn không phải là một cái cớ để đi kèm với kết quả không có thật.


Được chỉnh sửa sau phần nhận xét (đúng) của @DW, người chỉ ra rằng tôi đã sử dụng thuật ngữ 'quá mức' trong một ngữ cảnh sai.


12
"Tập dữ liệu của bạn càng lớn, càng có nhiều cơ hội cho việc quá mức vô nghĩa" - Thật ra, điều đó ngược. Tập hợp các mô hình có thể càng lớn, cơ hội vượt quá (tất cả các mô hình khác đều bằng nhau). Tập dữ liệu càng lớn, cơ hội vượt mức càng nhỏ (tất cả những thứ khác đều bằng nhau).
DW

@DW Làm sao vậy? Trên thực tế, nếu có sự độc lập tuyệt đối trong một mô phỏng, sẽ có nhiều cơ hội cho một mô hình quan trọng với các bộ dữ liệu nhỏ và lớn (mô phỏng đơn giản cho bạn thấy điều đó). Than ôi, tôi chưa gặp một bộ dữ liệu mà sự độc lập là hoàn hảo. Thời điểm bạn có ví dụ như một hiệu ứng gây nhiễu rất nhỏ, các bộ dữ liệu lớn có nhiều khả năng mang lại kết quả quan trọng hơn các bộ dữ liệu nhỏ.
Joris Meys

Câu trả lời hay - nhận xét của bạn về việc tìm kiếm các hiệu ứng quan trọng cung cấp một lý do hợp lý cho các phương pháp thu nhỏ so với các phương pháp lựa chọn mô hình "trong hoặc ngoài".
xác suất

10
@DW đang đưa ra tuyên bố về việc quá mức và có vẻ đúng - đặc biệt vì tập dữ liệu càng lớn, càng có nhiều cơ hội để xác thực chéo xác thực trên các tập hợp con của dữ liệu. Joris Meys đang đưa ra tuyên bố về ý nghĩa thống kê. Điều đó cũng đúng. Nhưng trong các tập dữ liệu lớn, ý nghĩa thống kê là rất lớn - đó là kích thước hiệu ứng quan trọng bởi vì hầu hết mọi thứ đều "có ý nghĩa thống kê".
zbicyclist

1
@zbicyclist Quan sát rất đúng. Tôi thừa nhận tôi đã hiểu sai DW và sử dụng thuật ngữ quá mức trong một bối cảnh sai. Tôi đứng sửa.
Joris Meys
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.