Việc lấy mẫu có liên quan trong thời điểm 'dữ liệu lớn' không?


54

Hay nhiều hơn "nó sẽ"? Dữ liệu lớn làm cho số liệu thống kê và kiến ​​thức có liên quan trở nên quan trọng hơn nhưng dường như không phù hợp với Lý thuyết lấy mẫu.

Tôi đã thấy sự cường điệu này xung quanh 'Dữ liệu lớn' và không thể tự hỏi rằng "tại sao" tôi muốn phân tích mọi thứ ? Không có lý do nào để "Lý thuyết lấy mẫu" được thiết kế / thực hiện / phát minh / khám phá? Tôi không có điểm phân tích toàn bộ 'dân số' của bộ dữ liệu. Chỉ vì bạn có thể làm điều đó không có nghĩa là bạn nên (Sự ngu ngốc là một đặc quyền nhưng bạn không nên lạm dụng nó :)

Vì vậy, câu hỏi của tôi là: Có liên quan đến thống kê để phân tích toàn bộ tập dữ liệu không? Điều tốt nhất bạn có thể làm là giảm thiểu lỗi nếu bạn lấy mẫu. Nhưng chi phí để giảm thiểu lỗi đó có thực sự đáng không? "Giá trị của thông tin" có thực sự xứng đáng với công sức, chi phí thời gian, v.v. đi vào việc phân tích dữ liệu lớn trên các máy tính song song ồ ạt không?

Ngay cả khi một người phân tích toàn bộ dân số, kết quả vẫn sẽ là dự đoán tốt nhất với xác suất đúng cao hơn. Có lẽ cao hơn một chút so với lấy mẫu (hoặc sẽ nhiều hơn nữa?) Liệu cái nhìn sâu sắc thu được từ việc phân tích dân số so với phân tích mẫu có khác nhau nhiều không?

Hay chúng ta nên chấp nhận nó như "thời gian đã thay đổi"? Lấy mẫu như một hoạt động có thể trở nên ít quan trọng hơn khi có đủ sức mạnh tính toán :)

Lưu ý: Tôi không cố bắt đầu một cuộc tranh luận nhưng đang tìm câu trả lời để hiểu lý do tại sao dữ liệu lớn làm những gì nó làm (tức là phân tích mọi thứ) và bỏ qua lý thuyết lấy mẫu (hoặc không?)


1
Xem thêm: stats.stackexchange.com/q/22502/7828 - cách rút ra kết luận hợp lệ từ dữ liệu lớn.
Anony-Mousse

2
(+1 từ lâu) Tôi luôn thích đọc những câu hỏi sâu sắc của bạn. Họ là một tài sản thực sự cho trang web này.
Đức hồng y

1
@cardinal - Tôi chân thành đánh giá cao nhận xét của bạn. Có nghĩa là rất nhiều đến từ bạn.
Tiến sĩ

Câu trả lời:


29

Trong một từ, . Tôi tin rằng vẫn còn những tình huống rõ ràng trong đó việc lấy mẫu là phù hợp, trong và không có thế giới "dữ liệu lớn", nhưng bản chất của dữ liệu lớn chắc chắn sẽ thay đổi cách tiếp cận của chúng tôi để lấy mẫu và chúng tôi sẽ sử dụng nhiều bộ dữ liệu gần như hoàn toàn đại diện cho cơ sở dân số.

Về lấy mẫu: Tùy thuộc vào hoàn cảnh, hầu như sẽ luôn rõ ràng nếu lấy mẫu là một việc thích hợp để làm. Lấy mẫu không phải là một hoạt động có lợi; đó chỉ là những gì chúng tôi làm bởi vì chúng tôi cần phải đánh đổi chi phí thực hiện thu thập dữ liệu. Chúng tôi đang cố gắng mô tả đặc điểm dân số và cần chọn phương pháp thích hợp để thu thập và phân tích dữ liệu về dân số. Lấy mẫu có ý nghĩa khi chi phí cận biên của một phương pháp thu thập dữ liệu hoặc xử lý dữ liệu cao. Cố gắng đạt 100% dân số không phải là cách sử dụng tài nguyên tốt trong trường hợp đó, bởi vì bạn thường giải quyết tốt hơn những vấn đề như sai lệch không phản hồi hơn là cải thiện nhỏ trong lỗi lấy mẫu ngẫu nhiên.

Dữ liệu lớn khác nhau như thế nào? "Dữ liệu lớn" giải quyết nhiều câu hỏi tương tự mà chúng tôi đã có từ lâu, nhưng "điều mới" là việc thu thập dữ liệu xảy ra trong một quy trình qua trung gian máy tính hiện có, do đó chi phí biên của việc thu thập dữ liệu về cơ bản là bằng không. Điều này làm giảm đáng kể nhu cầu lấy mẫu của chúng tôi.

Khi nào chúng ta vẫn sẽ sử dụng lấy mẫu? Nếu dân số "dữ liệu lớn" của bạn là dân số phù hợp cho vấn đề, thì bạn sẽ chỉ sử dụng lấy mẫu trong một số trường hợp: nhu cầu chạy các nhóm thử nghiệm riêng biệt hoặc nếu khối lượng dữ liệu quá lớn để nắm bắt và xử lý (nhiều ngày nay chúng ta có thể xử lý hàng triệu hàng dữ liệu một cách dễ dàng, vì vậy ranh giới ở đây ngày càng xa hơn). Nếu có vẻ như tôi đang bỏ qua câu hỏi của bạn, thì có lẽ vì tôi hiếm khi gặp phải tình huống trong đó khối lượng dữ liệu là mối quan tâm trong cả giai đoạn thu thập hoặc xử lý, mặc dù tôi biết nhiều người có

Tình huống có vẻ khó khăn với tôi là khi dân số "dữ liệu lớn" của bạn không thể hiện hoàn hảo dân số mục tiêu của bạn, do đó, sự đánh đổi có nhiều táo hơn đối với cam. Giả sử bạn là người lập kế hoạch vận chuyển trong khu vực và Google đã đề nghị cung cấp cho bạn quyền truy cập vào nhật ký điều hướng GPS của Android để giúp bạn. Mặc dù bộ dữ liệu chắc chắn sẽ rất thú vị khi sử dụng, nhưng dân số có lẽ sẽ bị thiên lệch một cách có hệ thống so với người thu nhập thấp, người sử dụng phương tiện giao thông công cộng và người già. Trong tình huống như vậy, nhật ký du lịch truyền thống được gửi đến một mẫu hộ gia đình ngẫu nhiên, mặc dù chi phí thấp hơn và số lượng nhỏ hơn, vẫn có thể là phương pháp thu thập dữ liệu ưu việt. Nhưng, đây không chỉ đơn giản là một câu hỏi về "lấy mẫu so với dữ liệu lớn", nó '


22

Mặc dù có thể có rất nhiều Dữ liệu lớn được tạo ra bởi các thiết bị di động và như vậy, có rất ít dữ liệu có thể sử dụng được trong đó. Nếu bạn muốn dự đoán các mô hình du lịch đô thị bằng cách sử dụng, bạn có thể tắt theo thứ tự độ lớn trong các luồng ước tính. Tệ hơn, bạn sẽ không biết nếu bạn đang đánh giá quá cao hoặc đánh giá thấp những dòng chảy này. Bạn có thể có được một bức tranh cực kỳ chính xác về mô hình du lịch đô thị của người dùng maniacal, nhưng trừ khi mọi người bắt buộc (1) phải giữ điện thoại thông minh hoạt động, (2) để chạy ứng dụng 5.0 mọi lúc và (3) để đăng ký tại bất cứ nơi nào họ ở lại lâu hơn 10 phút (nghĩa là có được Điều tra dân số điện tử; hãy để những người theo chủ nghĩa tự do phàn nàn về Google và Facebook biết mọi thứ về bạn), dữ liệu của bạn sẽ chứa những thành kiến ​​không xác định và Deweys điện tử của bạn sẽ tiếp tục đánh bại từ thực Trumans (có thể nhấp):


(nguồn: whatisasurvey.info )

Nếu có bất cứ điều gì, tôi hy vọng rằng phần lịch sử này sẽ lặp lại và một số dự báo "bia + tã" lớn được tạo ra từ Dữ liệu lớn sẽ bị lật ngược bởi các nhà nghiên cứu sử dụng các phương pháp lấy mẫu nghiêm ngặt hơn. Điều đáng ngạc nhiên là các cuộc điều tra dựa trên xác suất vẫn chính xác ngay cả khi tỷ lệ phản hồi giảm.


1
(+1) Nhưng, sẽ không một người dùng rập khuôn nào là phản đề của hoang tưởng . ;-)
hồng y

1
Vâng ... có lẽ là một thuật ngữ xấu. Hãy để tôi thay đổi điều đó thành điên rồ!
StasK

2
Dữ liệu lớn không phải là thủ phạm. Đó là cách nó được sử dụng. Khi nó có thông tin và được áp dụng một cách thích hợp, nó có thể rất hữu ích. Khai thác dữ liệu không phải là tất cả xấu.
Michael Chernick

Điểm tuyệt vời về việc sử dụng dữ liệu lớn cho thông tin giao thông. Vì các công ty như Google và Apple đã làm điều này, tôi nghĩ rằng đây là một ví dụ tuyệt vời về việc dữ liệu lớn (hiện có sẵn) có thể thiếu đối với một số khán giả và tôi cũng đã cố gắng kết hợp nó vào câu trả lời của mình.
Jonathan

@Michael, bạn đúng, tất nhiên. Dữ liệu rất rẻ, nhưng cách lấy thông tin có thể sử dụng được từ đó sẽ không bị giảm - nếu có bất cứ điều gì, chúng sẽ tăng lên, vì bây giờ người ta phải sàng lọc thêm dữ liệu để có được thông tin hữu ích.
StasK

21

Bất cứ khi nào người ta áp dụng các kỹ thuật suy luận thống kê, điều quan trọng là phải rõ ràng đối với người dân về việc ai sẽ đưa ra kết luận. Ngay cả khi dữ liệu đã được thu thập là rất lớn, nó vẫn có thể chỉ liên quan đến một phần nhỏ của dân số, và có thể không đại diện cho toàn bộ.

Ví dụ, giả sử rằng một công ty hoạt động trong một ngành nhất định đã thu thập 'dữ liệu lớn' về khách hàng của mình ở một quốc gia nhất định. Nếu họ muốn sử dụng dữ liệu đó để đưa ra kết luận về khách hàng hiện tại của mình tại quốc gia đó, thì việc lấy mẫu có thể không phù hợp lắm. Tuy nhiên, nếu họ muốn đưa ra kết luận về dân số lớn hơn - khách hàng tiềm năng cũng như khách hàng hiện tại hoặc khách hàng ở một quốc gia khác - thì việc xem xét khách hàng đã thu thập dữ liệu là đại diện ở mức độ nào - có lẽ là về thu nhập, độ tuổi , giới tính, giáo dục, vv - của dân số lớn hơn.

Kích thước thời gian cũng cần được xem xét. Nếu mục đích là sử dụng suy luận thống kê để hỗ trợ dự đoán, thì dân số phải được hiểu để mở rộng trong tương lai. Nếu vậy, một lần nữa, điều cần thiết là xem xét liệu bộ dữ liệu, tuy lớn, đã được lấy trong trường hợp đại diện cho những dữ liệu có thể có được trong tương lai.


Chào mừng đến với trang web của chúng tôi, Adam! (Nếu bạn đăng ký thường xuyên, bạn thậm chí sẽ tìm thấy cơ hội thỉnh thoảng để thực hiện sở thích của mình trong lý thuyết hình họcsố . :-)
whuber

Điểm tuyệt vời về sự cần thiết phải xem xét dân số! Đó là một trong những cách lớn mà mọi người có thể lười biếng về dữ liệu lớn.
Jonathan

"Ngay cả khi dữ liệu được thu thập là rất lớn, nó vẫn có thể chỉ liên quan đến một phần nhỏ của dân số, và có thể không đại diện cho toàn bộ." Tôi nghĩ rằng câu này một mình trả lời cho nhiều câu hỏi.
Bemipefe

13

Từ những gì tôi đã thấy về cơn sốt dữ liệu lớn / ML, suy nghĩ về việc lấy mẫu và dân số mà mẫu của bạn được rút ra cũng quan trọng hơn bao giờ hết - nhưng nghĩ về thậm chí còn ít hơn.

Tôi đang "kiểm toán" lớp Stanford ML, và cho đến nay chúng tôi đã đề cập đến hồi quy và mạng lưới thần kinh với việc đề cập đến suy luận dân số. Vì lớp học này đã được 6 người tham gia, nên hiện tại có rất nhiều người biết cách điều chỉnh dữ liệu rất phù hợp mà không có bất kỳ khái niệm nào về ý tưởng mẫu.


3
Tôi hoàn toàn đồng ý. Khi quan sát cơn sốt hiện tại về Machine Learning (chủ yếu là các học viên và lập trình viên), Dữ liệu lớn và "khoa học dữ liệu", tôi thấy mọi người thường bỏ qua việc lấy mẫu, suy luận, hiểu lý luận thống kê và hy sinh nó để áp dụng một cách mù quáng thuật toán là hông trên nó. Bạn thậm chí có thể thấy rằng với các câu hỏi và một số câu trả lời ở đây trên xác nhận chéo. Đó là lý do tại sao tôi cũng tin rằng đó là một sự cường điệu sẽ sớm bị lỗi thời hoặc mượn nhận thức luận thống kê và do đó trở thành một nhánh của số liệu thống kê (dù sao tôi cũng xem nó như vậy).
Momo

2
Nếu lớp ML đó giống với lớp tôi đã kiểm tra trước đây, có một giả định kỹ thuật đã xảy ra ngay trước khi bất bình đẳng Hoeffding rằng dữ liệu đào tạo là một mẫu hoàn toàn ngẫu nhiên từ dân số. Thật không may, điều này gần như không bao giờ xảy ra, ít nhất là theo kinh nghiệm của tôi và trong các ví dụ về ứng dụng của các kỹ thuật trong suốt khóa học. Nó vẫn không phải là trường hợp khi bạn sử dụng "dữ liệu lớn."
Douglas Zare

12

Có, lấy mẫu có liên quan và sẽ vẫn có liên quan. Điểm mấu chốt là độ chính xác của ước tính thống kê nói chung là một hàm của cỡ mẫu, không phải là dân số mà chúng tôi muốn khái quát. Vì vậy, một tỷ lệ trung bình hoặc tỷ lệ trung bình được tính toán từ một mẫu của 1.000 người được hỏi sẽ mang lại ước tính về độ chính xác nhất định (đối với toàn bộ dân số mà chúng tôi đã lấy mẫu), bất kể quy mô dân số (hay cách mà ông lớn như thế nào dữ liệu lớn đang được).

Đã nói rằng: Có những vấn đề và thách thức cụ thể có liên quan và nên được đề cập:

  1. Lấy một mẫu xác suất tốt không phải lúc nào cũng dễ dàng. Về mặt lý thuyết, mọi cá nhân trong dân số mà chúng tôi muốn khái quát hóa (về điều mà chúng tôi muốn đưa ra suy luận) phải có xác suất được chọn là được chọn; lý tưởng là xác suất phải giống nhau (mẫu xác suất bằng nhau hoặc EPSEM - Xác suất lựa chọn bằng nhau). Đó là một xem xét quan trọng và người ta cần có một sự hiểu biết rõ ràng về cách quá trình lấy mẫu sẽ chỉ định xác suất lựa chọn cho các thành viên của dân số mà người ta muốn khái quát. Ví dụ: một người có thể xuất phát từ Twitter cung cấp các ước tính chính xác về tình cảm chung trong dân số, bao gồm cả những cá nhân không có tài khoản twitter?
  2. Dữ liệu lớn có thể chứa các chi tiết và thông tin rất phức tạp; Nói cách khác, vấn đề không phải là lấy mẫu, mà là (vi-) phân đoạn, rút ​​ra các chi tiết phù hợp cho một tập hợp nhỏ các quan sát có liên quan. Ở đây, thách thức không phải là lấy mẫu, mà là xác định sự phân tầng và phân đoạn cụ thể của dữ liệu lớn mang lại thông tin hành động chính xác nhất có thể biến thành những hiểu biết có giá trị.
  3. Một quy tắc chung khác của đo lường ý kiến ​​là các lỗi và sai lệch không lấy mẫu thường lớn hơn nhiều so với sai số và sai lệch lấy mẫu. Chỉ vì bạn xử lý 1 trăm hồ sơ người trả lời bày tỏ ý kiến ​​không làm cho kết quả trở nên hữu ích hơn nếu bạn chỉ có dữ liệu của mẫu phụ 1000 người, đặc biệt nếu các câu hỏi cho khảo sát tương ứng không được viết tốt và gây ra sai lệch.
  4. Đôi khi cần lấy mẫu: Ví dụ: nếu một người xây dựng mô hình dự đoán từ tất cả dữ liệu, làm thế nào để xác thực nó? Làm thế nào người ta sẽ so sánh độ chính xác của các mô hình khác nhau? Khi có dữ liệu lớn, dữ liệu lớn (kho dữ liệu rất lớn) thì người ta có thể xây dựng nhiều mô hình và kịch bản mô hình cho các mẫu khác nhau và xác thực chúng (thử chúng) trong các mẫu độc lập khác. Nếu một người xây dựng một mô hình cho tất cả dữ liệu - làm thế nào để xác thực nó?

Bạn có thể xem 'Cuộc cách mạng dữ liệu lớn' của chúng tôi tại đây.


1
Chào mừng đến với trang web của chúng tôi, Kyra!
whuber

3

Nhiều phương pháp dữ liệu lớn thực sự được thiết kế xung quanh việc lấy mẫu.

Câu hỏi nên có nhiều hơn trên dòng:

Chúng ta cũng không nên sử dụng lấy mẫu có hệ thống với dữ liệu lớn chứ?

Rất nhiều thứ "dữ liệu lớn" vẫn còn khá mới mẻ và đôi khi là ngây thơ. Ví dụ, K-nghĩa có thể được song song hóa một cách tầm thường, và do đó hoạt động cho "dữ liệu lớn" (Tôi sẽ không nói về kết quả, chúng không có ý nghĩa lắm; và có lẽ không khác lắm so với những gì thu được trên một mẫu!). Theo như tôi biết thì đây là những gì mà việc triển khai k-mean trong Mahout thực hiện.

Tuy nhiên, nghiên cứu đang vượt ra ngoài sự song song ngây thơ (có thể vẫn cần một số lượng lặp lớn) và cố gắng thực hiện phương tiện K trong một số lần lặp cố định . Ví dụ cho điều này:

  • Phân cụm nhanh bằng MapReduce
    Ene, A. và Im, S. và Moseley, B.
    Kỷ yếu hội thảo quốc tế ACM SIGKDD lần thứ 17 về khám phá tri thức và khai thác dữ liệu, 2011

Và đoán xem, cách tiếp cận của họ chủ yếu dựa trên việc lấy mẫu .

Ví dụ tiếp theo: Rừng quyết định . Đó là về cơ bản: đối với một số mẫu từ tập dữ liệu, hãy xây dựng một cây quyết định mỗi mẫu. Một lần nữa có thể được song song hóa: đặt từng mẫu trên một máy riêng biệt. Và một lần nữa, nó là một cách tiếp cận dựa trên mẫu.

Vì vậy, lấy mẫu là một trong những thành phần quan trọng để tiếp cận dữ liệu lớn!

Và không có gì sai với điều này.


2

Xác thực chéo là một ví dụ cụ thể về lấy mẫu phụ khá quan trọng trong ML / dữ liệu lớn. Tổng quát hơn, dữ liệu lớn vẫn thường là một mẫu của dân số, như những người khác ở đây đã đề cập.

Nhưng, tôi nghĩ OP có thể đề cập cụ thể đến việc lấy mẫu vì nó áp dụng cho các thử nghiệm được kiểm soát, so với dữ liệu quan sát. Thông thường dữ liệu lớn được coi là sau này, nhưng với tôi ít nhất là có ngoại lệ. Tôi sẽ nghĩ về các thử nghiệm ngẫu nhiên, thử nghiệm A / B và kẻ cướp đa vũ trang trong cài đặt mạng xã hội và thương mại điện tử như các ví dụ về "lấy mẫu trong cài đặt dữ liệu lớn".


1

Trong các lĩnh vực mà Dữ liệu lớn đang trở nên phổ biến: Tìm kiếm, Quảng cáo, Hệ thống giới thiệu như Amazon, Netflix, có một động lực rất lớn để khám phá toàn bộ bộ dữ liệu.

Mục tiêu của các hệ thống này là điều chỉnh các khuyến nghị / đề xuất cho mọi thành viên trong dân số. Ngoài ra, số lượng các thuộc tính đang được nghiên cứu là rất lớn. Hệ thống phân tích web trung bình có thể đo tỷ lệ nhấp, "theo dõi nhiệt" của "vùng nóng" trong trang, các tương tác xã hội, v.v. và cân nhắc những điều này với một loạt các mục tiêu được xác định trước.

Quan trọng hơn, hầu hết những nơi mà Big Data hiện đang có mặt là các luồng dữ liệu "trực tuyến", tức là dữ liệu liên tục được thêm / cập nhật. Tạo ra một sơ đồ lấy mẫu bao gồm tất cả các thuộc tính này mà không có sự thiên vị cố hữu và vẫn mang lại kết quả đầy hứa hẹn (đọc tỷ suất lợi nhuận tốt hơn) là một thách thức.

Lấy mẫu vẫn có liên quan cao cho các cuộc khảo sát, thử nghiệm y tế, thử nghiệm A / B, đảm bảo chất lượng.

Tóm lại, lấy mẫu rất hữu ích khi dân số được nghiên cứu là rất lớn và bạn quan tâm đến các tính chất vĩ mô của dân số. Kiểm tra 100% (Dữ liệu lớn) là cần thiết để khai thác các thuộc tính hiển vi của hệ thống

Hi vọng điêu nay co ich :)


Vì vậy, quan điểm của bạn là họ không muốn có thể khái quát hóa ngoài dữ liệu họ có đối với dữ liệu họ chưa có? Hoặc họ nghĩ rằng mẫu của họ quá lớn nên họ không phải lo lắng về những vấn đề đó? Hoặc là các tham số cơ bản sẽ thay đổi theo thời gian, vì vậy không có vấn đề gì miễn là chúng tiếp tục cập nhật khi dữ liệu mới chảy vào?
gung - Tái lập Monica

@gung vấn đề không phải là kích thước của mẫu, mà là vấn đề tạo mẫu không thiên vị cho tập dữ liệu có số lượng thuộc tính rất lớn. Và việc khái quát hóa thường được thực hiện bằng các thuật toán Machine Learning, được đào tạo trên một phần của tập dữ liệu. Các luồng dữ liệu trực tuyến liên tục xuất hiện khiến vấn đề lấy mẫu thứ cấp vì các cập nhật hàng loạt có thể được sử dụng để thay đổi các tham số.
rrampage
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.