Sự khác biệt giữa khai thác dữ liệu và phân tích thống kê là gì?


19

Sự khác biệt giữa khai thác dữ liệu và phân tích thống kê là gì?

Đối với một số nền tảng, giáo dục thống kê của tôi, tôi nghĩ, khá truyền thống. Một câu hỏi cụ thể được đặt ra, nghiên cứu được thiết kế và dữ liệu được thu thập và phân tích để cung cấp một số cái nhìn sâu sắc về câu hỏi đó. Kết quả là, tôi luôn hoài nghi về cái mà tôi coi là "nạo vét dữ liệu", tức là tìm kiếm các mẫu trong một tập dữ liệu lớn và sử dụng các mẫu này để đưa ra kết luận. Tôi có xu hướng liên kết cái sau với khai thác dữ liệu và luôn xem xét điều này có phần không phù hợp (cùng với những thứ như thói quen lựa chọn biến thuật toán).

Tuy nhiên, có một tài liệu lớn và đang phát triển về khai thác dữ liệu. Thông thường, tôi thấy nhãn này đề cập đến các kỹ thuật cụ thể như phân cụm, phân loại dựa trên cây, v.v. Tuy nhiên, ít nhất theo quan điểm của tôi, các kỹ thuật này có thể được "đặt lỏng" trên một tập hợp dữ liệu hoặc được sử dụng theo cách có cấu trúc để giải quyết câu hỏi Tôi sẽ gọi khai thác dữ liệu trước đây và phân tích thống kê sau.

Tôi làm việc trong ngành quản trị học thuật và đã được yêu cầu thực hiện một số "khai thác dữ liệu" để xác định các vấn đề và cơ hội. Phù hợp với nền tảng của tôi, câu hỏi đầu tiên của tôi là: bạn muốn học gì và những điều mà bạn nghĩ đóng góp cho vấn đề là gì? Từ phản hồi của họ, rõ ràng tôi và người đặt câu hỏi có những ý tưởng khác nhau về bản chất và giá trị của việc khai thác dữ liệu.



3
Nếu nó trùng lặp, tôi có thể đoán rằng khai thác dữ liệu và học máy là như nhau!
George Dontas

@George Dontas Vâng, tôi đến đây từ một liên kết trong các bình luận nếu câu hỏi khác với hy vọng thấy có sự khác biệt giữa ML và khai thác dữ liệu.
DJG

Câu trả lời:


20

Jerome Friedman đã viết một bài báo trước đây: Khai thác dữ liệu và thống kê: Kết nối là gì? , mà tôi nghĩ bạn sẽ thấy thú vị.

Khai thác dữ liệu chủ yếu là mối quan tâm thương mại và được thúc đẩy bởi nhu cầu kinh doanh (cùng với "nhu cầu" cho các nhà cung cấp bán phần mềm và hệ thống phần cứng cho doanh nghiệp). Một điều Friedman lưu ý là tất cả các "tính năng" được thổi phồng bắt nguồn từ các số liệu thống kê - từ các thuật toán và phương pháp như mạng lưới thần kinh đến phân tích dữ liệu theo định hướng GUI - và không có bất kỳ đề xuất thống kê truyền thống nào là một phần của bất kỳ hệ thống nào trong số này (hồi quy, kiểm tra giả thuyết, v.v.). "Phương pháp cốt lõi của chúng tôi phần lớn đã bị bỏ qua." Nó cũng được bán khi người dùng điều khiển theo những gì bạn lưu ý: đây là dữ liệu của tôi, đây là "câu hỏi kinh doanh" của tôi, cho tôi một câu trả lời.

Tôi nghĩ Friedman đã cố gắng khiêu khích. Ông không nghĩ rằng việc khai thác dữ liệu có nền tảng trí tuệ nghiêm túc, nơi phương pháp được quan tâm, nhưng điều này sẽ thay đổi và các nhà thống kê nên chơi một phần thay vì bỏ qua nó.

Ấn tượng của riêng tôi là điều này đã ít nhiều xảy ra. Các dòng đã được làm mờ. Các nhà thống kê hiện công bố trên các tạp chí khai thác dữ liệu. Những người khai thác dữ liệu ngày nay dường như có một số loại đào tạo thống kê. Trong khi các gói khai thác dữ liệu vẫn không cường điệu các mô hình tuyến tính tổng quát, hồi quy logistic nổi tiếng trong số các nhà phân tích - bên cạnh các cụm và mạng lưới thần kinh. Thiết kế thử nghiệm tối ưu có thể không phải là một phần của lõi khai thác dữ liệu, nhưng phần mềm có thể được dỗ để nhổ các giá trị p. Phát triển!


1
Đây là một bài viết tuyệt vời và phù hợp với quan điểm của tôi về khai thác dữ liệu là gì và nó khác với thống kê như thế nào. Bắt được, đó là từ năm 1997! Lưu ý một bản cáo trạng của bài báo hoặc đề nghị của bạn, nhưng mức độ mà tôi đã theo kịp với khai thác dữ liệu. Có vẻ như tôi cần lấy một cuốn sách hiện tại về khai thác dữ liệu để bắt kịp.
Brett

Heh, tôi đã cố tình hẹn hò vì tôi nghĩ sẽ rất vui nếu nhận thấy khoảng thời gian đó. :) Các cuốn sách của Michael Berry và Gordon Linoff khá hay và sẽ thu hút các nhà thống kê (để tiếp xúc rộng hơn thay vì học các kỹ thuật thống kê). Nếu bạn muốn cảm nhận về khía cạnh "doanh nghiệp" mờ nhạt của lĩnh vực này, lướt qua một trong những cuốn sách về sản phẩm của nhà cung cấp, như Công cụ khai thác doanh nghiệp của SAS hoặc Clementine của SPSS, có thể giúp ích. Tôi không khuyên bạn nên mua chúng trừ khi bạn sẽ làm việc với chính sản phẩm đó.
ars

10

Sự khác biệt giữa thống kê và khai thác dữ liệu phần lớn là lịch sử, vì chúng đến từ các truyền thống khác nhau: thống kê và khoa học máy tính. Khai thác dữ liệu phát triển song song ngoài công việc trong lĩnh vực trí tuệ nhân tạo và thống kê.

Mục 1.4 từ Witten & Frank tóm tắt quan điểm của tôi vì vậy tôi sẽ trích dẫn nó theo chiều dài:

Sự khác biệt giữa học máy và thống kê là gì? Những người hoài nghi, nhìn một cách gượng gạo về sự bùng nổ của lợi ích thương mại (và cường điệu) trong lĩnh vực này, đánh đồng việc khai thác dữ liệu với thống kê cộng với tiếp thị. Trong thực tế, bạn không nên tìm kiếm một đường phân chia giữa học máy và thống kê bởi vì có một sự liên tục - và một chiều đa chiều ở đó - về kỹ thuật phân tích dữ liệu. Một số xuất phát từ các kỹ năng được dạy trong các khóa học thống kê tiêu chuẩn, và một số khác có liên quan chặt chẽ hơn với loại hình học máy phát sinh từ khoa học máy tính. Trong lịch sử, hai bên đã có truyền thống khá khác nhau. Nếu buộc phải chỉ ra một điểm khác biệt duy nhất của sự nhấn mạnh, có thể là số liệu thống kê đã được quan tâm nhiều hơn với các giả thuyết thử nghiệm,

Trước đây, các phương pháp rất giống nhau đã phát triển song song trong học máy và thống kê ...

Nhưng bây giờ hai quan điểm đã hội tụ.

NB1 IMO, khai thác dữ liệu và học máy là những thuật ngữ liên quan rất chặt chẽ với nhau. Theo một nghĩa nào đó, kỹ thuật học máy được sử dụng trong khai thác dữ liệu. Tôi thường xuyên xem các thuật ngữ này là có thể hoán đổi cho nhau và trong chừng mực chúng khác nhau, chúng thường đi cùng nhau. Tôi sẽ đề nghị xem qua bài báo "Hai nền văn hóa" cũng như các chủ đề khác từ câu hỏi ban đầu của tôi.

NB2 Thuật ngữ "khai thác dữ liệu" có thể có ý nghĩa tiêu cực khi được sử dụng thông thường có nghĩa là để một số thuật toán lỏng lẻo trên dữ liệu mà không có bất kỳ hiểu biết khái niệm nào. Ý nghĩa là khai thác dữ liệu sẽ dẫn đến kết quả giả và phù hợp quá mức. Tôi thường tránh sử dụng thuật ngữ này khi nói chuyện với những người không phải là chuyên gia và thay vào đó sử dụng học máy hoặc học thống kê như một từ đồng nghĩa.


Về NB2 - Tôi nghĩ rằng bạn hoàn toàn đúng về ý nghĩa của việc khai thác dữ liệu và tôi đã không thực hiện kết nối với học máy. Việc đào tạo của tôi luôn nhấn mạnh các vấn đề về sự phù hợp quá mức, tính giả mạo và tận dụng cơ hội và như vậy tôi đã hoài nghi về DM - và vẫn vậy, có lẽ cho đến khi ai đó thực sự nói với tôi họ đang làm gì và LÀM THẾ NÀO. Cảm ơn.
Brett

1
Sự ngụy biện duy nhất của tôi về sự khác biệt ML / DM sẽ là tôi nghĩ DM rộng hơn. Ví dụ, OLAP và các công cụ liên quan bao gồm các công nghệ khai thác. Nhưng những điều này đến từ phía cơ sở dữ liệu của khoa học máy tính chứ không phải học máy. Vai trò của thương mại trong việc định hình "ý nghĩa" của khai thác dữ liệu là khó có thể bỏ qua - nó mang đến các yếu tố của khoa học quản lý, nghiên cứu hoạt động, học máy và thống kê theo yêu cầu. Nó cũng mang lại ấn tượng về một cái gì đó mỏng manh, nhưng đó thường là vấn đề đối với những người theo chủ nghĩa thuần túy không phải là các học viên.
ars

@ars: Tôi đồng ý. Tôi đã cố gắng nói rằng một chút bằng cách nói "kỹ thuật học máy được sử dụng trong khai thác dữ liệu" (nghĩa là khai thác dữ liệu là một siêu tập hợp). Quan điểm của bạn về các ứng dụng thương mại cũng được chú ý. Mặc dù ai đó trong một ứng dụng thương mại bây giờ có thể coi công việc của họ là một cái gì đó khác (ví dụ "khoa học dữ liệu").
Shane

Đúng vậy, đáng lẽ tôi nên nói rằng tôi đang cố gắng tìm ra sự khác biệt, thay vì thực sự ngụy biện với những gì bạn đã viết. Xin lỗi vì sự sai lầm. Điểm hay về việc thay đổi thời gian và các điều khoản như việc áp dụng "khoa học dữ liệu". Không phải một trong những cuốn sách của Gelman bắt đầu bằng thứ gì đó như "thống kê là khoa học của dữ liệu" sao? Vì vậy, "họ" ăn cắp từ các nhà thống kê. Lần nữa. :)
ars

8

Khai thác dữ liệu được phân loại thành Mô tả hoặc Dự đoán. Khai thác dữ liệu mô tả là tìm kiếm các tập dữ liệu lớn và khám phá vị trí của các cấu trúc hoặc mối quan hệ không mong muốn, các mẫu, xu hướng, cụm và các ngoại lệ trong dữ liệu. Mặt khác, Dự đoán là xây dựng các mô hình và quy trình hồi quy, phân loại, nhận dạng mẫu hoặc các nhiệm vụ học máy và đánh giá độ chính xác dự đoán của các mô hình và quy trình đó khi áp dụng vào dữ liệu mới.

Cơ chế được sử dụng để tìm kiếm các mẫu hoặc cấu trúc trong dữ liệu chiều cao có thể là thủ công hoặc tự động; tìm kiếm có thể yêu cầu truy vấn tương tác một hệ thống quản lý cơ sở dữ liệu hoặc có thể yêu cầu sử dụng phần mềm trực quan để phát hiện ra sự bất thường trong dữ liệu. Trong thuật ngữ học máy, khai thác dữ liệu mô tả được gọi là học tập không giám sát, trong khi khai thác dữ liệu dự đoán được gọi là học tập có giám sát.

Hầu hết các phương pháp được sử dụng trong khai thác dữ liệu có liên quan đến các phương pháp được phát triển trong thống kê và học máy. Đầu tiên trong số các phương pháp đó là các chủ đề chung về hồi quy, phân loại, phân cụm và trực quan hóa. Do kích thước khổng lồ của các tập dữ liệu, nhiều ứng dụng khai thác dữ liệu tập trung vào các kỹ thuật giảm kích thước (ví dụ: lựa chọn biến) và các tình huống trong đó dữ liệu chiều cao bị nghi ngờ nằm ​​trên siêu phẳng chiều thấp hơn. Sự chú ý gần đây đã được hướng đến các phương pháp xác định dữ liệu chiều cao nằm trên bề mặt phi tuyến hoặc đa tạp.

Cũng có những tình huống trong khai thác dữ liệu khi suy luận thống kê - theo nghĩa cổ điển của nó - hoặc không có ý nghĩa hoặc có giá trị đáng ngờ: trước đây xảy ra khi chúng ta có toàn bộ dân số để tìm kiếm câu trả lời và sau đó xảy ra khi một tập dữ liệu là Tiện lợi của người mẹ thay vì là một mẫu ngẫu nhiên được rút ra từ một số dân số lớn. Khi dữ liệu được thu thập qua thời gian (ví dụ: giao dịch bán lẻ, giao dịch trên thị trường chứng khoán, hồ sơ bệnh nhân, hồ sơ thời tiết), việc lấy mẫu cũng có thể không có ý nghĩa; thứ tự thời gian của các quan sát là rất quan trọng để hiểu hiện tượng tạo ra dữ liệu và coi các quan sát là độc lập khi chúng có thể tương quan cao sẽ cung cấp kết quả sai lệch.

Các thành phần trung tâm của khai thác dữ liệu là - ngoài lý thuyết và phương pháp thống kê - tính toán và hiệu quả tính toán, xử lý dữ liệu tự động, kỹ thuật trực quan hóa dữ liệu động và tương tác, và phát triển thuật toán.

Một trong những vấn đề quan trọng nhất trong khai thác dữ liệu là vấn đề tính toán về khả năng mở rộng . Các thuật toán được phát triển để tính toán các phương pháp thống kê thăm dò và xác nhận tiêu chuẩn được thiết kế để nhanh và hiệu quả tính toán khi áp dụng cho các tập dữ liệu vừa và nhỏ; Tuy nhiên, người ta đã chứng minh rằng hầu hết các thuật toán này không vượt qua thách thức xử lý các tập dữ liệu khổng lồ. Khi các bộ dữ liệu phát triển, nhiều thuật toán hiện có thể hiện xu hướng chậm lại đáng kể (hoặc thậm chí bị đình trệ).


8

Khai thác dữ liệu là số liệu thống kê, với một số khác biệt nhỏ. Bạn có thể nghĩ về nó như là thống kê lại thương hiệu, bởi vì các nhà thống kê là hơi kỳ lạ.

Nó thường được liên kết với số liệu thống kê tính toán, tức là chỉ những thứ bạn có thể làm với máy tính.

Những người khai thác dữ liệu đã đánh cắp một tỷ lệ đáng kể các số liệu thống kê đa biến và gọi đó là số liệu của riêng họ. Kiểm tra mục lục của bất kỳ cuốn sách đa biến nào trong thập niên 1990 và so sánh nó với một cuốn sách khai thác dữ liệu mới. Rất tương đồng.

Thống kê được liên kết với các giả thuyết thử nghiệm và với việc xây dựng mô hình, trong khi khai thác dữ liệu có liên quan nhiều hơn đến dự đoán và phân loại, bất kể có mô hình nào dễ hiểu hay không.


1
Bản sao là gì? Tôi không thể thấy bất cứ điều gì rõ ràng.
Rob Hyndman

1
Khá giống với cái này tôi nghĩ: stats.stackexchange.com/questions/6/ Kẻ
Neil McGuigan

1
được. Tôi đã tìm kiếm khai thác dữ liệu, không phải học máy. Hãy bỏ phiếu để đóng nếu bạn nghĩ đó là một bản sao.
Rob Hyndman

Hmm, vậy Khai thác dữ liệu == Học máy?
ars

1
1) Tôi không thấy sự khác biệt của stat. Không có nhiều nhà thống kê làm điều đó không cần máy tính. Tôi cho rằng bạn có nghĩa là các thủ tục tính toán chuyên sâu như giải pháp lặp, vv? Nhưng sau đó, những điều này cũng phổ biến trong công việc thống kê hiện đại không phải là khai thác dữ liệu. 2) Trong công việc (số liệu thống kê) của riêng tôi, tôi đã quan tâm đến việc xây dựng mô hình để giải thích và dự đoán, tùy thuộc vào vấn đề - Tôi sẽ không xem xét việc khai thác dữ liệu đó. 3) Tôi để lại kết luận rằng DM hiện đại là một ứng dụng thống kê cụ thể, mà tôi nghĩ là một kết luận tốt.
Brett

6

Trước đây tôi đã viết một bài đăng mà tôi đã thực hiện một vài quan sát so sánh khai thác dữ liệu với tâm lý học. Tôi nghĩ rằng những quan sát này có thể nắm bắt một số khác biệt mà bạn đang xác định:

  1. "Khai thác dữ liệu dường như quan tâm nhiều hơn đến dự đoán bằng cách sử dụng các biến quan sát hơn là hiểu hệ thống nguyên nhân của các biến tiềm ẩn; tâm lý học thường quan tâm nhiều hơn đến hệ thống nguyên nhân của các biến tiềm ẩn.
  2. Khai thác dữ liệu thường liên quan đến các bộ dữ liệu lớn (ví dụ 10.000 + hàng) được thu thập cho mục đích khác với mục đích khai thác dữ liệu. Các bộ dữ liệu tâm lý thường nhỏ (ví dụ, dưới 1.000 hoặc 100 hàng) và được thu thập rõ ràng để khám phá một câu hỏi nghiên cứu.
  3. Phân tích tâm lý thường bao gồm thử nghiệm các mô hình cụ thể. Phương pháp tiếp cận phát triển mô hình tự động có xu hướng không thú vị về mặt lý thuyết. "- Khai thác dữ liệu và R

Tôi nghĩ rằng điểm 2 và 3 là những nhận xét hữu ích và phù hợp với những gì tôi thấy là sự khác biệt giữa hai SA và DM. Tôi không chắc lắm về điểm đầu tiên của bạn. Tôi đã thực hiện công việc thống kê nơi tôi quan tâm đến việc cải thiện sự hiểu biết về mối quan hệ nhân quả. Tuy nhiên, tôi cũng đã thực hiện công việc thống kê trong đó nhiệm vụ là lấy các mối quan hệ đã biết và phát triển các mô hình với mục đích duy nhất là dự đoán nhưng không chia sẻ các tính năng khác của "khai thác dữ liệu".
Brett

4

Tôi không nghĩ rằng sự khác biệt bạn thực hiện có liên quan đến sự khác biệt giữa khai thác dữ liệu và phân tích thống kê. Bạn đang nói về sự khác biệt giữa phương pháp phân tích thăm dò và phương pháp dự đoán mô hình hóa.

Tôi nghĩ rằng truyền thống của statisic được xây dựng với tất cả các bước: phân tích thăm dò, sau đó mô hình hóa, sau đó ước tính, sau đó thử nghiệm, sau đó dự báo / suy luận. Nhà thống kê thực hiện phân tích thăm dò để tìm ra dữ liệu trông như thế nào (tóm tắt chức năng theo R!) Tôi đoán dữ liệu được cấu trúc ít hơn và có thể được xác định bằng phân tích thăm dò. Tuy nhiên, nó sử dụng các kỹ thuật từ thống kê là từ ước tính, dự báo, phân loại ....


Tôi có thể mua nó Khai thác dữ liệu là ứng dụng thăm dò nhiều hơn của các kỹ thuật thống kê. Mặc dù vậy, tôi không nghĩ rằng sự khác biệt là đủ. Khi tôi thực hiện EDA trên bộ 100 quan sát của tôi từ một thử nghiệm được thiết kế, tôi không nghĩ có ai gọi đó là khai thác dữ liệu, phải không?
Brett
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.