Sự khác biệt giữa khai thác dữ liệu, thống kê, học máy và AI là gì?


208

Sự khác biệt giữa khai thác dữ liệu, thống kê, học máy và AI là gì?

Sẽ là chính xác để nói rằng họ là 4 lĩnh vực đang cố gắng giải quyết các vấn đề rất giống nhau nhưng với các cách tiếp cận khác nhau? Chính xác thì họ có điểm gì chung và họ khác nhau ở đâu? Nếu có một loại thứ bậc giữa chúng, nó sẽ là gì?

Những câu hỏi tương tự đã được hỏi trước đây nhưng tôi vẫn không hiểu:

Câu trả lời:


109

Có sự chồng chéo đáng kể trong số này, nhưng một số khác biệt có thể được thực hiện. Cần thiết, tôi sẽ phải đơn giản hóa quá mức một số thứ hoặc đưa ra những bước ngắn cho những người khác, nhưng tôi sẽ cố gắng hết sức để đưa ra ý nghĩa về những lĩnh vực này.

Thứ nhất, Trí tuệ nhân tạo khá khác biệt so với phần còn lại. AI là nghiên cứu về cách tạo ra các tác nhân thông minh. Trong thực tế, đó là cách lập trình một máy tính để hành xử và thực hiện một nhiệm vụ như một tác nhân thông minh (giả sử, một người) sẽ làm. Điều này hoàn toàn không phải liên quan đến việc học hay cảm ứng, nó chỉ có thể là một cách để 'xây dựng một cái bẫy chuột tốt hơn'. Ví dụ, các ứng dụng AI đã bao gồm các chương trình để giám sát và kiểm soát các quá trình đang diễn ra (ví dụ: tăng khía cạnh A nếu nó có vẻ quá thấp). Lưu ý rằng AI có thể bao gồm gần như bất cứ thứ gì mà máy làm, miễn là nó không làm điều đó một cách 'ngu ngốc'.

Tuy nhiên, trong thực tế, hầu hết các nhiệm vụ đòi hỏi trí thông minh đòi hỏi khả năng tạo ra kiến ​​thức mới từ kinh nghiệm. Do đó, một lĩnh vực rộng lớn trong AI là học máy . Một chương trình máy tính được cho là học một số nhiệm vụ từ kinh nghiệm nếu hiệu suất của nó tại nhiệm vụ được cải thiện theo kinh nghiệm, theo một số biện pháp hiệu suất. Học máy liên quan đến việc nghiên cứu các thuật toán có thể trích xuất thông tin tự động (nghĩa là không có hướng dẫn trực tuyến của con người). Đó chắc chắn là trường hợp một số trong các quy trình này bao gồm các ý tưởng xuất phát trực tiếp hoặc lấy cảm hứng từ các thống kê cổ điển, nhưng chúng không được. Tương tự như AI, máy học rất rộng và có thể bao gồm hầu hết mọi thứ, miễn là có một số thành phần quy nạp cho nó. Một ví dụ về thuật toán học máy có thể là bộ lọc Kalman.

Khai thác dữ liệu là một lĩnh vực lấy nhiều cảm hứng và kỹ thuật của nó từ học máy (và một số, cũng như từ thống kê), nhưng được đưa vào các mục đích khác nhau . Khai thác dữ liệu được thực hiện bởi một người , trong một tình huống cụ thể, trên một tập dữ liệu cụ thể, với một mục tiêu trong tâm trí. Thông thường, người này muốn tận dụng sức mạnh của các kỹ thuật nhận dạng mẫu khác nhau đã được phát triển trong học máy. Thông thường, bộ dữ liệu rất lớn , phức tạp và / hoặc có thể có vấn đề đặc biệt(chẳng hạn như có nhiều biến hơn quan sát). Thông thường, mục tiêu là để khám phá / tạo ra một số hiểu biết sơ bộ trong một khu vực nơi thực sự có ít kiến ​​thức trước đó hoặc để có thể dự đoán chính xác các quan sát trong tương lai. Hơn nữa, các quy trình khai thác dữ liệu có thể là 'không được giám sát' (chúng tôi không biết câu trả lời - khám phá) hoặc 'được giám sát' (chúng tôi biết câu trả lời - dự đoán). Lưu ý rằng mục tiêu nói chung không phải là để phát triển sự hiểu biết phức tạp hơn về quy trình tạo dữ liệu cơ bản. Các kỹ thuật khai thác dữ liệu phổ biến sẽ bao gồm phân tích cụm, cây phân loại và hồi quy và mạng lưới thần kinh.

Tôi cho rằng tôi không cần nói nhiều để giải thích thống kê nào trên trang này, nhưng có lẽ tôi có thể nói một vài điều. Thống kê cổ điển (ở đây tôi có nghĩa là cả người thường xuyên và Bayes) là một chủ đề phụ trong toán học. Tôi nghĩ về nó phần lớn là giao điểm của những gì chúng ta biết về xác suất và những gì chúng ta biết về tối ưu hóa. Mặc dù số liệu thống kê toán học có thể được nghiên cứu đơn giản là một đối tượng nghiên cứu của Platonic, nhưng nó hầu hết được hiểu là thực tế hơn và được áp dụng trong tính cách so với các lĩnh vực khác, hiếm hơn của toán học. Như vậy (và đáng chú ý là trái ngược với khai thác dữ liệu ở trên), nó chủ yếu được sử dụng để hiểu rõ hơn về một số quy trình tạo dữ liệu cụ thể. Vì vậy, nó thường bắt đầu với một mô hình được chỉ định chính thứcvà từ đây là các thủ tục xuất phát để trích xuất chính xác mô hình đó từ các trường hợp nhiễu (nghĩa là ước tính - bằng cách tối ưu hóa một số hàm mất) và để có thể phân biệt nó với các khả năng khác (nghĩa là suy luận dựa trên các đặc tính đã biết của phân phối lấy mẫu). Kỹ thuật thống kê nguyên mẫu là hồi quy.


1
Tôi đồng ý với hầu hết các bài đăng, nhưng tôi sẽ nói rằng AI hầu hết thời gian không cố gắng tạo ra các tác nhân thông minh (dù sao thì thông minh là gì?), Mà là các tác nhân hợp lý. Theo lý trí, nó có nghĩa là "tối ưu cho kiến ​​thức có sẵn về thế giới". Mặc dù thừa nhận mục tiêu cuối cùng là một cái gì đó giống như một người giải quyết vấn đề chung.
kutschkem

3
xin lỗi, tôi vẫn không nhận được sự khác biệt giữa khai thác dữ liệu và học máy. từ những gì tôi thấy, khai thác dữ liệu = học tập không giám sát của máy học. không học máy không giám sát về việc khám phá những hiểu biết mới?
dtc

Một người dùng ẩn danh đã đề xuất blogpost này cho một bảng phá vỡ sự khác biệt giữa khai thác dữ liệu và học máy trên cơ sở tham số.
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Có an toàn không khi nói rằng mạng nơ-ron là một ví dụ về công cụ học máy được sử dụng trong khai thác dữ liệu, so với phân tích cụm là thuật toán không được thiết kế cho học máy được sử dụng để khai thác dữ liệu?
t0mgs

Trong thực tế, tất cả đều khá mờ nhạt, @ TomGranot-Scalosub. Tôi muốn nói rằng các mạng thần kinh chắc chắn là ML, và chắc chắn phân tích cụm & GIỎ HÀNG được nghiên cứu bởi các nhà nghiên cứu ML. Tôi cố gắng làm cho các ý tưởng có phần rõ ràng và khác biệt hơn, nhưng thực sự không có một đường sáng giữa các danh mục này.
gung

41

Nhiều câu trả lời khác đã bao gồm những điểm chính nhưng bạn đã yêu cầu một hệ thống phân cấp nếu có tồn tại và theo cách tôi nhìn thấy, mặc dù chúng là mỗi môn học theo cách riêng của chúng, nhưng dường như không có thứ bậc nào được đề cập vì mỗi bản dựng cái trước đó.

Thống kê chỉ là về các con số, và định lượng dữ liệu. Có nhiều công cụ để tìm các thuộc tính có liên quan của dữ liệu nhưng điều này khá gần với toán học thuần túy.

Khai thác dữ liệu là về việc sử dụng Thống kê cũng như các phương pháp lập trình khác để tìm các mẫu ẩn trong dữ liệu để bạn có thể giải thích một số hiện tượng. Khai thác dữ liệu xây dựng trực giác về những gì đang thực sự xảy ra trong một số dữ liệu và vẫn ít hướng tới toán học hơn là lập trình, nhưng sử dụng cả hai.

Machine Learning sử dụng các kỹ thuật Khai thác dữ liệu và các thuật toán học tập khác để xây dựng các mô hình về những gì đang xảy ra đằng sau một số dữ liệu để có thể dự đoán kết quả trong tương lai. Toán học là nền tảng cho nhiều thuật toán, nhưng điều này thiên về lập trình.

Trí tuệ nhân tạo sử dụng các mô hình được xây dựng bởi Machine Learning và các cách khác để suy luận về thế giới và làm phát sinh hành vi thông minh cho dù đây là chơi trò chơi hay lái robot / xe hơi. Trí tuệ nhân tạo có một số mục tiêu cần đạt được bằng cách dự đoán các hành động sẽ ảnh hưởng đến mô hình của thế giới như thế nào và chọn các hành động sẽ đạt được mục tiêu đó tốt nhất. Rất lập trình dựa.

Nói ngắn gọn

  • Thống kê định lượng số
  • Khai thác dữ liệu giải thích các mẫu
  • Machine Learning dự đoán với các mô hình
  • Trí tuệ nhân tạo hành xửlý do

Bây giờ điều này đang được nói, sẽ có một số vấn đề AI chỉ rơi vào AI và tương tự cho các lĩnh vực khác, nhưng hầu hết các vấn đề thú vị ngày nay (ví dụ như xe tự lái) có thể được gọi một cách dễ dàng và chính xác. Hy vọng điều này sẽ làm sáng tỏ mối quan hệ giữa họ mà bạn đã hỏi về.


Bạn đã bao giờ sử dụng WEKA hoặc RapidMiner chưa? Ví dụ, EM nằm trong khai thác dữ liệu và nó áp dụng một mô hình. Ngoài ra, hãy xem định nghĩa được đưa ra bởi mariana nhẹ nhàng hơn và so sánh nó với câu trả lời của bạn. Đó là một vài năm trước, tôi đã đọc Giám mục và Russell / Norvig, nhưng theo như tôi nhớ về def. bởi mariana mềm hơn là phù hợp hơn. khai thác dữ liệu btw là ("chỉ") bước quan trọng trước khi khám phá kiến ​​thức. khai thác dữ liệu chỉ lấy dữ liệu - và tiếp theo là thông tin - khi sử dụng thuật toán với các tham số đầy đủ. khai thác dữ liệu không thể giải thích các mẫu.
ghi nhớ

Không, @mnemonic, định nghĩa về AI này phù hợp với Russell và Norvig hơn nhiều so với mariana, vốn khá cũ
nealmcb

2
Tôi nghĩ rằng mô tả số liệu thống kê là kém; số lượng hóa là số liệu thống kê mà bộ thống kê quốc gia báo cáo, nhưng điều này không giống với khoa học thống kê tạo ra các mô hình cho dữ liệu, ước tính các tham số của chúng và suy luận. Ngoài ra, mối quan hệ giữa khai thác dữ liệu và học máy bị đảo lộn; khoa học dữ liệu sử dụng các kỹ thuật học máy, không phải là cách khác. Xem câu trả lời của Ken van Haren là tốt.
Richard Hardy

25
  • Thống kê liên quan đến các mô hình xác suất, cụ thể là suy luận về các mô hình này sử dụng dữ liệu.
  • Machine Learning liên quan đến việc dự đoán một kết quả cụ thể được cung cấp một số dữ liệu. Hầu như bất kỳ phương pháp học máy hợp lý nào cũng có thể được coi là một mô hình xác suất chính thức, vì vậy theo nghĩa này, học máy rất giống với thống kê, nhưng nó khác ở chỗ nó thường không quan tâm đến ước tính tham số (chỉ là dự đoán) và nó tập trung về hiệu quả tính toán và bộ dữ liệu lớn.
  • Khai thác dữ liệu là (theo tôi hiểu) ứng dụng học máy. Nó tập trung nhiều hơn vào các khía cạnh thực tế của việc triển khai các thuật toán học máy trên các bộ dữ liệu lớn. Nó rất giống với học máy.
  • Trí tuệ nhân tạo là bất cứ điều gì liên quan đến (một số định nghĩa tùy ý) về trí thông minh trong máy tính. Vì vậy, nó bao gồm rất nhiều thứ.

Nhìn chung, các mô hình xác suất (và do đó là thống kê) đã được chứng minh là cách hiệu quả nhất để cấu trúc chính thức kiến ​​thức và hiểu biết trong một cỗ máy, đến mức mà cả ba trong số những người khác (AI, ML và DM) ngày nay hầu hết đều là trường con số liệu thống kê. Không phải là ngành học đầu tiên trở thành một đội bóng thống kê ... (Kinh tế, tâm lý học, tin sinh học, v.v.)


5
@Ken - Sẽ không chính xác khi mô tả tâm lý kinh tế hay AI là bóng tối của thống kê - ngay cả khi số liệu thống kê được sử dụng nhiều trong mỗi vấn đề để phân tích nhiều vấn đề mà các lĩnh vực này quan tâm. Bạn không muốn đề xuất y học là một cánh tay bóng tối thống kê ngay cả khi hầu hết các kết luận y tế phụ thuộc nhiều vào phân tích dữ liệu.
mpacer

@Ken - Đây là một phản hồi tuyệt vời nhưng bạn có thể mô tả đầy đủ hơn những thứ khác mà AI bao gồm. Ví dụ, trong lịch sử AI cũng đã bao gồm một lượng lớn phân tích các mô hình không có xác suất (ví dụ: hệ thống sản xuất, máy tự động di động, v.v., ví dụ, xem Newell & Simon 1972). Tất nhiên tất cả các mô hình như vậy là giới hạn các trường hợp của một số mô hình xác suất, nhưng chúng không được phân tích trong một tĩnh mạch như vậy cho đến sau này.
mpacer

4
khai thác dữ liệu vượt ra ngoài việc học máy, vì nó thực sự liên quan đến cách dữ liệu được lưu trữ và lập chỉ mục để làm cho các thuật toán nhanh hơn nhiều. Nó có thể được đặc trưng bằng cách sử dụng các phương pháp chủ yếu từ AI, ML và thống kê và kết hợp chúng với các kỹ thuật bố trí dữ liệu và quản lý dữ liệu hiệu quả và thông minh. Khi nó không liên quan đến quản lý dữ liệu, bạn thường có thể gọi nó là "machine learning". Tuy nhiên, có một số nhiệm vụ, đặc biệt là "không giám sát", trong đó không có "học tập" liên quan, nhưng cũng không có quản lý dữ liệu, chúng vẫn được gọi là "khai thác dữ liệu" (phân cụm, phát hiện ngoại lệ).
Anony-Mousse

21

Chúng ta có thể nói rằng tất cả chúng đều liên quan, nhưng chúng đều là những thứ khác nhau. Mặc dù bạn có thể có những điểm chung giữa chúng, chẳng hạn như trong thống kê và khai thác dữ liệu, bạn sử dụng các phương pháp phân cụm.
Hãy để tôi cố gắng xác định ngắn gọn từng:

  • Thống kê là một môn học rất cũ chủ yếu dựa trên các phương pháp toán học cổ điển, có thể được sử dụng cho cùng một mục đích mà việc khai thác dữ liệu đôi khi là phân loại và nhóm các thứ.

  • Khai thác dữ liệu bao gồm các mô hình tòa nhà để phát hiện các mẫu cho phép chúng tôi phân loại hoặc dự đoán các tình huống được cung cấp một số lượng thực tế hoặc yếu tố.

  • Trí tuệ nhân tạo (kiểm tra Marvin Minsky *) là môn học cố gắng mô phỏng cách thức bộ não hoạt động với các phương pháp lập trình, ví dụ như xây dựng một chương trình chơi cờ.

  • Học máy là nhiệm vụ xây dựng kiến ​​thức và lưu trữ nó dưới một hình thức nào đó trong máy tính; hình thức đó có thể là các mô hình toán học, thuật toán, v.v ... Bất cứ điều gì có thể giúp phát hiện các mẫu.


2
Không, hầu hết AI hiện đại không tuân theo cách tiếp cận "mô phỏng bộ não" sớm đó. Nó tập trung vào việc tạo ra các "tác nhân hợp lý" hoạt động trong một môi trường để tối đa hóa tiện ích và liên quan chặt chẽ hơn đến học máy. Xem cuốn sách của Russell và Norvig.
nealmcb

1
Tôi không thấy sự khác biệt giữa ML và khai thác dữ liệu trong định nghĩa của bạn
Martin Thoma

16

Tôi quen thuộc nhất với máy học - trục khai thác dữ liệu - vì vậy tôi sẽ tập trung vào đó:

Học máy có xu hướng quan tâm đến suy luận trong các tình huống không chuẩn, ví dụ dữ liệu không phải là iid, học tích cực, học bán giám sát, học với dữ liệu có cấu trúc (ví dụ chuỗi hoặc biểu đồ). ML cũng có xu hướng quan tâm đến các giới hạn lý thuyết về những gì có thể học được, thường tạo thành cơ sở cho các thuật toán được sử dụng (ví dụ: máy vectơ hỗ trợ). ML có xu hướng mang bản chất Bayes.

Khai thác dữ liệu quan tâm đến việc tìm kiếm các mẫu trong dữ liệu mà bạn chưa biết. Tôi không chắc rằng nó khác biệt đáng kể so với phân tích dữ liệu thăm dò trong thống kê, trong khi đó trong học máy nói chung có một vấn đề được xác định rõ hơn để giải quyết.

ML có xu hướng quan tâm nhiều hơn đến các bộ dữ liệu nhỏ trong đó sự phù hợp quá mức là vấn đề và việc khai thác dữ liệu có xu hướng quan tâm đến các bộ dữ liệu quy mô lớn, nơi vấn đề đang xử lý số lượng dữ liệu.

Thống kê và học máy cung cấp nhiều công cụ cơ bản được sử dụng bởi các nhà khai thác dữ liệu.


Tôi không đồng ý với "ML có xu hướng quan tâm nhiều hơn đến các bộ dữ liệu nhỏ".
Martin Thoma

khai thác dữ liệu trở nên khó khăn hơn nhiều với các bộ dữ liệu nhỏ vì nó làm tăng cơ hội tìm kiếm một liên kết giả (và làm tăng khó khăn trong việc phát hiện nó). Với các tập hợp dữ liệu nhỏ, suy ra càng ít sự lựa chọn càng tốt có xu hướng an toàn hơn nhiều.
Dikran Marsupial

13

Đây là mất của tôi tại nó. Hãy bắt đầu với hai loại rất rộng:

  • bất cứ thứ gì thậm chí chỉ giả vờ thông minhtrí thông minh nhân tạo (bao gồm ML và DM).
  • bất cứ điều gì tóm tắt dữ liệu là số liệu thống kê , mặc dù bạn thường chỉ áp dụng điều này cho các phương pháp chú ý đến tính hợp lệ của kết quả (thường được sử dụng trong ML và DM)

Cả ML và DM thường là cả hai, AI và thống kê, vì chúng thường liên quan đến các phương pháp cơ bản từ cả hai. Dưới đây là một số khác biệt:

  • trong học máy , bạn có một mục tiêu được xác định rõ (thường là dự đoán )
  • trong khai thác dữ liệu , về cơ bản bạn có mục tiêu " điều mà trước đây tôi không biết "

Ngoài ra, khai thác dữ liệu thường liên quan đến việc quản lý dữ liệu nhiều hơn , tức là cách tổ chức dữ liệu trong các cấu trúc chỉ mục và cơ sở dữ liệu hiệu quả.

Thật không may, chúng không dễ tách ra. Ví dụ: có "học tập không giám sát", thường liên quan chặt chẽ hơn với DM so với ML, vì nó không thể tối ưu hóa hướng tới mục tiêu. Mặt khác, các phương pháp DM rất khó đánh giá (làm thế nào để bạn đánh giá thứ gì đó mà bạn không biết?) Và thường được đánh giá trên cùng các nhiệm vụ như học máy, bằng cách bỏ qua một số thông tin. Tuy nhiên, điều này thường sẽ khiến chúng dường như hoạt động kém hơn các phương pháp học máy có thể tối ưu hóa hướng tới mục tiêu đánh giá thực tế.

Hơn nữa, chúng thường được sử dụng trong các kết hợp. Ví dụ: phương pháp khai thác dữ liệu (giả sử, phân cụm hoặc phát hiện ngoại lệ không giám sát) được sử dụng để xử lý trước dữ liệu, sau đó phương pháp học máy được áp dụng trên dữ liệu được xử lý trước để đào tạo các phân loại tốt hơn.

Học máy thường dễ đánh giá hơn nhiều: có một mục tiêu như điểm số hoặc dự đoán lớp học. Bạn có thể tính toán chính xác và thu hồi. Trong khai thác dữ liệu, hầu hết các đánh giá được thực hiện bằng cách bỏ đi một số thông tin (như nhãn lớp) và sau đó kiểm tra xem phương thức của bạn có phát hiện ra cấu trúc tương tự hay không. Điều này là ngây thơ theo nghĩa, khi bạn giả định rằng các nhãn lớp mã hóa hoàn toàn cấu trúc của dữ liệu; bạn thực sự trừng phạt thuật toán khai thác dữ liệu phát hiện ra một cái gì đó mới trong dữ liệu của bạn. Một cách khác - gián tiếp - đánh giá nó, là cách cấu trúc được phát hiện cải thiện hiệu năng của thuật toán ML thực tế (ví dụ: khi phân vùng dữ liệu hoặc loại bỏ các ngoại lệ). Tuy nhiên, đánh giá này dựa trên việc tái tạo các kết quả hiện có, đây không thực sự là mục tiêu khai thác dữ liệu ...


1
Phản ứng của bạn rất sâu sắc. Tôi đặc biệt đánh giá cao đoạn cuối cùng, về sự khác biệt trong việc đánh giá hiệu suất của ML và đánh giá hiệu suất của DM.
justis

8

Tôi muốn thêm một số quan sát vào những gì đã nói ...

AI là một thuật ngữ rất rộng cho bất cứ điều gì liên quan đến máy móc thực hiện các hoạt động giống như lý luận hoặc xuất hiện, từ việc lên kế hoạch cho một nhiệm vụ hoặc hợp tác với các thực thể khác, để học cách vận hành tay chân để đi bộ. Một định nghĩa sâu sắc là AI là bất cứ thứ gì liên quan đến máy tính mà chúng ta chưa biết cách làm tốt. (Một khi chúng ta biết cách làm tốt nó, nó thường có tên riêng và không còn là "AI".)

Đó là ấn tượng của tôi, trái ngược với Wikipedia, rằng Nhận dạng mẫu và Học máy là cùng một lĩnh vực, nhưng cái trước được thực hành bởi những người làm khoa học máy tính trong khi cái sau được thực hiện bởi các nhà thống kê và kỹ sư. (Nhiều lĩnh vực kỹ thuật được phát hiện nhiều lần bởi các nhóm nhỏ khác nhau, những người thường mang theo biệt ngữ và suy nghĩ riêng của họ đến bàn.)

Dù sao, trong suy nghĩ của tôi, dù sao đi nữa, tôi cũng cần có Machine Learning / Pattern Recognition (các kỹ thuật làm việc với dữ liệu) và bọc chúng trong cơ sở dữ liệu, cơ sở hạ tầng và kỹ thuật xác thực / làm sạch dữ liệu.


6
Học máy và nhận dạng mẫu không giống nhau, học máy cũng quan tâm đến những thứ như hồi quy và suy luận nguyên nhân, vv Nhận dạng mẫu chỉ là một trong những vấn đề được quan tâm trong học máy. Hầu hết những người học máy tôi biết đều ở trong khoa khoa học máy tính.
Dikran Marsupial

2
@Dikran Đồng ý nhưng ML và PR thường được đặt bí danh và trình bày theo các chủ đề tương tự của phân tích dữ liệu. Cuốn sách ưa thích của tôi thực sự là Nhận dạng mẫu và Học máy , từ Giám mục của ông Kouthe M. Dưới đây là đánh giá của John MainDonald trong JSS, j.mp/etg3w1 .
chl

Tôi cũng cảm thấy từ "học máy" phổ biến hơn nhiều so với "nhận dạng mẫu" trong thế giới CS.
bayerj

Cũng cảm thấy ở đây ML là một thuật ngữ CS.
Karl Morrison

3

Đáng buồn thay, sự khác biệt giữa các lĩnh vực này chủ yếu là nơi họ được dạy: thống kê dựa trên toán học, ai, học máy trong khoa học máy tính và khai thác dữ liệu được áp dụng nhiều hơn (được sử dụng bởi các doanh nghiệp hoặc tiếp thị, được phát triển bởi các công ty phần mềm) .

Đầu tiên AI (mặc dù nó có thể có nghĩa là bất kỳ hệ thống thông minh nào) có truyền thống có nghĩa là các phương pháp tiếp cận dựa trên logic (ví dụ: hệ thống chuyên gia) thay vì ước tính thống kê. Thống kê, dựa trên toán học, đã có sự hiểu biết lý thuyết rất tốt, cùng với kinh nghiệm ứng dụng mạnh mẽ trong khoa học thực nghiệm, nơi có một mô hình khoa học rõ ràng và cần có số liệu thống kê để đối phó với dữ liệu thực nghiệm hạn chế. Trọng tâm thường tập trung vào việc thu thập thông tin tối đa từ các tập dữ liệu rất nhỏ. hơn nữa có sự thiên vị đối với các bằng chứng toán học: bạn sẽ không được công bố trừ khi bạn có thể chứng minh mọi thứ về cách tiếp cận của mình. Điều này có xu hướng có nghĩa là số liệu thống kê đã bị chậm trễ trong việc sử dụng máy tính để tự động hóa phân tích. Lần nữa, việc thiếu kiến ​​thức lập trình đã ngăn cản các nhà thống kê làm việc với các vấn đề quy mô lớn, trong đó các vấn đề tính toán trở nên quan trọng (xem xét GPU và các hệ thống phân tán như hadoop). Tôi tin rằng các lĩnh vực như tin sinh học hiện đã di chuyển số liệu thống kê nhiều hơn theo hướng này. Cuối cùng tôi sẽ nói rằng các nhà thống kê là một nhóm đa nghi hơn: họ không cho rằng bạn khám phá kiến ​​thức bằng thống kê - thay vào đó một nhà khoa học đưa ra một giả thuyết, và công việc của nhà thống kê là kiểm tra giả thuyết được hỗ trợ bởi dữ liệu. Học máy được dạy trong các khoa cs, tiếc là không dạy toán phù hợp: phép tính đa biến, xác suất, thống kê và tối ưu hóa không phổ biến ... người ta có những khái niệm 'quyến rũ' mơ hồ như học từ các ví dụ ...Các yếu tố của học thống kê trang 30. Điều này có nghĩa là có rất ít sự hiểu biết về lý thuyết và sự bùng nổ của các thuật toán vì các nhà nghiên cứu luôn có thể tìm thấy một số dữ liệu mà thuật toán của họ chứng minh tốt hơn. Vì vậy, có những giai đoạn cường điệu lớn khi các nhà nghiên cứu ML theo đuổi điều lớn lao tiếp theo: mạng lưới thần kinh, học tập sâu, v.v. Thật không may, có rất nhiều tiền trong các bộ phận CS (nghĩ rằng google, Microsoft, cùng với việc 'học hỏi' dễ tiếp thị hơn) thống kê hoài nghi hơn được bỏ qua. Cuối cùng, có một người theo chủ nghĩa kinh nghiệm bẻ cong: về cơ bản có một niềm tin tiềm ẩn rằng nếu bạn ném đủ dữ liệu vào thuật toán, nó sẽ 'học' các dự đoán chính xác. Trong khi tôi thiên vị chống lại ML, có một cái nhìn sâu sắc cơ bản về ML mà các nhà thống kê đã bỏ qua: rằng máy tính có thể cách mạng hóa việc áp dụng thống kê.

Có hai cách - a) tự động hóa việc áp dụng các thử nghiệm và mô hình tiêu chuẩn. Ví dụ: chạy pin của các mô hình (hồi quy tuyến tính, rừng ngẫu nhiên, v.v ... thử các kết hợp khác nhau của đầu vào, cài đặt tham số, v.v.). Điều này đã không thực sự xảy ra - mặc dù tôi nghi ngờ rằng các đối thủ cạnh tranh trên kaggle phát triển các kỹ thuật tự động hóa của riêng họ. b) áp dụng các mô hình thống kê tiêu chuẩn cho dữ liệu khổng lồ: nghĩ về ví dụ google dịch, hệ thống đề xuất, v.v. (không ai cho rằng đó là người dịch hoặc giới thiệu như vậy..nhưng đó là một công cụ hữu ích). Các mô hình thống kê cơ bản là đơn giản nhưng có những vấn đề tính toán rất lớn trong việc áp dụng các phương pháp này cho hàng tỷ điểm dữ liệu.

Khai thác dữ liệu là đỉnh cao của triết lý này ... phát triển các cách tự động trích xuất kiến ​​thức từ dữ liệu. Tuy nhiên, nó có một cách tiếp cận thực tế hơn: về cơ bản nó được áp dụng cho dữ liệu hành vi, trong đó không có lý thuyết khoa học bao quát (tiếp thị, phát hiện gian lận, spam, v.v.) và mục đích là để tự động hóa việc phân tích khối lượng dữ liệu lớn: không còn nghi ngờ gì nữa nhóm các nhà thống kê có thể tạo ra các phân tích tốt hơn trong một thời gian đủ, nhưng sử dụng máy tính sẽ hiệu quả hơn về mặt chi phí. Hơn nữa, như D. Hand giải thích đó là phân tích dữ liệu thứ cấp - dữ liệu được ghi lại bằng mọi cách thay vì dữ liệu đã được thu thập rõ ràng để trả lời một câu hỏi khoa học trong một thiết kế thử nghiệm vững chắc. Thống kê khai thác dữ liệu và hơn thế nữa, D Hand

Vì vậy, tôi sẽ tóm tắt rằng AI truyền thống dựa trên logic chứ không phải thống kê, học máy là thống kê mà không có lý thuyết và thống kê là 'thống kê không có máy tính' và khai thác dữ liệu là phát triển các công cụ tự động để phân tích thống kê với sự can thiệp tối thiểu của người dùng.


Câu trả lời này lan man rất nhiều, vì vậy nó rất khó để theo dõi và dài một cách không cần thiết, nhưng nó thực sự đánh dấu sự khác biệt có liên quan nhiều đến truyền thống kỷ luật và nhấn mạnh hơn bất cứ điều gì khác.
Tripartio

1

Khai thác dữ liệu là về việc khám phá các mẫu ẩn hoặc kiến ​​thức chưa biết, có thể được sử dụng để ra quyết định bởi mọi người.

Học máy là học một mô hình để phân loại các đối tượng mới.


Là máy học chỉ về phân loại? Học máy không thể được sử dụng để phục vụ các mục tiêu khác?
gung

@gung Hoàn toàn không. Học tăng cường là, IMHO, lĩnh vực con đặc trưng nhất của ML và tôi sẽ không nói rằng nó dựa trên phân loại nhưng dựa trên việc đạt được mục tiêu.
nbro 17/03/18

@nbro, nhận xét đó được cho là một gợi ý cho OP để xem xét lại mức độ hẹp của họ khi xác định ML.
gung

0

Theo tôi, Trí tuệ nhân tạo có thể được coi là "siêu năng lực" của các lĩnh vực như Học máy, Khai thác dữ liệu, Nhận dạng mẫu, v.v.

  • Thống kê, là một lĩnh vực toán học bao gồm tất cả các mô hình toán học, kỹ thuật và định lý đang được sử dụng trong AI.

  • Machine Learning là một lĩnh vực của AI bao gồm tất cả các thuật toán áp dụng các Mô hình thống kê đã đề cập ở trên và có ý nghĩa về dữ liệu, nghĩa là các phân tích dự đoán như phân cụm và phân loại.

  • Khai thác dữ liệu là khoa học sử dụng tất cả các kỹ thuật trên (chủ yếu là học máy) để trích xuất các mẫu hữu ích và quan trọng từ dữ liệu. Khai thác dữ liệu thường phải thực hiện với việc trích xuất thông tin hữu ích từ các bộ dữ liệu lớn, đó là Dữ liệu lớn.


-1

Làm thế nào về: máy dạy học

Nhận biết các mẫu có ý nghĩa trong dữ liệu: khai thác dữ liệu

Dự đoán kết quả từ các mẫu đã biết: ML

Tìm các tính năng mới để ánh xạ lại dữ liệu thô: AI

Bộ não chim này thực sự cần định nghĩa đơn giản.


-1

Thông thường việc khai thác dữ liệu cố gắng "dự đoán" một số dữ liệu trong tương lai hoặc "giải thích" lý do tại sao điều gì đó xảy ra.

Thống kê được sử dụng nhiều hơn để xác nhận giả thuyết trong mắt tôi. Nhưng đây là một cuộc thảo luận chủ quan.

Một sự khác biệt rõ ràng giữa các nhà thống kê và người khai thác dữ liệu có thể được tìm thấy trong loại thống kê tóm tắt mà họ xem xét.

Số liệu thống kê thường sẽ tự giới hạn ở R² và độ chính xác, trong khi các công cụ khai thác dữ liệu sẽ xem xét các đường cong AUC, ROC, đường cong nâng v.v. và cũng có thể được quan tâm bằng cách sử dụng đường cong chính xác liên quan đến chi phí.

Các gói khai thác dữ liệu (ví dụ Weka mã nguồn mở), đã được xây dựng các kỹ thuật để lựa chọn đầu vào, hỗ trợ phân loại máy vectơ, v.v. trong khi đó hầu hết chỉ vắng mặt trong các gói thống kê như JMP. Gần đây tôi đã tham gia một khóa học về "khai thác dữ liệu trong jmp" từ người jmp, và mặc dù đó là một gói mạnh về mặt trực quan, một số kỹ thuật khai thác dữ liệu trước / sau / giữa cần thiết bị thiếu. Lựa chọn đầu vào được thực hiện thủ công, để hiểu rõ hơn về dữ liệu, vẫn trong khai thác dữ liệu, đó chỉ là ý định của bạn để phát hành thuật toán, thông minh, trên dữ liệu lớn và tự động xem những gì xuất hiện. Khóa học rõ ràng được giảng dạy bởi những người thống kê, trong đó nhấn mạnh đến suy nghĩ khác nhau giữa hai người.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.