Đáng buồn thay, sự khác biệt giữa các lĩnh vực này chủ yếu là nơi họ được dạy: thống kê dựa trên toán học, ai, học máy trong khoa học máy tính và khai thác dữ liệu được áp dụng nhiều hơn (được sử dụng bởi các doanh nghiệp hoặc tiếp thị, được phát triển bởi các công ty phần mềm) .
Đầu tiên AI (mặc dù nó có thể có nghĩa là bất kỳ hệ thống thông minh nào) có truyền thống có nghĩa là các phương pháp tiếp cận dựa trên logic (ví dụ: hệ thống chuyên gia) thay vì ước tính thống kê. Thống kê, dựa trên toán học, đã có sự hiểu biết lý thuyết rất tốt, cùng với kinh nghiệm ứng dụng mạnh mẽ trong khoa học thực nghiệm, nơi có một mô hình khoa học rõ ràng và cần có số liệu thống kê để đối phó với dữ liệu thực nghiệm hạn chế. Trọng tâm thường tập trung vào việc thu thập thông tin tối đa từ các tập dữ liệu rất nhỏ. hơn nữa có sự thiên vị đối với các bằng chứng toán học: bạn sẽ không được công bố trừ khi bạn có thể chứng minh mọi thứ về cách tiếp cận của mình. Điều này có xu hướng có nghĩa là số liệu thống kê đã bị chậm trễ trong việc sử dụng máy tính để tự động hóa phân tích. Lần nữa, việc thiếu kiến thức lập trình đã ngăn cản các nhà thống kê làm việc với các vấn đề quy mô lớn, trong đó các vấn đề tính toán trở nên quan trọng (xem xét GPU và các hệ thống phân tán như hadoop). Tôi tin rằng các lĩnh vực như tin sinh học hiện đã di chuyển số liệu thống kê nhiều hơn theo hướng này. Cuối cùng tôi sẽ nói rằng các nhà thống kê là một nhóm đa nghi hơn: họ không cho rằng bạn khám phá kiến thức bằng thống kê - thay vào đó một nhà khoa học đưa ra một giả thuyết, và công việc của nhà thống kê là kiểm tra giả thuyết được hỗ trợ bởi dữ liệu. Học máy được dạy trong các khoa cs, tiếc là không dạy toán phù hợp: phép tính đa biến, xác suất, thống kê và tối ưu hóa không phổ biến ... người ta có những khái niệm 'quyến rũ' mơ hồ như học từ các ví dụ ...Các yếu tố của học thống kê trang 30. Điều này có nghĩa là có rất ít sự hiểu biết về lý thuyết và sự bùng nổ của các thuật toán vì các nhà nghiên cứu luôn có thể tìm thấy một số dữ liệu mà thuật toán của họ chứng minh tốt hơn. Vì vậy, có những giai đoạn cường điệu lớn khi các nhà nghiên cứu ML theo đuổi điều lớn lao tiếp theo: mạng lưới thần kinh, học tập sâu, v.v. Thật không may, có rất nhiều tiền trong các bộ phận CS (nghĩ rằng google, Microsoft, cùng với việc 'học hỏi' dễ tiếp thị hơn) thống kê hoài nghi hơn được bỏ qua. Cuối cùng, có một người theo chủ nghĩa kinh nghiệm bẻ cong: về cơ bản có một niềm tin tiềm ẩn rằng nếu bạn ném đủ dữ liệu vào thuật toán, nó sẽ 'học' các dự đoán chính xác. Trong khi tôi thiên vị chống lại ML, có một cái nhìn sâu sắc cơ bản về ML mà các nhà thống kê đã bỏ qua: rằng máy tính có thể cách mạng hóa việc áp dụng thống kê.
Có hai cách - a) tự động hóa việc áp dụng các thử nghiệm và mô hình tiêu chuẩn. Ví dụ: chạy pin của các mô hình (hồi quy tuyến tính, rừng ngẫu nhiên, v.v ... thử các kết hợp khác nhau của đầu vào, cài đặt tham số, v.v.). Điều này đã không thực sự xảy ra - mặc dù tôi nghi ngờ rằng các đối thủ cạnh tranh trên kaggle phát triển các kỹ thuật tự động hóa của riêng họ. b) áp dụng các mô hình thống kê tiêu chuẩn cho dữ liệu khổng lồ: nghĩ về ví dụ google dịch, hệ thống đề xuất, v.v. (không ai cho rằng đó là người dịch hoặc giới thiệu như vậy..nhưng đó là một công cụ hữu ích). Các mô hình thống kê cơ bản là đơn giản nhưng có những vấn đề tính toán rất lớn trong việc áp dụng các phương pháp này cho hàng tỷ điểm dữ liệu.
Khai thác dữ liệu là đỉnh cao của triết lý này ... phát triển các cách tự động trích xuất kiến thức từ dữ liệu. Tuy nhiên, nó có một cách tiếp cận thực tế hơn: về cơ bản nó được áp dụng cho dữ liệu hành vi, trong đó không có lý thuyết khoa học bao quát (tiếp thị, phát hiện gian lận, spam, v.v.) và mục đích là để tự động hóa việc phân tích khối lượng dữ liệu lớn: không còn nghi ngờ gì nữa nhóm các nhà thống kê có thể tạo ra các phân tích tốt hơn trong một thời gian đủ, nhưng sử dụng máy tính sẽ hiệu quả hơn về mặt chi phí. Hơn nữa, như D. Hand giải thích đó là phân tích dữ liệu thứ cấp - dữ liệu được ghi lại bằng mọi cách thay vì dữ liệu đã được thu thập rõ ràng để trả lời một câu hỏi khoa học trong một thiết kế thử nghiệm vững chắc. Thống kê khai thác dữ liệu và hơn thế nữa, D Hand
Vì vậy, tôi sẽ tóm tắt rằng AI truyền thống dựa trên logic chứ không phải thống kê, học máy là thống kê mà không có lý thuyết và thống kê là 'thống kê không có máy tính' và khai thác dữ liệu là phát triển các công cụ tự động để phân tích thống kê với sự can thiệp tối thiểu của người dùng.