Khai thác dữ liệu được phân loại thành Mô tả hoặc Dự đoán. Khai thác dữ liệu mô tả là tìm kiếm các tập dữ liệu lớn và khám phá vị trí của các cấu trúc hoặc mối quan hệ không mong muốn, các mẫu, xu hướng, cụm và các ngoại lệ trong dữ liệu. Mặt khác, Dự đoán là xây dựng các mô hình và quy trình hồi quy, phân loại, nhận dạng mẫu hoặc các nhiệm vụ học máy và đánh giá độ chính xác dự đoán của các mô hình và quy trình đó khi áp dụng vào dữ liệu mới.
Cơ chế được sử dụng để tìm kiếm các mẫu hoặc cấu trúc trong dữ liệu chiều cao có thể là thủ công hoặc tự động; tìm kiếm có thể yêu cầu truy vấn tương tác một hệ thống quản lý cơ sở dữ liệu hoặc có thể yêu cầu sử dụng phần mềm trực quan để phát hiện ra sự bất thường trong dữ liệu. Trong thuật ngữ học máy, khai thác dữ liệu mô tả được gọi là học tập không giám sát, trong khi khai thác dữ liệu dự đoán được gọi là học tập có giám sát.
Hầu hết các phương pháp được sử dụng trong khai thác dữ liệu có liên quan đến các phương pháp được phát triển trong thống kê và học máy. Đầu tiên trong số các phương pháp đó là các chủ đề chung về hồi quy, phân loại, phân cụm và trực quan hóa. Do kích thước khổng lồ của các tập dữ liệu, nhiều ứng dụng khai thác dữ liệu tập trung vào các kỹ thuật giảm kích thước (ví dụ: lựa chọn biến) và các tình huống trong đó dữ liệu chiều cao bị nghi ngờ nằm trên siêu phẳng chiều thấp hơn. Sự chú ý gần đây đã được hướng đến các phương pháp xác định dữ liệu chiều cao nằm trên bề mặt phi tuyến hoặc đa tạp.
Cũng có những tình huống trong khai thác dữ liệu khi suy luận thống kê - theo nghĩa cổ điển của nó - hoặc không có ý nghĩa hoặc có giá trị đáng ngờ: trước đây xảy ra khi chúng ta có toàn bộ dân số để tìm kiếm câu trả lời và sau đó xảy ra khi một tập dữ liệu là Tiện lợi của người mẹ thay vì là một mẫu ngẫu nhiên được rút ra từ một số dân số lớn. Khi dữ liệu được thu thập qua thời gian (ví dụ: giao dịch bán lẻ, giao dịch trên thị trường chứng khoán, hồ sơ bệnh nhân, hồ sơ thời tiết), việc lấy mẫu cũng có thể không có ý nghĩa; thứ tự thời gian của các quan sát là rất quan trọng để hiểu hiện tượng tạo ra dữ liệu và coi các quan sát là độc lập khi chúng có thể tương quan cao sẽ cung cấp kết quả sai lệch.
Các thành phần trung tâm của khai thác dữ liệu là - ngoài lý thuyết và phương pháp thống kê - tính toán và hiệu quả tính toán, xử lý dữ liệu tự động, kỹ thuật trực quan hóa dữ liệu động và tương tác, và phát triển thuật toán.
Một trong những vấn đề quan trọng nhất trong khai thác dữ liệu là vấn đề tính toán về khả năng mở rộng . Các thuật toán được phát triển để tính toán các phương pháp thống kê thăm dò và xác nhận tiêu chuẩn được thiết kế để nhanh và hiệu quả tính toán khi áp dụng cho các tập dữ liệu vừa và nhỏ; Tuy nhiên, người ta đã chứng minh rằng hầu hết các thuật toán này không vượt qua thách thức xử lý các tập dữ liệu khổng lồ. Khi các bộ dữ liệu phát triển, nhiều thuật toán hiện có thể hiện xu hướng chậm lại đáng kể (hoặc thậm chí bị đình trệ).