Kiểm tra thống kê là để suy luận từ dữ liệu, nó cho bạn biết mọi thứ có liên quan như thế nào. Kết quả là một cái gì đó có ý nghĩa trong thế giới thực. Ví dụ, hút thuốc có liên quan đến ung thư phổi, cả về phương hướng và cường độ. Nó vẫn không cho bạn biết lý do tại sao mọi thứ xảy ra. Để trả lời lý do tại sao mọi thứ xảy ra, chúng ta cũng cần xem xét mối tương quan với các biến khác và thực hiện các điều chỉnh phù hợp (xem Pearl, J. (2003) NGUYÊN NHÂN: MÔ HÌNH, LÝ DO, VÀ THAM KHẢO).
Học tập có giám sát là để đưa ra dự đoán, nó cho bạn biết điều gì sẽ xảy ra. Ví dụ: Với tình trạng hút thuốc của một người, chúng ta có thể dự đoán liệu người đó có bị ung thư phổi hay không. Trong các trường hợp đơn giản, nó vẫn cho bạn biết cách sử dụng, ví dụ như bằng cách xem xét mức cắt của tình trạng hút thuốc được xác định bởi thuật toán. Nhưng các mô hình phức tạp hơn khó hoặc không thể diễn giải (học sâu / tăng cường với nhiều tính năng).
Học tập không giám sát thường được sử dụng để tạo điều kiện cho hai điều trên.
- Để kiểm tra thống kê, bằng cách khám phá một số nhóm con cơ bản chưa biết của dữ liệu (phân cụm), chúng ta có thể suy ra tính không đồng nhất trong các liên kết giữa các biến. Ví dụ: hút thuốc làm tăng tỷ lệ mắc ung thư phổi cho nhóm A nhưng không phải nhóm B.
- Đối với việc học có giám sát, chúng ta có thể tạo ra các tính năng mới để cải thiện độ chính xác và độ mạnh của dự đoán. Ví dụ: bằng cách xác định các nhóm con (phân cụm) hoặc kết hợp các tính năng (giảm kích thước) có liên quan đến tỷ lệ mắc ung thư phổi.
Khi số lượng các tính năng / biến trở nên lớn hơn, sự khác biệt giữa kiểm tra thống kê và học tập có giám sát sẽ trở nên đáng kể hơn. Kiểm tra thống kê có thể không nhất thiết được hưởng lợi từ điều này, nó phụ thuộc vào việc bạn muốn suy luận nguyên nhân bằng cách kiểm soát các yếu tố khác hoặc xác định tính không đồng nhất trong các hiệp hội như đã đề cập ở trên. Học tập có giám sát sẽ hoạt động tốt hơn nếu các tính năng có liên quan và nó sẽ trở nên giống như một hộp đen.
Khi số lượng mẫu lớn hơn, chúng ta có thể nhận được kết quả chính xác hơn cho kiểm tra thống kê, kết quả chính xác hơn cho việc học có giám sát và kết quả mạnh mẽ hơn cho việc học không giám sát. Nhưng điều này phụ thuộc vào chất lượng của dữ liệu. Dữ liệu kém chất lượng có thể giới thiệu sai lệch hoặc nhiễu cho kết quả.
Đôi khi, chúng tôi muốn biết về cách thức và cách thức sử dụng các biện pháp can thiệp, ví dụ như bằng cách xác định rằng hút thuốc lá gây ung thư phổi, chính sách có thể được thực hiện để đối phó với điều đó. Đôi khi, chúng tôi muốn biết về những gì mà người Hồi giáo đưa ra để đưa ra quyết định, ví dụ như tìm ra người có khả năng bị ung thư phổi và cho họ điều trị sớm. Có một vấn đề đặc biệt được công bố trên Science về dự đoán và giới hạn của nó ( http://science.sciencemag.org/content/355/6324/468). Thành công của dường như đạt được một cách nhất quán khi các câu hỏi được giải quyết trong các nỗ lực đa ngành liên quan đến sự hiểu biết của con người về bối cảnh với khả năng thuật toán để xử lý terabyte dữ liệu. những dữ liệu / tính năng nào chúng ta nên thu thập ở nơi đầu tiên. Mặt khác, học tập có giám sát có thể giúp tạo ra các giả thuyết bằng cách thông báo biến nào