Trong Thống kê, như trong Khai thác dữ liệu, bạn bắt đầu với dữ liệu và mục tiêu. Trong thống kê có rất nhiều sự tập trung vào suy luận, nghĩa là trả lời các câu hỏi ở cấp độ dân số bằng cách sử dụng một mẫu. Trong khai thác dữ liệu, trọng tâm thường là dự đoán: bạn tạo một mô hình từ mẫu của bạn (dữ liệu huấn luyện) để dự đoán dữ liệu thử nghiệm.
Quá trình trong thống kê là:
Khám phá dữ liệu bằng cách sử dụng tóm tắt và biểu đồ - tùy thuộc vào cách thống kê dữ liệu, một số người sẽ cởi mở hơn, nhìn dữ liệu từ mọi góc độ, trong khi những người khác (đặc biệt là các nhà khoa học xã hội) sẽ xem dữ liệu qua lăng kính của câu hỏi về sự quan tâm (ví dụ, cốt truyện đặc biệt là các biến quan tâm chứ không phải các biến khác)
Chọn một họ mô hình thống kê thích hợp (ví dụ: hồi quy tuyến tính cho Y liên tục, hồi quy logistic cho Y nhị phân hoặc Poisson cho dữ liệu đếm) và thực hiện lựa chọn mô hình
Ước tính mô hình cuối cùng
Các giả định mô hình thử nghiệm để đảm bảo chúng được đáp ứng hợp lý (khác với thử nghiệm về độ chính xác dự đoán trong khai thác dữ liệu)
Sử dụng mô hình để suy luận - đây là bước chính khác với khai thác dữ liệu. Từ "giá trị p" đến đây ...
Hãy xem bất kỳ sách giáo khoa thống kê cơ bản nào và bạn sẽ tìm thấy một chương về Phân tích dữ liệu khám phá theo sau là một số phân phối (sẽ giúp chọn các mô hình xấp xỉ hợp lý), sau đó suy luận (khoảng tin cậy và kiểm tra giả thuyết) và mô hình hồi quy.
Tôi mô tả cho bạn quá trình thống kê cổ điển. Tuy nhiên, tôi có nhiều vấn đề với nó. Việc tập trung vào suy luận đã hoàn toàn thống trị các lĩnh vực, trong khi dự đoán (vốn cực kỳ quan trọng và hữu ích) gần như bị bỏ quên. Hơn nữa, nếu bạn nhìn vào cách các nhà khoa học xã hội sử dụng số liệu thống kê để suy luận, bạn sẽ thấy rằng họ sử dụng nó hoàn toàn khác nhau! Bạn có thể kiểm tra thêm về điều này ở đây