Chắc chắn đúng.
Phân tích dữ liệu có thể dẫn bạn đến nhiều điểm có thể làm tổn thương mô hình dự đoán của bạn:
Dữ liệu không đầy đủ
Giả sử chúng ta đang nói về dữ liệu định lượng, bạn sẽ phải quyết định xem bạn có muốn bỏ qua cột không (nếu thiếu quá nhiều dữ liệu) hoặc tìm ra giá trị "mặc định" của bạn là gì (Trung bình, Chế độ, v.v.). Bạn không thể làm điều này mà không khám phá dữ liệu của bạn trước.
Dữ liệu bất thường
Giả sử bạn có dữ liệu được tương quan khá mạnh nhưng có một 2% dữ liệu của bạn đó là cách tắt mối tương quan này. Bạn có thể muốn xóa hoàn toàn dữ liệu này để giúp mô hình dự đoán của bạn
Xóa các cột có quá nhiều tương quan
Ok điều này mâu thuẫn một chút với quan điểm trước đây của tôi nhưng tiếng Anh không phải là ngôn ngữ chính của tôi nên tôi hy vọng bạn sẽ hiểu.
Tôi sẽ lấy một ví dụ ngớ ngẩn, giả sử bạn phân tích dữ liệu sân vận động của bóng đá và bạn có Width, Length, Area
thông số. Chà, chúng ta có thể dễ dàng tưởng tượng rằng ba tham số này sẽ có mối tương quan mạnh mẽ. Có quá nhiều mối tương quan giữa cột của bạn dẫn mô hình dự đoán sai hướng. Bạn có thể quyết định xóa một hoặc nhiều tham số.
Tìm tính năng mới
Tôi sẽ lấy ví dụ về "Cuộc thi" Titanic Kaggle nhỏ . Khi nhìn vào tên của mọi người, bạn có thể nhận ra rằng bạn có thể trích xuất một tính năng là Title
của người đó. Tính năng này hóa ra khá quan trọng khi nói đến mô hình hóa, nhưng bạn sẽ bỏ lỡ nó nếu bạn không phân tích dữ liệu của mình trước.
Bạn có thể quyết định chuyển dữ liệu liên tục của mình vì nó cảm thấy phù hợp hơn hoặc biến một tính năng liên tục thành một tính năng phân loại.
Tìm loại thuật toán để sử dụng
Tôi không thể vẽ các mảnh đất ngay bây giờ, nhưng hãy biến nó thành một ví dụ đơn giản.
Hãy tưởng tượng rằng bạn có một mô hình nhỏ với một cột tính năng và một cột "kết quả" nhị phân (chỉ 0 hoặc 1). Bạn muốn tạo một mô hình phân loại dự đoán cho bộ dữ liệu này.
Nếu, một lần nữa làm ví dụ, bạn đã vẽ nó (soo, phân tích dữ liệu của bạn), bạn có thể nhận ra rằng cốt truyện tạo thành một vòng tròn hoàn hảo xung quanh 1 giá trị của bạn. Trong một kịch bản như vậy, nếu có thể khá rõ ràng rằng bạn có thể sử dụng trình phân loại đa thức để có một mô hình tuyệt vời thay vì nhảy thẳng vào DNN. (Rõ ràng, xem xét chỉ có hai cột trong ví dụ của tôi, nó không tạo ra một ví dụ tuyệt vời, nhưng bạn có được điểm)
Nhìn chung, bạn không thể mong đợi một mô hình dự đoán sẽ hoạt động tốt nếu bạn không xem dữ liệu trước.
[descriptive-statistics]
thẻ & câu hỏi cuối cùng của bạn là liệu thống kê mô tả có quan trọng không. Trong ngữ cảnh này, bạn chỉ có nghĩa là tính toán các số liệu thống kê mô tả khác nhau khi bạn đề cập đến EDA, hoặc bạn đang hỏi về cả số liệu thống kê mô tả & EDA? Tôi hỏi bởi vì nhiều người (bao gồm cả tôi) nghĩ về EDA không chỉ là thống kê mô tả.