Là phân tích dữ liệu thăm dò quan trọng khi làm mô hình dự đoán hoàn toàn?


23

Khi xây dựng một mô hình dự đoán sử dụng các kỹ thuật học máy, điểm thực hiện phân tích dữ liệu khám phá (EDA) là gì? Bạn có thể nhảy thẳng để tạo tính năng và xây dựng (các) mô hình của mình không? Thống kê mô tả được sử dụng trong EDA quan trọng như thế nào?


6
Bạn hỏi về "phân tích dữ liệu khám phá", nhưng bạn cũng bao gồm [descriptive-statistics]thẻ & câu hỏi cuối cùng của bạn là liệu thống kê mô tả có quan trọng không. Trong ngữ cảnh này, bạn chỉ có nghĩa là tính toán các số liệu thống kê mô tả khác nhau khi bạn đề cập đến EDA, hoặc bạn đang hỏi về cả số liệu thống kê mô tả & EDA? Tôi hỏi bởi vì nhiều người (bao gồm cả tôi) nghĩ về EDA không chỉ là thống kê mô tả.
gung - Phục hồi Monica

Chính xác thì "thế hệ tính năng" là gì? Nó không phải là một quá trình khám phá?
einar

5
Gần đây, tôi đã nhận được 224 quan sát bởi 37 cá nhân. Tôi đã lên kế hoạch điều tra - trong số những người khác - ảnh hưởng của giới / giới tính, khi phân tích mô tả cho tôi biết, có 36 phụ nữ và 1 đàn ông. Vì thống kê mô tả này, tôi đã bỏ qua tất cả các phân tích liên quan đến giới tính / giới tính. Nó rất quan trọng đối với tôi, vì các mô tả ảnh hưởng đến quá trình xây dựng mô hình của tôi. Thêm thông tin về dữ liệu đó tại đây stats.stackexchange.com/questions/352015/iêu
Bernhard

Câu trả lời:


47

Cách đây không lâu, tôi có một nhiệm vụ phỏng vấn cho vị trí khoa học dữ liệu. Tôi đã được cung cấp một bộ dữ liệu và được yêu cầu xây dựng một mô hình dự đoán để dự đoán một biến nhị phân nhất định được cung cấp cho các biến khác, với giới hạn thời gian là vài giờ.

Tôi lần lượt đi qua từng biến, vẽ đồ thị cho chúng, tính toán thống kê tóm tắt, v.v. Tôi cũng đã tính toán tương quan giữa các biến số.

Trong số những thứ tôi tìm thấy là:

  • Một biến phân loại gần như hoàn toàn phù hợp với mục tiêu.
  • Hai hoặc ba biến có hơn một nửa giá trị của chúng bị thiếu.
  • Một vài biến có các ngoại lệ cực đoan.
  • Hai trong số các biến số đã tương quan hoàn hảo.
  • v.v.

Quan điểm của tôi là đây là những thứ đã được đưa vào một cách có chủ ý để xem mọi người có chú ý đến chúng hay không trước khi thử xây dựng một mô hình. Công ty đưa chúng vào bởi vì chúng là loại điều có thể xảy ra trong cuộc sống thực và ảnh hưởng mạnh mẽ đến hiệu suất mô hình.

Vì vậy, có, EDA rất quan trọng khi học máy!


8
Khi tôi giao bài tập cho học sinh, tôi cũng thường làm như vậy ;-).
gung - Phục hồi Monica

14

Chắc chắn đúng.

Phân tích dữ liệu có thể dẫn bạn đến nhiều điểm có thể làm tổn thương mô hình dự đoán của bạn:

Dữ liệu không đầy đủ

Giả sử chúng ta đang nói về dữ liệu định lượng, bạn sẽ phải quyết định xem bạn có muốn bỏ qua cột không (nếu thiếu quá nhiều dữ liệu) hoặc tìm ra giá trị "mặc định" của bạn là gì (Trung bình, Chế độ, v.v.). Bạn không thể làm điều này mà không khám phá dữ liệu của bạn trước.

Dữ liệu bất thường

Giả sử bạn có dữ liệu được tương quan khá mạnh nhưng có một 2% dữ liệu của bạn đó là cách tắt mối tương quan này. Bạn có thể muốn xóa hoàn toàn dữ liệu này để giúp mô hình dự đoán của bạn

Xóa các cột có quá nhiều tương quan

Ok điều này mâu thuẫn một chút với quan điểm trước đây của tôi nhưng tiếng Anh không phải là ngôn ngữ chính của tôi nên tôi hy vọng bạn sẽ hiểu.

Tôi sẽ lấy một ví dụ ngớ ngẩn, giả sử bạn phân tích dữ liệu sân vận động của bóng đá và bạn có Width, Length, Areathông số. Chà, chúng ta có thể dễ dàng tưởng tượng rằng ba tham số này sẽ có mối tương quan mạnh mẽ. Có quá nhiều mối tương quan giữa cột của bạn dẫn mô hình dự đoán sai hướng. Bạn có thể quyết định xóa một hoặc nhiều tham số.

Tìm tính năng mới

Tôi sẽ lấy ví dụ về "Cuộc thi" Titanic Kaggle nhỏ . Khi nhìn vào tên của mọi người, bạn có thể nhận ra rằng bạn có thể trích xuất một tính năng là Titlecủa người đó. Tính năng này hóa ra khá quan trọng khi nói đến mô hình hóa, nhưng bạn sẽ bỏ lỡ nó nếu bạn không phân tích dữ liệu của mình trước.

Bạn có thể quyết định chuyển dữ liệu liên tục của mình vì nó cảm thấy phù hợp hơn hoặc biến một tính năng liên tục thành một tính năng phân loại.

Tìm loại thuật toán để sử dụng

Tôi không thể vẽ các mảnh đất ngay bây giờ, nhưng hãy biến nó thành một ví dụ đơn giản.

Hãy tưởng tượng rằng bạn có một mô hình nhỏ với một cột tính năng và một cột "kết quả" nhị phân (chỉ 0 hoặc 1). Bạn muốn tạo một mô hình phân loại dự đoán cho bộ dữ liệu này.

Nếu, một lần nữa làm ví dụ, bạn đã vẽ nó (soo, phân tích dữ liệu của bạn), bạn có thể nhận ra rằng cốt truyện tạo thành một vòng tròn hoàn hảo xung quanh 1 giá trị của bạn. Trong một kịch bản như vậy, nếu có thể khá rõ ràng rằng bạn có thể sử dụng trình phân loại đa thức để có một mô hình tuyệt vời thay vì nhảy thẳng vào DNN. (Rõ ràng, xem xét chỉ có hai cột trong ví dụ của tôi, nó không tạo ra một ví dụ tuyệt vời, nhưng bạn có được điểm)

Nhìn chung, bạn không thể mong đợi một mô hình dự đoán sẽ hoạt động tốt nếu bạn không xem dữ liệu trước.


8

Một điều quan trọng được thực hiện bởi EDA là tìm lỗi nhập dữ liệu và các điểm bất thường khác.

Một điều nữa là việc phân phối các biến có thể ảnh hưởng đến các mô hình mà bạn cố gắng phù hợp.


8

Chúng tôi đã từng có một cụm từ trong hóa học:

" Hai tuần trong phòng thí nghiệm có thể giúp bạn tiết kiệm hai giờ trên Scifinder ".

Tôi chắc chắn điều tương tự áp dụng cho học máy:

" Hai tuần dành cho việc đào tạo một mạng thần kinh có thể giúp bạn tiết kiệm 2 giờ khi xem dữ liệu đầu vào ".

Đây là những điều tôi phải trải qua trước khi bắt đầu bất kỳ quy trình ML nào.

  • Vẽ ra mật độ của mọi biến số (liên tục). Làm thế nào là những con số bị lệch? Tôi có cần một biến đổi nhật ký để làm cho dữ liệu có ý nghĩa? Làm thế nào xa là các ngoại lệ? Có bất kỳ giá trị nào không có ý nghĩa vật lý hoặc logic?
  • Giữ một mắt ra cho NA. Thông thường, bạn chỉ có thể loại bỏ chúng, nhưng nếu có rất nhiều trong số chúng hoặc nếu chúng thể hiện một khía cạnh quan trọng đối với hành vi của hệ thống, bạn có thể phải tìm cách tạo lại dữ liệu. Đây có thể là một dự án trong và của chính nó.
  • Vẽ mọi biến đối với biến trả lời. Bạn có thể hiểu được bao nhiêu ý nghĩa của nó chỉ bằng cách nhìn nó? Có những đường cong rõ ràng có thể được trang bị các chức năng?
  • Đánh giá xem bạn có cần một mô hình ML phức tạp ngay từ đầu không. Đôi khi hồi quy tuyến tính là tất cả những gì bạn thực sự cần. Ngay cả khi không, nó cung cấp một đường cơ sở phù hợp để mô hình ML của bạn cải thiện.

Ngoài các bước cơ bản đó, tôi sẽ không dành nhiều thời gian để xem dữ liệu trước khi áp dụng các quy trình ML cho nó. Nếu bạn đã có một số lượng lớn các biến, các tổ hợp phi tuyến phức tạp của chúng ngày càng khó khăn không chỉ để tìm, mà còn để vẽ và hiểu. Đây là loại công cụ xử lý tốt nhất bởi máy tính.


6

Quan điểm thống kê:

Bỏ qua các lỗi trong giai đoạn lập mô hình, có ba kết quả có thể xảy ra từ việc thử dự đoán mà không thực hiện EDA trước:

  1. Dự đoán cho kết quả vô nghĩa rõ ràng, bởi vì dữ liệu đầu vào của bạn đã vi phạm các giả định của phương pháp dự đoán của bạn. Bây giờ bạn phải quay lại và kiểm tra đầu vào của bạn để tìm ra vấn đề nằm ở đâu, sau đó khắc phục sự cố và làm lại phân tích. Tùy thuộc vào bản chất của vấn đề, bạn thậm chí có thể cần thay đổi phương pháp dự đoán của mình. (Ý bạn là gì, đây là một biến phân loại ?)
  2. Dự đoán cho kết quả xấu nhưng rõ ràng không tệ, vì dữ liệu của bạn đã vi phạm các giả định theo cách hơi rõ ràng. Dù sao bạn cũng quay lại và kiểm tra các giả định đó (trong trường hợp này, xem # 1 ở trên) hoặc bạn chấp nhận kết quả xấu.
  3. May mắn thay, dữ liệu đầu vào của bạn chính xác như những gì bạn mong đợi (tôi hiểu điều này đôi khi xảy ra) và dự đoán cho kết quả tốt ... sẽ rất tuyệt, ngoại trừ việc bạn không thể nói sự khác biệt giữa điều này và # 2 ở trên.

Quan điểm quản lý dự án:

Giải quyết các vấn đề dữ liệu có thể mất một lượng thời gian và nỗ lực đáng kể. Ví dụ:

  • Dữ liệu bị bẩn và bạn cần dành thời gian để phát triển các quy trình để làm sạch nó. (Ví dụ: thời gian tôi phải viết mã tự động sửa cho tất cả những người tiếp tục viết sai năm vào tháng 1 và những người nhập ngày trong trường năm và hệ thống phân tích ngày là MM / DD / YYYY thay vì DD / MM / YYYY.)
  • Bạn cần đặt câu hỏi về ý nghĩa của dữ liệu và chỉ Joan mới có thể trả lời chúng. Joan đang có một kỳ nghỉ sáu tháng, bắt đầu hai tuần sau khi dự án của bạn bắt đầu.
  • Giới hạn dữ liệu ngăn bạn cung cấp mọi thứ bạn dự định cung cấp (ví dụ của Bernhard về việc không thể đưa ra phân tích theo giới tính / giới tính vì tập dữ liệu chỉ có một phụ nữ) và bạn / khách hàng của bạn cần phải làm gì về điều đó .

Bạn càng sớm xác định được các vấn đề như vậy, bạn càng có cơ hội giữ dự án của mình trên đường ray, hoàn thành đúng hạn và làm cho khách hàng của bạn hài lòng.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.