Khoa học dữ liệu có giống như khai thác dữ liệu không?


22

Tôi chắc chắn khoa học dữ liệu sẽ được thảo luận trong diễn đàn này có một số từ đồng nghĩa hoặc ít nhất là các lĩnh vực liên quan nơi dữ liệu lớn được phân tích.

Câu hỏi đặc biệt của tôi liên quan đến Khai thác dữ liệu. Tôi đã học một lớp sau đại học về Khai thác dữ liệu một vài năm trước. Sự khác biệt giữa Khoa học dữ liệu và Khai thác dữ liệu và cụ thể là tôi cần xem xét thêm điều gì để thành thạo Khai thác dữ liệu?


Đối với phần thứ hai của câu hỏi của bạn, tôi đã đề xuất một cuộc thảo luận trong meta: meta.datascience.stackexchange.com/questions/5/. Làm thế nào nhận được có thể định hình liệu mối quan tâm thành thạo của bạn có thể trả lời được hay trong phạm vi.
Clayton

Câu trả lời:


25

@statsRus bắt đầu đặt nền tảng cho câu trả lời của bạn trong một câu hỏi khác /datascience/1/what-characterises-the-difference-b between-data-science-and-statistic :

  • Thu thập dữ liệu : quét web và khảo sát trực tuyến
  • Thao tác dữ liệu : mã hóa lại dữ liệu lộn xộn và trích xuất ý nghĩa từ dữ liệu mạng xã hội và ngôn ngữ
  • Thang đo dữ liệu : làm việc với các tập dữ liệu cực lớn
  • Khai thác dữ liệu : tìm các mẫu trong các tập dữ liệu lớn, phức tạp, tập trung vào các kỹ thuật thuật toán
  • Truyền dữ liệu : giúp biến dữ liệu "có thể đọc được bằng máy" thành thông tin "có thể đọc được bằng con người" thông qua trực quan hóa

Định nghĩa

có thể được xem như một mục (hoặc tập hợp các kỹ năng và ứng dụng) trong bộ công cụ của nhà khoa học dữ liệu. Tôi thích cách anh ấy tách định nghĩa khai thác khỏi bộ sưu tập trong một loại biệt ngữ đặc thù thương mại.

Tuy nhiên, tôi nghĩ rằng khai thác dữ liệu sẽ đồng nghĩa với thu thập dữ liệu theo định nghĩa thông tục Mỹ-Anh.

Như đi đâu để thành thạo? Tôi nghĩ rằng câu hỏi đó quá rộng vì nó hiện đang được nêu và sẽ nhận được câu trả lời chủ yếu dựa trên ý kiến. Có lẽ nếu bạn có thể tinh chỉnh câu hỏi của mình, có thể dễ dàng hơn để xem những gì bạn đang hỏi.


11

Những gì @Clayton đăng dường như đúng với tôi, đối với những điều khoản đó và cho "khai thác dữ liệu" là một công cụ của nhà khoa học dữ liệu. Tuy nhiên, tôi chưa thực sự sử dụng thuật ngữ "thu thập dữ liệu" và nó không đồng nghĩa với tôi là "khai thác dữ liệu".

Câu trả lời của riêng tôi cho câu hỏi của bạn: không , các điều khoản không giống nhau. Các định nghĩa có thể lỏng lẻo trong lĩnh vực này, nhưng tôi chưa thấy các thuật ngữ đó được sử dụng thay thế cho nhau. Trong công việc của tôi, đôi khi chúng tôi sử dụng chúng để phân biệt giữa các mục tiêu hoặc phương pháp luận. Đối với chúng tôi, nhiều hơn đến việc kiểm tra một giả thuyết và thông thường dữ liệu đã được thu thập chỉ cho mục đích đó. nhiều hơn đến việc sàng lọc thông qua dữ liệu hiện có, tìm kiếm cấu trúc và có thể tạo ra các giả thuyết. Khai thác dữ liệu có thể bắt đầu bằng một giả thuyết, nhưng nó thường rất yếu hoặc chung chung và có thể khó giải quyết với sự tự tin. (Đào đủ lâu và bạn sẽ tìm thấy thứ gì đó , mặc dù nó có thể trở thành pyrite.)

Tuy nhiên, chúng tôi cũng đã sử dụng "khoa học dữ liệu" như một thuật ngữ rộng hơn, để bao gồm "khai thác dữ liệu". Chúng tôi cũng nói về "mô hình hóa dữ liệu", mà đối với chúng tôi là tìm kiếm một mô hình cho một hệ thống quan tâm, dựa trên dữ liệu cũng như các kiến ​​thức và mục tiêu khác. Đôi khi điều đó có nghĩa là cố gắng tìm ra toán học giải thích hệ thống thực và đôi khi nó có nghĩa là tìm ra một mô hình dự đoán đủ tốt cho một mục đích.


8

Câu trả lời của tôi sẽ là không. Tôi coi Khai thác dữ liệu là một trong những lĩnh vực linh tinh trong Khoa học dữ liệu. Khai thác dữ liệu chủ yếu được xem xét dựa trên các câu hỏi mang lại hơn là trả lời chúng. Nó thường được gọi là "phát hiện điều gì đó mới", khi so sánh với Khoa học dữ liệu, nơi nhà khoa học dữ liệu cố gắng giải quyết các vấn đề phức tạp để có thể đạt được kết quả cuối cùng. Tuy nhiên cả hai thuật ngữ có nhiều điểm tương đồng giữa chúng. Ví dụ..nếu bạn có một vùng đất nông nghiệp, nơi bạn muốn tìm các nhà máy bị ảnh hưởng .. Khai thác dữ liệu không gian đóng vai trò chính trong công việc này. Có nhiều khả năng bạn sẽ không chỉ tìm ra các nhà máy bị ảnh hưởng ở vùng đất nhưng cũng ở mức độ mà chúng bị ảnh hưởng ....... đây là điều không thể đối với khoa học dữ liệu.


Câu trả lời của bạn rất hay và cũng rất hay nếu bạn thêm một ví dụ nhỏ, để nhấn mạnh quan điểm của bạn về việc khai thác dữ liệu có liên quan nhiều hơn đến việc phát hiện điều gì đó mới hơn là cố gắng giải quyết và đạt được kết quả .
Rubens

6

Có nhiều sự chồng chéo giữa khai thác dữ liệu và kho dữ liệu. Tôi muốn nói rằng những người có vai trò của datamining có liên quan đến việc thu thập dữ liệu và trích xuất các tính năng từ các bộ dữ liệu chưa được lọc, không có tổ chức và chủ yếu là dữ liệu thô / hoang dã. Một số dữ liệu rất quan trọng có thể khó trích xuất, không thực hiện đối với các vấn đề triển khai nhưng vì nó có thể có các tạo tác nước ngoài.

Ví dụ. nếu tôi cần ai đó xem dữ liệu tài chính từ tờ khai thuế bằng văn bản trong những năm 70 được quét và đọc máy để tìm hiểu xem mọi người có tiết kiệm nhiều hơn cho bảo hiểm xe hơi không; một dataminer sẽ là người để có được.

Nếu tôi cần ai đó kiểm tra ảnh hưởng của hồ sơ Twitter của Nike trong các tweet của Brazil và xác định các tính năng tích cực chính từ hồ sơ, tôi sẽ tìm kiếm một chuyên gia dữ liệu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.