Sự khác biệt giữa Khoa học tính toán và Khoa học dữ liệu là gì? [đóng cửa]


9

Bối cảnh: Tiến sĩ của tôi là trong 'Khoa học tính toán'. Luận án của tôi là về phân tích dữ liệu nhiễu xạ tia X và phân tích các hạt nhân bị nhiễu nhiệt trong phân tích động tổng thể của mật độ electron phân tử cho vật lý trạng thái rắn. Mang đi? Nó rất nhiều dựa trên khoa học.

Theo tôi Khoa học tính toán là sự theo đuổi của khoa học, "... một doanh nghiệp có hệ thống xây dựng và tổ chức kiến ​​thức dưới dạng giải thích và dự đoán có thể kiểm chứng về vũ trụ" ( wiki ), thông qua các phương tiện tính toán.

Tuy nhiên, hầu hết các vị trí cho 'Khoa học dữ liệu', có vẻ giống các loại công việc 'phân tích dữ liệu' hơn. Đó là, các truy vấn SQL nặng, sử dụng các mô hình R và Python dựng sẵn (hồi quy tuyến tính, v.v.) để rút ra kết luận từ dữ liệu có cấu trúc và không cấu trúc.

Khoa học tính toán có phải là siêu khoa học dữ liệu không? Họ có thể thay thế cho nhau? Khoa học dữ liệu có phải là một "khoa học" thực sự không? Khoa học tính toán có phải là một 'khoa học' thực sự không?


Tôi nghĩ rằng câu hỏi có một số giá trị, nhưng bạn sẽ cần phải giải quyết nó một chút. Dự thảo báo cáo này trong CSE có thể hữu ích. Họ có một số đề cập về mối quan hệ giữa hai. Bạn có thể nghĩ về mối quan hệ tương tự như mối quan hệ giữa khoa học thực nghiệm và lý thuyết, bằng cách nào đó.
nicoguaro

Câu trả lời:


10

Chúng không thể thay thế cho nhau.

  • Khoa học tính toán có xu hướng đề cập nhiều hơn đến HPC, các kỹ thuật mô phỏng (phương trình vi phân, động lực phân tử, v.v.) và thường được gọi là tính toán khoa học.

  • Khoa học dữ liệu có xu hướng đề cập đến phân tích dữ liệu chuyên sâu tính toán, như "dữ liệu lớn", tin sinh học, học máy (tối ưu hóa), phân tích Bayes sử dụng MCMC, v.v. Tôi nghĩ nó giống như những gì từng được gọi là thống kê tính toán. Đó là sự truyền của khoa học máy tính với các số liệu thống kê, nhưng nhiều kỹ thuật được phát triển đã bỏ qua "kiểm tra thống kê" nghiêm ngặt của ngư dân (phân cụm, kỹ thuật xác thực chéo, trực quan hóa dữ liệu) nhưng vẫn giữ phần dữ liệu.

Lời giải thích rõ ràng nhất về nó đã đến với tôi khi tôi đang giảng dạy một hội thảo về Julia cho Khoa học dữ liệu và tính toán khoa học. Các nhà khoa học dữ liệu muốn tìm hiểu Julia để thực hiện phân tích "dữ liệu lớn" nhanh, tức là hồi quy và các GLM khác trên dữ liệu lớn. Các nhà khoa học tính toán (máy tính khoa học?) Muốn biết cách dễ dàng viết mã để giải quyết các hệ thống tuyến tính lớn trên HPC và GPU.

Lưu ý rằng đó là hai cách để nói các tính toán chính xác giống nhau, nhưng với ý nghĩa rất khác nhau. Vì vậy, trong một số ý nghĩa tương tự, nhưng vẫn khác biệt (và có sự giao thoa giữa các ngành, như sử dụng máy học để tìm hiểu các tham số cho PDE từ dữ liệu).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.