Tôi hiện đang làm việc như một nhà khoa học dữ liệu tại một công ty bán lẻ (công việc đầu tiên của tôi là DS, vì vậy câu hỏi này có thể là kết quả của sự thiếu kinh nghiệm của tôi). Họ có một lượng lớn các dự án khoa học dữ liệu thực sự quan trọng sẽ có tác động tích cực lớn nếu được thực hiện. Nhưng.
Các đường ống dữ liệu không tồn tại trong công ty, quy trình chuẩn là để họ trao cho tôi hàng gigabyte tệp TXT bất cứ khi nào tôi cần một số thông tin. Hãy nghĩ về các tệp này như nhật ký dạng bảng của các giao dịch được lưu trữ trong ký hiệu và cấu trúc phức tạp. Không có toàn bộ thông tin được chứa trong một nguồn dữ liệu duy nhất và họ không thể cấp cho tôi quyền truy cập vào cơ sở dữ liệu ERP của họ vì "lý do bảo mật".
Phân tích dữ liệu ban đầu cho dự án đơn giản nhất đòi hỏi phải xáo trộn dữ liệu dữ dội. Hơn 80% thời gian của một dự án là tôi cố gắng phân tích các tệp này và các nguồn dữ liệu chéo để xây dựng các bộ dữ liệu khả thi. Đây không phải là vấn đề đơn giản là xử lý dữ liệu bị thiếu hoặc tiền xử lý nó, đó là về công việc cần thiết để xây dựng dữ liệu có thể được xử lý ngay từ đầu ( có thể giải quyết bằng dba hoặc kỹ thuật dữ liệu, không phải khoa học dữ liệu? ).
1) Cảm thấy như hầu hết các công việc không liên quan đến khoa học dữ liệu. Nó thật sự đúng?
2) Tôi biết đây không phải là một công ty điều khiển dữ liệu với bộ phận kỹ thuật dữ liệu cấp cao, nhưng theo ý kiến của tôi, để xây dựng cho một tương lai bền vững của các dự án khoa học dữ liệu, cần có mức độ tiếp cận dữ liệu tối thiểu . Tôi có lầm không?
3) Đây có phải là loại thiết lập phổ biến cho một công ty có nhu cầu khoa học dữ liệu nghiêm trọng không?