Bao nhiêu dữ liệu lộn xộn là công việc của một nhà khoa học dữ liệu?

44

Tôi hiện đang làm việc như một nhà khoa học dữ liệu tại một công ty bán lẻ (công việc đầu tiên của tôi là DS, vì vậy câu hỏi này có thể là kết quả của sự thiếu kinh nghiệm của tôi). Họ có một lượng lớn các dự án khoa học dữ liệu thực sự quan trọng sẽ có tác động tích cực lớn nếu được thực hiện. Nhưng.

Các đường ống dữ liệu không tồn tại trong công ty, quy trình chuẩn là để họ trao cho tôi hàng gigabyte tệp TXT bất cứ khi nào tôi cần một số thông tin. Hãy nghĩ về các tệp này như nhật ký dạng bảng của các giao dịch được lưu trữ trong ký hiệu và cấu trúc phức tạp. Không có toàn bộ thông tin được chứa trong một nguồn dữ liệu duy nhất và họ không thể cấp cho tôi quyền truy cập vào cơ sở dữ liệu ERP của họ vì "lý do bảo mật".

Phân tích dữ liệu ban đầu cho dự án đơn giản nhất đòi hỏi phải xáo trộn dữ liệu dữ dội. Hơn 80% thời gian của một dự án là tôi cố gắng phân tích các tệp này và các nguồn dữ liệu chéo để xây dựng các bộ dữ liệu khả thi. Đây không phải là vấn đề đơn giản là xử lý dữ liệu bị thiếu hoặc tiền xử lý nó, đó là về công việc cần thiết để xây dựng dữ liệu có thể được xử lý ngay từ đầu ( có thể giải quyết bằng dba hoặc kỹ thuật dữ liệu, không phải khoa học dữ liệu? ).

1) Cảm thấy như hầu hết các công việc không liên quan đến khoa học dữ liệu. Nó thật sự đúng?

2) Tôi biết đây không phải là một công ty điều khiển dữ liệu với bộ phận kỹ thuật dữ liệu cấp cao, nhưng theo ý kiến của tôi, để xây dựng cho một tương lai bền vững của các dự án khoa học dữ liệu, cần có mức độ tiếp cận dữ liệu tối thiểu . Tôi có lầm không?

3) Đây có phải là loại thiết lập phổ biến cho một công ty có nhu cầu khoa học dữ liệu nghiêm trọng không?

data-wrangling

— Victor Valentee
nguồn

Bạn đã xác định định dạng bạn muốn thông tin trên? Và cung cấp cho họ hướng dẫn về cách họ có thể làm điều này với ERP của họ?

— jonnor

@jonnor Tất nhiên rồi. Tôi đã làm việc ở đây được gần hai năm và kể từ ngày 1 tôi đã giải thích làm thế nào chúng ta có thể xây dựng một nền tảng tốt hơn để truy cập dữ liệu. Có sức đề kháng mạnh mẽ để thay đổi những gì công ty đã làm trong 30 năm qua.

— Victor Valente

13

Bắt đầu theo dõi giờ của bạn và chuyển đổi nó thành chi phí cho việc họ lãng phí thời gian của bạn để chuyển TXT trở lại định dạng có thể sử dụng được. Tôi sẽ đặt cược cho bạn một khi họ có một con số $, họ có thể hoàn thành nó.

— Nelson

Nếu đó là một gánh nặng về thời gian của bạn, bạn có thể thuê ngoài nó.

— Sarcoma

Tôi thấy khó hiểu rằng một công ty sẽ thuê một Nhà khoa học dữ liệu và vẫn có khả năng chống lại sự thay đổi. Bạn nên cho họ thấy lượng thời gian lãng phí và hệ thống lưu trữ dữ liệu nguy hiểm vào các tệp TXT dài mà không bảo mật thực sự

— Pedro Henrique Monforte

27

Cảm thấy như hầu hết các công việc không liên quan đến khoa học dữ liệu. Nó thật sự đúng?

Đúng
Tôi biết đây không phải là một công ty điều khiển dữ liệu với bộ phận kỹ thuật dữ liệu cấp cao, nhưng theo ý kiến của tôi thì khoa học dữ liệu đòi hỏi mức độ tiếp cận dữ liệu tối thiểu. Tôi có lầm không?

Bạn không sai, nhưng đó là thực tế của cuộc sống thực.
Là loại thiết lập phổ biến cho một công ty có nhu cầu khoa học dữ liệu nghiêm trọng?

Đúng

Từ quan điểm kỹ thuật, bạn cần xem xét các giải pháp ETL có thể làm cho cuộc sống của bạn dễ dàng hơn. Đôi khi một công cụ có thể nhanh hơn nhiều so với công cụ khác để đọc dữ liệu nhất định. Ví dụ, readxl của R là đơn đặt hàng mangnitudes nhanh hơn gấu trúc của trăn khi đọc các tệp xlsx; bạn có thể sử dụng R để nhập các tệp, sau đó lưu chúng vào định dạng thân thiện với Python (sàn gỗ, SQL, v.v.). Tôi biết bạn không làm việc trên các tệp xlsx và tôi không biết nếu bạn sử dụng Python - đó chỉ là một ví dụ.

Từ quan điểm thực tế, hai điều:

Trước hết, hiểu những gì là kỹ thuật có thể. Trong nhiều trường hợp, những người nói với bạn biết là những người mù chữ về CNTT, những người lo lắng về các vấn đề kinh doanh hoặc tuân thủ, nhưng không có khái niệm về những gì là và không khả thi từ quan điểm CNTT. Cố gắng nói chuyện với các DBA hoặc bất cứ ai quản lý cơ sở hạ tầng dữ liệu. Hiểu những gì là kỹ thuật có thể. THEN, chỉ sau đó, cố gắng tìm một sự thỏa hiệp. Ví dụ, họ sẽ không cung cấp cho bạn quyền truy cập vào hệ thống của họ, nhưng tôi cho rằng có một cơ sở dữ liệu đằng sau nó? Có lẽ họ có thể trích xuất dữ liệu sang một số định dạng khác? Có lẽ họ có thể trích xuất các câu lệnh SQL xác định các kiểu dữ liệu, v.v.
Những người kinh doanh có nhiều khả năng giúp đỡ bạn nếu bạn có thể làm cho trường hợp đó là vì lợi ích CỦA HỌ. Nếu họ thậm chí không tin vào những gì bạn đang làm, thì thật may mắn ...

— PythonGuest
nguồn

2

Điểm tuyệt vời về việc tìm kiếm / xây dựng giải pháp ETL. Chỉ cần thêm: chọn một thiết lập mà bạn cảm thấy thoải mái và có thể dễ dàng đọc / gỡ lỗi. Trong giai đoạn đầu của tự động hóa các tác vụ, điều này thậm chí còn quan trọng hơn việc tìm kiếm công cụ xử lý dữ liệu nhanh nhất. Nếu đó là hợp đồng văn bản, nó có thể sẽ thường chạy qua đêm và sự trôi chảy của bạn với công cụ / khung / ngôn ngữ có thể tạo ra sự khác biệt giữa việc đánh thức dữ liệu tốt hoặc thứ gì đó bạn phải bắt đầu lại. Chỉ cần làm một lần duy nhất có thể xóa sạch mọi lợi ích hiệu quả. Tốt hơn để ổn định với ít lỗi hơn là đi nhanh và vấp ngã.

— Jason

2

Thật. Nhưng, cũng không nên đánh giá quá cao. Chọn ưu tiên của bạn một cách khôn ngoan. Nếu nhập dữ liệu là một lần, đừng dành nhiều ngày để tìm cách giảm thời gian nhập từ 2 giờ xuống còn 30 phút. Vv

— PythonGuest

39

Đây là một tình huống mà nhiều blog, công ty và giấy tờ thừa nhận là một cái gì đó thực sự trong nhiều trường hợp.

Trong bài báo này Dữ liệu sắp xếp cho Dữ liệu lớn: Thách thức và Cơ hội , có một trích dẫn về nó

các nhà khoa học dữ liệu dành từ 50 phần trăm đến 80 phần trăm thời gian của họ

thu thập và chuẩn bị dữ liệu kỹ thuật số ngang bướng.

Ngoài ra, bạn có thể đọc nguồn trích dẫn trong bài viết này từ Thời báo New York, dành cho các nhà khoa học dữ liệu lớn, 'Công việc của Janitor' là chìa khóa cho những hiểu biết

Thật không may, thế giới thực không giống như Kaggle. Bạn không nhận được tệp CSV hoặc Excel mà bạn chỉ có thể bắt đầu Khám phá Dữ liệu với một chút làm sạch. Bạn cần tìm dữ liệu ở định dạng không phù hợp với nhu cầu của bạn.

Những gì bạn có thể làm là tận dụng dữ liệu cũ càng nhiều càng tốt và cố gắng điều chỉnh việc lưu trữ dữ liệu mới trong một quy trình sẽ giúp bạn (hoặc đồng nghiệp tương lai) dễ dàng làm việc hơn.

— Tắc kè
nguồn

Bài báo của Forbes tuyên bố con số 80% tương tự .

— Jesse Amano

4

Forbes không nên được đề cập cùng với các từ "khoa học dữ liệu".

— gents

50-80% dựa trên (trích dẫn) "phỏng vấn và ước tính chuyên gia"

— oW_

3

@gents Ý kiến dựa trên ý kiến về một cuộc khảo sát dựa trên ý kiến trong một bài viết dựa trên ý kiến được đặt trên một câu trả lời dựa trên ý kiến cho một câu hỏi dựa trên ý kiến. Ai có thể nghĩ bạn sẽ tìm thấy điều này trong "Khoa học dữ liệu" SE?

— Keeta

25

Cảm thấy như hầu hết các công việc không liên quan đến khoa học dữ liệu. Nó thật sự đúng?

Đây là thực tế của bất kỳ dự án khoa học dữ liệu. Google thực sự đã đo nó và xuất bản một bài báo "Nợ kỹ thuật ẩn trong các hệ thống máy học" https://epage.nips.cc/apers/5656-hidden-technical-debt-in-machine-learning-systems.pdf

Kết quả của bài báo phản ánh kinh nghiệm của tôi là tốt. Phần lớn thời gian được dành cho việc thu thập, làm sạch và xử lý dữ liệu.

— Vermit Verma
nguồn

7

Cảm thấy như hầu hết các công việc không liên quan đến khoa học dữ liệu. Nó thật sự đúng?

Sắp xếp dữ liệu chắc chắn nhất trong mô tả công việc của Nhà khoa học dữ liệu. Ở một mức độ nào đó, bạn phải hiểu quy trình tạo dữ liệu để sử dụng nó để điều khiển các giải pháp. Chắc chắn, ai đó chuyên về ETL có thể làm điều đó nhanh hơn / hiệu quả hơn, nhưng việc được cung cấp dữ liệu kết xuất không phải là hiếm trong thế giới thực. Nếu bạn không thích khía cạnh này của khoa học dữ liệu, có thể có cơ hội hợp tác chặt chẽ hơn với các tài nguyên CNTT để đưa dữ liệu có nguồn gốc chính xác vào kho mà bạn có quyền truy cập. Ngoài ra, bạn có thể tìm thấy một công việc đã có dữ liệu theo thứ tự tốt hơn.
Tôi biết đây không phải là một công ty điều khiển dữ liệu với bộ phận kỹ thuật dữ liệu cấp cao, nhưng theo ý kiến của tôi thì khoa học dữ liệu đòi hỏi mức độ tiếp cận dữ liệu tối thiểu. Tôi có lầm không?

Tôi nghĩ mức tối thiểu là các tệp txt. Nếu bạn có quyền truy cập vào dữ liệu thông qua các tệp văn bản, bạn sẽ có quyền truy cập vào dữ liệu trong cơ sở dữ liệu (đẩy lùi việc này với cấp trên).
Là loại thiết lập phổ biến cho một công ty có nhu cầu khoa học dữ liệu nghiêm trọng?

Đúng. Bạn là nhà khoa học dữ liệu; bạn là chuyên gia Đây là một phần công việc của bạn để giáo dục người khác về sự thiếu hiệu quả của cấu trúc dữ liệu hiện tại và cách bạn có thể giúp đỡ. Dữ liệu không thể sử dụng được sẽ không giúp được ai. Bạn có một cơ hội để làm cho mọi thứ tốt hơn và định hình tương lai của công ty.

— Underminer
nguồn

6

Là một người mới bắt đầu gần đây trong Khoa học dữ liệu, tôi chỉ có thể nói thêm rằng tôi không nghĩ rằng trải nghiệm của bạn là duy nhất, nhóm khoảng 10 người của tôi dường như đã không thực hiện bất kỳ DS nào trong hơn một năm (một dự án nhỏ chiếm 2 trong số đội). Điều này là do lời hứa về một đường ống hiệu quả mà nhóm đang thực hiện, nhưng vẫn không hoàn toàn cung cấp dữ liệu. Rõ ràng khả năng duy trì khá kém trong quá khứ và liên tục hứa hẹn về môi trường MS Azure thần thánh cho các dự án DS trong tương lai.

Vì vậy, để trả lời:

1) Có hoàn toàn chính xác

2) Không có bạn đúng, nhưng đó là một trận chiến khó khăn để có quyền truy cập vào dữ liệu bạn muốn (nếu nó thậm chí còn tồn tại).

3) Tôi chắc chắn có những công ty ngoài kia tốt hơn những công ty khác. Nếu bạn không thể chịu đựng được ở công ty hiện tại của mình, 2 năm là một khoảng thời gian khá dài, hãy bắt đầu tìm kiếm những thứ sáng sủa hơn (hãy cẩn thận cách bạn nói ra mong muốn rời bỏ công việc hiện tại của mình, đại loại như "tìm cách làm việc với năng động hơn nhóm "nghe có vẻ tốt hơn" công ty cũ của tôi sẽ không cung cấp cho tôi dữ liệu ").

— Oliver Houston
nguồn

5

Nếu bạn nhìn vấn đề này từ góc độ "đây không phải là công việc của tôi, vậy tại sao tôi phải làm điều đó" thì đó là một vấn đề khá phổ biến, chung chung không dành riêng cho khoa học dữ liệu. Cuối cùng, công việc của bạn là làm bất cứ điều gì sếp bảo bạn làm, nhưng trong thực tế, có rất ít lý do để ông chủ độc tài về điều này và thường họ có thể bị thuyết phục. Hoặc ít nhất họ sẽ cho bạn một lời giải thích chân thành về lý do tại sao nó phải như vậy. Nhưng theo như lời kêu gọi của chính quyền, không có định nghĩa chính thức nào về "Khoa học dữ liệu" nói rằng bạn chỉ có thể thực hiện tối đa việc làm sạch dữ liệu X%. Chính quyền là bất cứ ai trả tiền cho bạn, miễn là họ có quyền hợp pháp để ngừng trả tiền cho bạn.

Bạn cũng có thể nhìn nó từ một khía cạnh khác: Đây có phải là cách sử dụng tốt thời gian của bạn? Nghe có vẻ như bạn đã nhận một công việc để thực hiện một số nhiệm vụ (có nghĩa là "khoa học dữ liệu") nhưng bạn phải làm một việc khác (mà bạn gọi là "sắp xếp dữ liệu"). Mô tả công việc và cảm xúc cá nhân là một chút bên cạnh vấn đề ở đây bởi vì có một điều thích hợp hơn: Công ty có thể trả cho bạn một số tiền tốt để làm một việc mà chỉ bạn mới có thể làm (khoa học dữ liệu). Nhưng thay vào đó, bạn phải làm những việc khác, điều này có thể được thực hiện bởi những người khác, những người kết hợp nhiều khả năng hơn, có động lực hơn hoặc ít tốn kém hơn. Nếu việc sắp xếp dữ liệu có thể được thực hiện bởi ai đó kiếm được một nửa tiền lương của bạn, thì sẽ không có nghĩa gì khi trả cho bạn gấp đôi số tiền để làm điều tương tự. Nếu nó có thể được thực hiện nhanh hơnbởi ai đó trả cùng mức lương, logic tương tự được áp dụng. Do đó, thật lãng phí tài nguyên (đặc biệt là tiền) để công ty giao nhiệm vụ này cho bạn. Nhìn từ góc độ này, bạn có thể thấy dễ dàng hơn nhiều để khiến cấp trên nhìn thấy khía cạnh của bạn.

Tất nhiên, vào cuối ngày, ai đó phải làm dữ liệu lộn xộn. Nó có thể là cách rẻ nhất, nhanh nhất, dễ nhất để làm điều đó - người tốt nhất cho công việc, là bạn. Trong trường hợp đó, bạn không gặp may. Bạn có thể cố gắng khẳng định nó không phải là một phần của hợp đồng của bạn, nhưng tỷ lệ cược họ đủ ngây thơ để đưa thứ gì đó cụ thể vào hợp đồng là gì?

— Whelibeiren
nguồn

3

Có lẽ để đặt nó đơn giản:

Khi tạo các biến và tính toán số, bạn sẽ làm điều đó một cách mù quáng, hoặc sau khi phân tích dữ liệu của bạn?
Khi các đồng nghiệp xem xét các phát hiện của bạn, nếu họ có câu hỏi về các bit dữ liệu cụ thể, bạn có thấy bối rối khi không biết chúng không?

Bạn cần phải làm việc với và hiểu dữ liệu của mình - bao gồm những thứ đơn giản từ sửa lỗi không nhất quán (NULL, chuỗi rỗng, "-") để hiểu cách một phần dữ liệu đi từ thu thập đến hiển thị. Xử lý nó bao gồm biết cùng một phần thông tin, vì vậy đó là một phần công việc bạn sẽ phải làm bằng mọi cách.

Bây giờ, có vẻ như công ty này có thể hưởng lợi từ việc thiết lập một số trường hợp MySQL (hoặc tương tự) miễn phí để giữ dữ liệu của bạn. Cố gắng linh hoạt khi bạn thiết kế mã lộn xộn của mình cũng là một ý tưởng hay - có một bộ dữ liệu trung gian của dữ liệu đã xử lý tôi nghĩ sẽ hữu ích nếu bạn được phép (và không thể làm điều đó trong MySQL).

Nhưng tất nhiên bạn vẫn đang thiết lập mọi thứ từ đầu. Đây không phải là một quá trình dễ dàng, nhưng "kinh nghiệm học tập" này ít nhất là tốt để đưa vào CV của bạn.

— David M
nguồn

3

1) Cảm thấy như hầu hết các công việc không liên quan đến khoa học dữ liệu. Nó thật sự đúng? Theo tôi, Khoa học dữ liệu không thể rút ra khỏi sự thay đổi dữ liệu. Nhưng, như bạn đã nói, câu hỏi sẽ đặt ra là bao nhiêu phần trăm Dữ liệu sắp xếp được yêu cầu bởi một Nhà khoa học dữ liệu. Nó phụ thuộc vào băng thông của Tổ chức và người quan tâm thực hiện công việc đó. Theo kinh nghiệm của tôi trong 15 đến 16 năm làm DS, tôi luôn dành khoảng 60% đến 70% cho hoạt động sắp xếp dữ liệu và dành tối đa 15% thời gian cho phân tích thực. vì vậy hãy nhận cuộc gọi của bạn

2) Tôi biết đây không phải là một công ty điều khiển dữ liệu với bộ phận kỹ thuật dữ liệu cấp cao, nhưng theo ý kiến của tôi thì khoa học dữ liệu đòi hỏi mức độ tiếp cận dữ liệu tối thiểu. Tôi có lầm không? Một lần nữa, nó phụ thuộc vào chính sách bảo mật của tổ chức. Họ không thể để lại mọi thứ cho bạn và họ có vấn đề bảo mật riêng để tiết lộ dữ liệu cho một người là nhân viên tạm thời (xin lỗi khi sử dụng từ này :-()

3) Đây có phải là loại thiết lập phổ biến cho một công ty có nhu cầu khoa học dữ liệu nghiêm trọng không? Tôi cảm thấy các loại công ty này đòi hỏi sự chú ý nhiều nhất từ các nhà khoa học dữ liệu để cảm thấy rằng mô hình hướng dữ liệu là tương lai để duy trì hoạt động kinh doanh của họ. :-)

Tôi đã đưa ra đầu vào của tôi trong suy nghĩ của các doanh nghiệp thay vì quan điểm kỹ thuật. :-) Hy vọng tôi rõ ràng trong lựa chọn từ ngữ của tôi.

— người dùng70920
nguồn

3

Trong bài nói chuyện "Dữ liệu lớn là bốn vấn đề khác nhau", người chiến thắng giải thưởng Turing Michael Stonebraker đã đề cập đến vấn đề đặc biệt này là một vấn đề lớn ( video , slide )

Ông nói rằng có một số vấn đề mở trong lĩnh vực này: Ingest, Transform (ví dụ euro / đô la), Clean (vd-99 / Null), ánh xạ lược đồ (ví dụ: tiền lương / tiền lương), hợp nhất thực thể (ví dụ Mike Stonebraker / Michael Stonebreaker)

Có một số công ty / sản phẩm đang cố gắng giải quyết vấn đề này như Tamr, Alteryx, Trifacta, Paxata, Google Refine hoạt động để giải quyết vấn đề này.

Cho đến khi khu vực này trưởng thành, rất nhiều công việc của nhà khoa học dữ liệu thực sự sẽ là dữ liệu lộn xộn.

— hojusaram
nguồn