Khoa học dữ liệu mà không có kiến ​​thức về một chủ đề cụ thể, nó có đáng để theo đuổi như một nghề nghiệp không? [đóng cửa]


15

Tôi đã có một cuộc trò chuyện với ai đó gần đây và đề cập đến mối quan tâm của tôi trong phân tích dữ liệu và người mà tôi dự định học các kỹ năng và công cụ cần thiết. Họ đề nghị với tôi rằng trong khi thật tuyệt vời khi học các công cụ và xây dựng các kỹ năng thì có rất ít điểm để làm như vậy trừ khi tôi có kiến ​​thức chuyên môn trong một lĩnh vực cụ thể.

Về cơ bản họ đã tóm tắt rằng tôi giống như một người xây dựng với một đống công cụ có thể xây dựng một vài hộp gỗ và có thể chế tạo những thứ tốt hơn (cabin, tủ chén, v.v.), nhưng không có kiến ​​thức trong một lĩnh vực cụ thể tôi sẽ không bao giờ là một người xây dựng sẽ đến cho một sản phẩm cụ thể.

Có ai tìm thấy điều này hoặc có bất kỳ đầu vào về những gì để làm điều này? Có vẻ như đó là sự thật, người ta sẽ phải học các khía cạnh khoa học dữ liệu của mọi thứ và sau đó học một lĩnh vực mới chỉ để trở thành chuyên ngành.


Trong khi câu hỏi của bạn là hợp lệ, đây không phải là nơi thích hợp cho nó. Câu hỏi liên quan đến nghề nghiệp được coi là lạc đề ở đây.
sheldonkreger

Bạn không rõ những gì bạn đang hỏi - tốt hơn là tìm hiểu các công cụ hoặc thu thập kiến ​​thức về miền? có lẽ quá mở và dựa trên ý kiến ​​cho StackExchange.
Sean Owen

Câu trả lời:


42

Drew Conway đã xuất bản Sơ đồ dữ liệu Venn , mà tôi đồng ý:

Sơ đồ khoa học dữ liệu Venn

Một mặt, bạn thực sự nên đọc bài viết của anh ấy. Mặt khác, tôi có thể cung cấp kinh nghiệm của riêng mình: chuyên môn về chủ đề của tôi (mà tôi thích tốt hơn là thuật ngữ "Chuyên môn thực chất", bởi vì bạn thực sự cũng nên có "Chuyên môn đáng kể" về toán học / thống kê và hack) kinh doanh bán lẻ, toán học / số liệu thống kê của tôi là dự báo và thống kê suy luận, và kỹ năng hack của tôi nằm ở R.

Từ quan điểm thuận lợi này, tôi có thể nói chuyện và hiểu các nhà bán lẻ, và ai đó không có ít nhất kiến ​​thức về lĩnh vực này sẽ phải đối mặt với một đường cong học tập dốc trong một dự án với các nhà bán lẻ. Là một hợp đồng phụ, tôi làm thống kê về tâm lý học, và nó giống hệt ở đó. Và thậm chí với một số kiến ​​thức về phần hack / math / thống kê của sơ đồ, tôi sẽ gặp khó khăn trong việc tăng tốc, nói, ghi điểm tín dụng hoặc một số lĩnh vực chủ đề mới khác.

Một khi bạn có một số tiền nhất định của toán học / số liệu thống kê và kỹ năng hack, nó là nhiều hơn để có được một nền tảng trong một hoặc nhiều đối tượng hơn trong việc thêm chưa một ngôn ngữ lập trình để kỹ năng hack của bạn, hoặc chưamột thuật toán học máy khác cho danh mục toán học / thống kê của bạn. Rốt cuộc, một khi bạn có một nền tảng toán học / thống kê / hack vững chắc, bạn có thể cần học các công cụ mới như vậy từ web hoặc từ sách giáo khoa trong một khoảng thời gian ngắn. Nhưng mặt khác, chuyên môn về chủ đề, bạn có thể sẽ không thể học từ đầu nếu bạn bắt đầu từ con số không. Và khách hàng sẽ làm việc với một nhà khoa học dữ liệu A, người hiểu lĩnh vực cụ thể của họ hơn là với nhà khoa học dữ liệu B khác, người đầu tiên cần học những điều cơ bản - ngay cả khi B giỏi toán / thống kê / hack hơn.

Tất nhiên, tất cả điều này cũng có nghĩa là bạn sẽ không bao giờ trở thành một chuyên gia trong một trong ba lĩnh vực. Nhưng điều đó tốt, bởi vì bạn là một nhà khoa học dữ liệu, không phải là lập trình viên hay nhà thống kê hay chuyên gia về vấn đề. Sẽ luôn có những người trong ba vòng tròn riêng biệt mà bạn có thể học hỏi. Đó là một phần của những gì tôi thích về khoa học dữ liệu.


EDIT: Một lát sau và một vài suy nghĩ sau, tôi muốn cập nhật bài viết này với phiên bản mới của sơ đồ. Tôi vẫn nghĩ rằng Kỹ năng hack, Kiến thức Toán học & Thống kê và Chuyên môn Thực chất (rút ngắn thành "Lập trình", "Thống kê" và "Kinh doanh" cho mức độ dễ đọc) cũng quan trọng ... nhưng tôi nghĩ rằng vai trò của Truyền thông cũng quan trọng. Tất cả những hiểu biết bạn có được bằng cách tận dụng hack, số liệu thống kê và chuyên môn kinh doanh của bạn sẽ không tạo ra một chút khác biệt trừ khi bạn có thể truyền đạt chúng cho những người có thể không có sự pha trộn kiến ​​thức độc đáo đó. Bạn có thể cần phải giải thích những hiểu biết thống kê của mình cho một người quản lý doanh nghiệp, người cần được thuyết phục để chi tiền hoặc thay đổi quy trình. Hoặc cho một lập trình viên không suy nghĩ thống kê.

Vì vậy, đây là sơ đồ Venn khoa học dữ liệu mới, cũng bao gồm giao tiếp là một thành phần không thể thiếu. Tôi đã dán nhãn các khu vực theo cách đảm bảo ngọn lửa tối đa, trong khi dễ nhớ.

Bình luận đi.

sơ đồ khoa học dữ liệu mới Venn

Mã R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
Tôi đã được đưa đến đây bởi một bài viết blog tham khảo sơ đồ cập nhật của bạn. Tôi nghĩ rằng đây là một cải tiến lớn trên phiên bản Conway ban đầu, mặc dù tôi không thể vượt qua khái niệm này - ngụ ý bởi quy mô của sự chồng chéo - rằng Prof Prof là một người có kỹ năng thống kê và giao tiếp tương đương.
Robert de Graaf

0

Chắc chắn, bạn có thể. Các công ty đang kêu gọi các nhà khoa học dữ liệu. Hãy cẩn thận mặc dù tất cả đều diễn giải thuật ngữ khác nhau. Tùy thuộc vào công ty, bạn có thể thấy mình được yêu cầu làm bất cứ điều gì từ thống kê đến viết mã sản xuất. Bản thân tôi là một công việc toàn thời gian và bạn phải chuẩn bị cho cả hai, vì vậy, yêu cầu kiến ​​thức chuyên môn sâu trên đó là không hợp lý, theo tôi, và các công ty tôi đã nói chuyện nhấn mạnh hai lĩnh vực khác ( đặc biệt là lập trình). Tuy nhiên, tôi thấy rằng nó giúp làm quen với các loại vấn đề mà bạn có thể gặp phải. Tùy thuộc vào lĩnh vực, đó có thể là phát hiện bất thường, đề xuất / cá nhân hóa, dự đoán, liên kết hồ sơ, v.v ... Đây là những điều bạn có thể học làm ví dụ cùng lúc với toán học và lập trình.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.