Drew Conway đã xuất bản Sơ đồ dữ liệu Venn , mà tôi đồng ý:
Một mặt, bạn thực sự nên đọc bài viết của anh ấy. Mặt khác, tôi có thể cung cấp kinh nghiệm của riêng mình: chuyên môn về chủ đề của tôi (mà tôi thích tốt hơn là thuật ngữ "Chuyên môn thực chất", bởi vì bạn thực sự cũng nên có "Chuyên môn đáng kể" về toán học / thống kê và hack) kinh doanh bán lẻ, toán học / số liệu thống kê của tôi là dự báo và thống kê suy luận, và kỹ năng hack của tôi nằm ở R.
Từ quan điểm thuận lợi này, tôi có thể nói chuyện và hiểu các nhà bán lẻ, và ai đó không có ít nhất kiến thức về lĩnh vực này sẽ phải đối mặt với một đường cong học tập dốc trong một dự án với các nhà bán lẻ. Là một hợp đồng phụ, tôi làm thống kê về tâm lý học, và nó giống hệt ở đó. Và thậm chí với một số kiến thức về phần hack / math / thống kê của sơ đồ, tôi sẽ gặp khó khăn trong việc tăng tốc, nói, ghi điểm tín dụng hoặc một số lĩnh vực chủ đề mới khác.
Một khi bạn có một số tiền nhất định của toán học / số liệu thống kê và kỹ năng hack, nó là nhiều hơn để có được một nền tảng trong một hoặc nhiều đối tượng hơn trong việc thêm chưa một ngôn ngữ lập trình để kỹ năng hack của bạn, hoặc chưamột thuật toán học máy khác cho danh mục toán học / thống kê của bạn. Rốt cuộc, một khi bạn có một nền tảng toán học / thống kê / hack vững chắc, bạn có thể cần học các công cụ mới như vậy từ web hoặc từ sách giáo khoa trong một khoảng thời gian ngắn. Nhưng mặt khác, chuyên môn về chủ đề, bạn có thể sẽ không thể học từ đầu nếu bạn bắt đầu từ con số không. Và khách hàng sẽ làm việc với một nhà khoa học dữ liệu A, người hiểu lĩnh vực cụ thể của họ hơn là với nhà khoa học dữ liệu B khác, người đầu tiên cần học những điều cơ bản - ngay cả khi B giỏi toán / thống kê / hack hơn.
Tất nhiên, tất cả điều này cũng có nghĩa là bạn sẽ không bao giờ trở thành một chuyên gia trong một trong ba lĩnh vực. Nhưng điều đó tốt, bởi vì bạn là một nhà khoa học dữ liệu, không phải là lập trình viên hay nhà thống kê hay chuyên gia về vấn đề. Sẽ luôn có những người trong ba vòng tròn riêng biệt mà bạn có thể học hỏi. Đó là một phần của những gì tôi thích về khoa học dữ liệu.
EDIT: Một lát sau và một vài suy nghĩ sau, tôi muốn cập nhật bài viết này với phiên bản mới của sơ đồ. Tôi vẫn nghĩ rằng Kỹ năng hack, Kiến thức Toán học & Thống kê và Chuyên môn Thực chất (rút ngắn thành "Lập trình", "Thống kê" và "Kinh doanh" cho mức độ dễ đọc) cũng quan trọng ... nhưng tôi nghĩ rằng vai trò của Truyền thông cũng quan trọng. Tất cả những hiểu biết bạn có được bằng cách tận dụng hack, số liệu thống kê và chuyên môn kinh doanh của bạn sẽ không tạo ra một chút khác biệt trừ khi bạn có thể truyền đạt chúng cho những người có thể không có sự pha trộn kiến thức độc đáo đó. Bạn có thể cần phải giải thích những hiểu biết thống kê của mình cho một người quản lý doanh nghiệp, người cần được thuyết phục để chi tiền hoặc thay đổi quy trình. Hoặc cho một lập trình viên không suy nghĩ thống kê.
Vì vậy, đây là sơ đồ Venn khoa học dữ liệu mới, cũng bao gồm giao tiếp là một thành phần không thể thiếu. Tôi đã dán nhãn các khu vực theo cách đảm bảo ngọn lửa tối đa, trong khi dễ nhớ.
Bình luận đi.
Mã R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()