Bắt đầu từ đâu với số liệu thống kê cho một nhà phát triển có kinh nghiệm


47

Trong nửa đầu năm 2015, tôi đã tham gia khóa học coursera về Machine Learning (của Andrew Ng, khóa học TUYỆT VỜI). Và học những điều cơ bản của học máy (hồi quy tuyến tính, hồi quy logistic, SVM, Mạng lưới thần kinh ...)

Ngoài ra, tôi đã là một nhà phát triển trong 10 năm, vì vậy việc học một ngôn ngữ lập trình mới sẽ không thành vấn đề.

Gần đây, tôi đã bắt đầu học R để thực hiện các thuật toán học máy.

Tuy nhiên tôi đã nhận ra rằng nếu tôi muốn tiếp tục học, tôi sẽ cần một kiến ​​thức thống kê chính thức hơn, hiện tại tôi có kiến ​​thức không chính thức về nó, nhưng hạn chế đến mức, chẳng hạn, tôi không thể xác định chính xác mô hình tuyến tính nào sẽ tốt hơn (thông thường tôi có xu hướng sử dụng R-vuông cho nó, nhưng rõ ràng đó không phải là một ý tưởng rất tốt).

Vì vậy, với tôi có vẻ khá rõ ràng rằng tôi cần học những điều cơ bản về thống kê (tôi đã học ở uni nhưng quên hầu hết nó), tôi nên học ở đâu, xin lưu ý rằng tôi không thực sự cần một khóa học toàn diện, chỉ là một cái gì đó rằng trong vòng một tháng cho phép tôi biết đủ để tôi có thể háo hức và tìm hiểu thêm :).

Cho đến nay tôi đã đọc về " Thống kê mà không có nước mắt ", có gợi ý nào khác không?


2
Đối với Thống kê: Casella, G. và RL Berger (2002): Suy luận thống kê, Duxbury. Đối với Kinh tế lượng: Hayashi, F. (2000): Kinh tế lượng, Nhà xuất bản Đại học Princeton. Đối với một quan điểm khác: stats.stackexchange.com/questions/91863/iêu
Guilherme Salomé

Tôi đã thêm referencesthẻ. Bạn có thể muốn quét qua trang đầu tiên của lượt truy cập về chủ đề đó.
Glen_b

3
Tôi không thấy rằng điều này nên được đóng lại. Tôi thấy một đối số để làm cho nó CW, mặc dù.
gung - Tái lập Monica

2
Theo quan điểm của tôi, kiến ​​thức sẽ bị sai lệch nếu bạn bắt đầu học thống kê mà không cần làm quen với các lý thuyết xác suất trước đó.
Metariat

2
Tôi muốn thêm một từ cảnh báo. Tôi cảm thấy chắc chắn bạn đã hiểu điều này ở một mức độ nào đó, nhưng tôi chỉ muốn nói nó. Tôi là một sinh viên MD / Tiến sĩ. Với tấm bằng MD, tôi dự định sẽ hành nghề nội khoa. Đối với tiến sĩ của tôi, tôi đang nghiên cứu sinh học. Tôi muốn bạn biết rằng bạn không còn có thể làm chủ được số liệu thống kê trong 1 tháng so với việc bạn có thể thành thạo y học trong một tháng. Tôi không có nghĩa là cố gắng ngăn cản bạn học thống kê. Hoàn toàn ngược lại, tôi hy vọng bạn hiểu nó một cách tuyệt vời. Nhưng chỉ cần hiểu rằng nó không liên quan nhiều hơn là muốn trở thành một nhà phát triển, ví dụ.
Vincent Laufer

Câu trả lời:


26

Tôi muốn gợi ý cho bạn một bản đồ cơ bản về cách đi về nó:

Thêm:

Một trang web tuyệt vời cho các bản đồ đường bộ như vậy là Metacademy , mà cá nhân tôi sẽ coi là một trong những tài nguyên Khoa học dữ liệu tốt nhất trên web.

Gitxiv là một trang web đẹp khác, kết nối các tài liệu nghiên cứu của Arxiv về Khoa học dữ liệu với các triển khai / thư viện nguồn mở có liên quan.


2
OP đã tham gia khóa học của Ng, đó là điều khiến anh ấy đặt câu hỏi ngay từ đầu.
Aksakal

4
@Aksakal Tôi đã nhận thấy nó. Nhưng, bao gồm nó như là một phần của bản đồ đường bộ. Sẽ không thực sự tạo ra sự khác biệt, vì vậy tôi nghĩ bao gồm nó sẽ giúp những người khác đang đọc bài viết này.
Dawny33

12

Bạn đã kiểm tra Think Stats hay Think Bayes - chúng đều là những cuốn sách thống kê (miễn phí) hướng đến các lập trình viên và có rất nhiều mã Python.

Ngoài ra, nếu bạn đang quan tâm đến việc học tập R sau đó Cran có rất nhiều (miễn phí) các file PDF mà bạn có thể muốn kiểm tra, chẳng hạn như giới thiệu về xác suất và thống kê Sử dụng R . Ngoài ra còn có một khóa học Coursera sử dụng R mà rất nhiều người thực sự yêu thích (họ sử dụng sách giáo khoa này , bạn cũng có thể muốn kiểm tra và có phòng thí nghiệm trên DataCamp , tôi tin vậy).

Ngoài ra, nếu bạn muốn theo dõi một vài chủ đề Thống kê, bạn luôn có thể xem một vài video về Khan Academy .


Tôi thích Think Stats và Think Bayes nhưng họ cố tình tránh rất nhiều lý thuyết thống kê chính thức có lợi cho việc hoàn thành công việc thông qua mã. Tuyệt vời để có được một nắm bắt trực quan về chủ đề này, nhưng không tốt nếu mục tiêu của bạn là hiểu lý thuyết cơ bản.
Marius

@Marius: Tôi hiểu ý của bạn. Tuy nhiên, tôi đã nghĩ rằng bởi vì anh ấy đã là một lập trình viên và cũng bởi vì anh ấy dường như muốn "một cái gì đó nhỏ, đơn giản và nhanh chóng" mà nó có thể là nhiều hơn những gì anh ấy đang tìm kiếm.
Steve S

8

Nếu bạn đã từng, ngay cả trong quá khứ xa xôi, có thể giải quyết các vấn đề trong danh sách này , thì bạn nên cố gắng nghiên cứu các số liệu thống kê được áp dụng "đúng cách". Tôi sẽ cung cấp cho bạn một thuật toán hai bước đơn giản.

Đầu tiên, hãy tăng tốc với lý thuyết xác suất. Có rất nhiều cuốn sách tuyệt vời. Yêu thích của tôi là cuốn sách kinh điển của Feller. Nó được gọi là "Giới thiệu" nhưng đừng bị đánh lừa bởi tiêu đề, nó sâu sắc như bạn muốn đi, nhưng được viết rất tốt và đơn giản nếu bạn chỉ muốn lướt qua bề mặt.

Bước thứ hai là thống kê. Một lần nữa, có rất nhiều sách hay. Tôi sẽ cung cấp cho bạn một cái mà tôi đã sử dụng, một văn bản giới thiệu đàng hoàng của Gujarati "Kinh tế lượng cơ bản", Phiên bản thứ tư. Kinh tế lượng là số liệu thống kê áp dụng cho kinh tế. Để tham khảo, một anh chàng mà mọi người nghĩ rằng nhà khoa học dữ liệu sẽ trở thành một công việc quyến rũ nhất trong 10 năm tới là Hal Varian, một nhà kinh tế học tại Berkeley. Rất nhiều công cụ học máy dựa trên số liệu thống kê cơ bản, hồi quy, v.v. Tất cả những gì được đề cập trong cuốn sách này và bạn không cần phải đọc tất cả, nó được viết theo cách bạn có thể chọn các chương theo thứ tự của riêng bạn.

Bạn sẽ ngạc nhiên khi thấy có bao nhiêu khoảng trống bị bỏ ngỏ sau khi lớp của Ng được điền nhanh chóng trong khi đọc các văn bản này.

Là một học viên, bạn không cần quá nhiều lý thuyết sau hai bước này. Bạn có thể tiếp tục học các kỹ thuật ML đặc biệt là đọc sách trong lĩnh vực này. Điều quan trọng là không đi quá sâu vào đầu vào xác suất và số liệu thống kê. Nhận mã của bạn cho ML trước và điền vào các khoảng trống khi bạn đi.


4

Mọi người đều giới thiệu Casella & Berger, gần như được sử dụng phổ biến trong các chương trình thống kê sau đại học. Đây không phải là một cuốn sách tham khảo tồi, nhưng tôi không chắc là tôi sẽ làm nhiều hơn là quét 4-5 chương đầu tiên. Tôi không nghĩ rằng bạn cần lý thuyết về cách xây dựng bài kiểm tra loại Neyman-Pearson trước khi đi sâu vào "thống kê" tức là phân tích dữ liệu.

Thay vào đó, tôi sẽ tập trung vào phương pháp học tập. Chương trình sau đại học của tôi đã sử dụng Phương pháp thống kê tuyến tính ứng dụng cho các bài kiểm tra thường xuyên, và nó là một tài liệu tham khảo toàn diện khá tốt, nhưng có thể không phải là cuốn sách dễ tiếp cận nhất theo quan điểm tự dạy. Một hoặc hai khóa học từ MIT hoặc coursera có thể là một cách tốt hơn để bắt đầu về điều đó, bởi vì bạn sẽ có được một cái nhìn tổng quan rộng hơn với nhiều ví dụ hơn bạn có thể đọc một cuốn sách.

Đối với Bayes, cuốn sách tôi thấy thường xuyên sử dụng là Phân tích dữ liệu Bayes , đi kèm với hình ảnh cún con (rõ ràng, điều này làm cho cuốn sách vượt trội hơn so với các sách giáo khoa giới thiệu khác của Bayes). Tôi chưa bao giờ sử dụng cuốn sách đó, nhưng tôi đã xem qua nó và nó có vẻ khá hay - tốt hơn nhiều so với cuốn sách của Gelman, điều mà tôi thấy hơi khó hiểu SAU hai lớp trong thống kê Bayes - những lời giải thích thật tồi tệ.


1
5 chương đầu tiên của C & B hoàn toàn không phải là thống kê, giống như nền tảng hơn ... Khái niệm về một thống kê được đề cập ở đầu chương 6! Hơn nữa, phương pháp học tập có thể sẽ không giúp được người cụ thể này. nó sẽ giúp anh ta áp dụng số liệu thống kê, không hiểu nó, đó là những gì anh ta cần. nếu anh ta được đào tạo toán nâng cao, anh ta có thể bỏ qua nó ở một mức độ nào đó, nhưng câu trả lời của anh ta cho thấy anh ta hiện không thể hiểu được nền tảng của ML ... điều đó cho thấy mạnh mẽ rằng toán học của anh ta đang hạn chế (ít nhất là đối với tôi). C & B có thể không phải là một nơi tồi tệ để bắt đầu.
Vincent Laufer

1
Chúng có thể không phải là số liệu thống kê, nhưng nền tảng về phân phối xác suất là điều cần thiết để thực hiện bất kỳ loại mô hình nào - bạn cần biết phân phối bernoulli là gì và các thuộc tính của nó là gì trước khi bạn có thể hiểu hồi quy logistic. Thỉnh thoảng tôi vẫn tham khảo C & B, nhưng tôi không nghĩ tôi đã từng sử dụng bất cứ thứ gì ngoài chương 6 ngoài lớp tôi đã sử dụng cuốn sách đó.
srvanderplas

1
Tôi hoàn toàn đồng ý với những gì bạn nói, nhưng nó liên quan đến phần lạc đề thay vì điểm chính - đó là lỗi của tôi khi thêm phần hồi quy ở vị trí đầu tiên. Ở bất cứ giá nào, điểm chính là như một số người khác đã đề xuất, những gì OP thực sự cần làm là hiểu rõ hơn về toán học và thống kê lý thuyết. không có nơi nào trong bài viết cho thấy anh ta cần bất kỳ sự giúp đỡ nào với việc áp dụng các bài kiểm tra thống kê nhiều hơn. anh ấy có thể làm điều đó anh mong muốn hiểu họ sâu sắc hơn. vì điều này, C & B tốt hơn là học hỏi nhiều hơn về sự chuẩn bị theo định hướng ứng dụng.
Vincent Laufer

3

Đây không phải là một câu trả lời hoàn chỉnh, nó chỉ là một gợi ý. Nếu bạn muốn tìm hiểu thêm về thống kê (nền tảng), bạn có thể đọc:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Đây là một cuốn sách khá chuẩn cho các nhà thống kê và nó có rất nhiều kết quả thú vị. Bạn không cần phải xem qua tất cả các bằng chứng về các định lý, nhưng bạn có thể muốn thực hiện một số bài tập để cảm thấy an toàn hơn với kết quả.

Nếu bạn muốn tìm hiểu thêm về kinh tế lượng (mô hình cho dữ liệu), bạn có thể xem qua:

Hayashi, F. (2000): Econometrics, Princeton University Press

Một số người khác thực sự đã hỏi điều gì đó tương tự như những gì bạn đã hỏi và nhận được một câu trả lời hay: Làm gì sau "Casella & Berger" .

Hơn nữa, nếu bạn thực sự có ý định đọc những cuốn sách này, giáo trình này của một khóa học kinh tế lượng có thể cung cấp cho bạn một hướng khá tốt và tốc độ về những gì cần đọc (CB & Hayashi) và khi nào nên đọc.


Cảm ơn lời đề nghị, tuy nhiên cuốn sách đầu tiên bạn đề cập là khoảng 660 trang ... Tôi đã đọc những cuốn sách lớn hơn, nhưng có một cái gì đó nhỏ, đơn giản và nhanh chóng để tôi có thể nắm bắt cơ bản về nó?
Juan Antonio Gomez Moriano

3
Casella và Berger sẽ cung cấp cho bạn một phần lý thuyết về thống kê, nhưng bạn sẽ học được rất ít về phân tích dữ liệu.
Glen_b

1
@JuanAntonioGomezMoriano bạn nhỏ như thế nào sau? Tôi luôn là một fan hâm mộ của Làm thế nào để nói dối với số liệu thống kê là điểm khởi đầu.
icc97

(-1) Những âm thanh đó là sự lựa chọn hoàn hảo cho người thích cách tiếp cận lý thuyết hoặc toán học để thống kê, hoàn toàn trái ngược với những gì OP yêu cầu.
Gala

1
Anh ấy đã nói rằng anh ấy cần một kiến ​​thức "chính thức" hơn và kiến ​​thức cơ bản về thống kê.
Guilherme Salomé

2

Tôi muốn đề xuất một cuốn sách mới xuất hiện kể từ câu hỏi ban đầu: Suy nghĩ lại về thống kê: Một khóa học Bayes với các ví dụ về R và Stan của Richard McElreath, CRC Press.

Nó được viết rất tốt và sử dụng một cách tiếp cận Bayes. Nó rất tương tác và bạn sẽ muốn giải quyết các vấn đề hoặc bạn có thể đi được nửa đường và bắt đầu bị lạc.

Nó bắt đầu rất cơ bản và kết thúc với các mô hình đa cấp, và nó nhắm đến các nhà khoa học khá tiên tiến, có kiến ​​thức thống kê nhưng không cảm thấy thoải mái với các số liệu thống kê như đã được dạy cho họ. Vì vậy, tôi không thể nói chính xác đó là một cuốn sách dành cho người mới bắt đầu, nhưng nó bắt đầu rất đơn giản và anh ấy có một vòng cung và phong cách tuyệt vời.

Phần "Stan" của tiêu đề là một công cụ lấy mẫu Bayes đa năng. Về cơ bản, đó là ngôn ngữ lập trình tự động biên dịch thành C ++ và sau đó được biên dịch thành tệp thực thi. (Suy luận Bayes là chung chung, không giống như các lựa chọn thay thế, vì vậy bạn có thể có một công cụ tổng quát.)


1

Hình tôi sẽ đưa câu trả lời này cho hậu thế, ngay cả khi nó quá muộn để có ích cho bạn. Tất cả các số liệu thống kê của Larry Wasserman được hình thành như một khóa học dành cho những người có nền tảng về học máy, các môn khoa học viễn tưởng khác hoặc toán học không được đào tạo thống kê chính thức - tức là, những người trong tình trạng hiện tại của bạn khá chính xác. Có một số liệu thống kê chính thức tương tự, một vài người bạn và tôi đã thành lập một nhóm tự học để vượt qua nó trong trường học. Tôi nghĩ rằng tôi thực sự được hưởng lợi từ kinh nghiệm đó.

Các chủ đề bổ sung mà Wasserman đưa ra ngoài tài liệu khóa học "xác suất và suy luận thống kê" điển hình, như mô hình đồ họa và bootstrapping, đặc biệt có liên quan đến người làm việc trong máy học. Tôi nên nói rằng cuốn sách có thể khá ngắn gọn so với một cái gì đó như Casella & Berger, vì vậy nếu bạn muốn biết thêm chi tiết hoặc động lực cho các phần nhất định (đặc biệt là bằng chứng), bạn có thể phải bổ sung nó bằng các tài liệu đọc khác. Điều đó nói rằng, tôi cũng thấy cuốn sách được viết rõ ràng với một số vấn đề thực tiễn tốt, và nó là một tài liệu tham khảo nhanh tuyệt vời.

Một tháng không phải là nhiều thời gian. Tuy nhiên, nếu bạn thiết lập một tốc độ rất tích cực, tôi nghĩ rằng bạn chắc chắn có thể nhận được rất nhiều từ văn bản này trong một học kỳ: chúng tôi đã thực hiện nhóm tự học vào mùa hè, ví dụ. Điều đó đặc biệt đúng nếu bạn chủ yếu quan tâm đến mô hình tuyến tính, điều mà bạn sẽ gặp Ch. 13-14.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.