Yêu cầu tham khảo: Thống kê cổ điển cho các nhà khoa học dữ liệu làm việc


10

Tôi là một nhà khoa học dữ liệu làm việc với kinh nghiệm vững chắc về hồi quy, các thuật toán loại máy học và lập trình khác (cả để phân tích dữ liệu và phát triển phần mềm nói chung). Hầu hết cuộc đời làm việc của tôi đã tập trung vào việc xây dựng các mô hình cho độ chính xác dự đoán (làm việc dưới nhiều ràng buộc kinh doanh khác nhau) và xây dựng các đường ống dữ liệu để hỗ trợ công việc của riêng tôi (và của người khác).

Tôi không được đào tạo chính thức về thống kê, giáo dục đại học của tôi tập trung vào toán học thuần túy. Như vậy đã bỏ lỡ việc học nhiều chủ đề cổ điển, đặc biệt là các bài kiểm tra giả thuyết phổ biến khác nhau và các kỹ thuật suy luận.

Có tài liệu tham khảo nào cho những chủ đề này phù hợp với người có nền tảng và mức độ kinh nghiệm của tôi không? Tôi có thể xử lý (và đánh giá cao) sự chặt chẽ toán học, và cũng có thể tận hưởng các quan điểm thuật toán. Tôi có xu hướng thích các tài liệu tham khảo cung cấp cho người đọc các bài tập hướng dẫn, với cả (hoặc) một trọng tâm toán học và (hoặc) lập trình.


2
Là một Matt khác từ nền tảng toán học, với kiến ​​thức thống kê đầy lỗ hổng, tôi có thể liên quan! Có khu vực / ứng dụng cụ thể nào bạn quan tâm không? Một điều cần chú ý với các số liệu thống kê cổ điển là những giả định được sử dụng.
GeoMatt22

5
Có một vài tài liệu tham khảo tốt ở đây: mathoverflow.net/questions/31655/statistic-for-mathematicians
Alex R.

Câu trả lời:


3

Tất cả các số liệu thống kê của Larry Wasserman là một cuốn sách hay để có được một chuyến tham quan thống kê toán học. Đó là cuốn sách đầu tiên về thống kê toán học mà tôi đã sử dụng bản thân mình. Nó bao gồm các tác phẩm kinh điển như kiểm tra giả thuyết và ước tính khả năng tối đa, nhưng nó cũng có nhiều phạm vi của các chủ đề được phát triển gần đây nhưng không kém phần quan trọng như bootstrapping. Wasserman luôn có một chân trong thống kê và chân kia trong học máy, điều mà tôi nghĩ rằng tất cả các nhà phân tích dữ liệu đương đại nên làm; nếu bạn chỉ quen thuộc với một lĩnh vực trong hai lĩnh vực, bạn sẽ bị thiếu rất nhiều. Ngoài ra, cuốn sách có rất nhiều bài tập tốt.

Nếu bạn có một nền tảng trong phân tích thực tế và bạn muốn những thứ thô sơ, không bị cắt xén, theo ý tôi là cách xử lý theo lý thuyết xác suất và thống kê, hãy thử Lý thuyết Thống kê của Mark J. Schervish . Schervish là một nửa của DeGroot và Schervish, người có cuốn sách ít kỹ thuật Xác suất và Thống kê có lẽ là cuốn sách phổ biến nhất về thống kê toán học ngày nay. Lý thuyết thống kê là một cuốn sách hữu ích cho một chủ đề thường dành cho sinh viên tốt nghiệp, những người được cho là tự làm tất cả các công việc. Thành thật mà nói, tôi thấy cuốn sách này rất khó (mặc dù không khó như Thống kê toán học của Jun Shao) và cuối cùng đã cảm thấy nỗ lực to lớn cần có để làm chủ nó không phải là cách sử dụng tốt thời gian của tôi như là một nhà phân tích dữ liệu ứng dụng. Nhưng tôi vẫn học được rất nhiều và hiểu rõ về lý thuyết đo lường là gì và làm thế nào nó có thể được sử dụng để làm sạch những khó khăn lý thuyết đầy lông phát sinh trong cách tiếp cận truyền thống ngây thơ hơn đối với lý thuyết xác suất. Tôi cũng đã đánh giá cao hơn những điểm tương đồng và khác biệt về khả năng trao đổi và độc lập.


2

Ngoài các đề xuất rất tốt của Kodiologist (+1), tôi cũng khuyên bạn nên xem xét chủ đề của các nghiên cứu quan sát . Tôi nghĩ rằng đó là lĩnh vực không được đánh giá cao giữa các nhà khoa học dữ liệu mặc dù thực tế là trong nhiều trường hợp, dữ liệu được phân tích có bản chất quan sát. Tôi nghĩ rằng điều này là do phần lớn thư mục (đặc biệt là trong Thống kê sinh học) cho rằng ít nhất một số thiết kế gần như thí nghiệm đã được áp dụng. Sách của Paul Rosenbaum Nghiên cứu quan sátthiết kế nghiên cứu quan sát là một số tài liệu tham khảo được sử dụng phổ biến nhất.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.