Sách về Khoa học trực tuyến về khoa học dữ liệu? [đóng cửa]


26

Những cuốn sách về khoa học và toán học đằng sau khoa học dữ liệu là gì? Cảm giác như rất nhiều cuốn sách "khoa học dữ liệu" đang hướng dẫn lập trình và không chạm vào những thứ như quy trình tạo dữ liệu và suy luận thống kê. Tôi đã có thể viết mã, điều tôi yếu là toán học / số liệu thống kê / lý thuyết đằng sau những gì tôi đang làm.

Nếu tôi sẵn sàng đốt 1000 đô la trên sách (vì vậy khoảng 10 cuốn sách ... thở dài), tôi có thể mua gì?

Ví dụ: Phân tích dữ liệu phân loại của Agresti , Mô hình hỗn hợp tuyến tính cho dữ liệu theo chiều dọc , v.v ... vv ...


Hỏi về những cuốn sách "tốt" sẽ thu hút các câu trả lời dựa trên ý kiến ​​và vì vậy đây là ngoài chủ đề. Được gắn cờ.
Spainedman

3
Tôi đã thay đổi nó vì vậy tôi chỉ tìm kiếm sách. Không có gì dựa trên ý kiến.
Anton

Đó là thống kê chính tả :) Gắn bó với một cái gì đó thực dụng tập trung vào dự đoán hơn là suy luận. Cả hai yếu tố của học thống kêgiới thiệu về học thống kê đều nằm trong danh sách của hầu hết mọi người.
Dirk Eddelbuettel

Tôi chưa thể thêm nhận xét nào, nhưng chỉ có FYI ESL có sẵn trực tuyến miễn phí dưới dạng pdf
idclark

1
Tôi nghĩ rằng câu hỏi này nên được đánh dấu là wiki cộng đồng.
Shagun Sodhani

Câu trả lời:


21

13

Nếu tôi chỉ có thể giới thiệu một cái cho bạn, thì đó sẽ là: Các yếu tố của việc học và dự đoán thống kê của Hastie, Tibshirani và Friedman. Nó cung cấp toán học / thống kê đằng sau rất nhiều kỹ thuật thường được sử dụng trong khoa học dữ liệu.

Đối với Kỹ thuật Bayes, Phân tích dữ liệu Bayes của Gelman, Carlin, Stern, Dunson, Vehtari và Rubin là tuyệt vời.

Suy luận thống kê của Casella và Berger là một cuốn sách giáo khoa tốt nghiệp tốt nghiệp trên nền tảng lý thuyết của thống kê. Cuốn sách này đòi hỏi mức độ thoải mái khá cao với toán học (lý thuyết xác suất dựa trên lý thuyết đo lường, điều này không tầm thường để hiểu).

Đối với các quy trình tạo dữ liệu, tôi không có đề xuất cho một cuốn sách. Điều tôi có thể nói là sự hiểu biết tốt về các giả định của các kỹ thuật được sử dụng và đảm bảo rằng dữ liệu được thu thập hoặc tạo ra theo cách không vi phạm các giả định đó đi một chặng đường dài để phân tích tốt.


7

Các câu trả lời khác đề xuất một bộ sách hay về toán học đằng sau khoa học dữ liệu. Nhưng như bạn đã đề cập, nó không chỉ là toán học và các hoạt động như thu thập dữ liệu và suy luận từ dữ liệu có các quy tắc và lý thuyết riêng, ngay cả khi không nghiêm ngặt như nền tảng toán học (chưa).

Đối với các phần này, tôi đề xuất cuốn sách Dữ liệu đẹp: Câu chuyện đằng sau các giải pháp dữ liệu thanh lịch bao gồm hai mươi nghiên cứu trường hợp như các chương được viết bởi những người thực sự liên quan đến các vấn đề phân tích dữ liệu trong thế giới thực. Nó không chứa bất kỳ toán học nào, nhưng khám phá các lĩnh vực như thu thập dữ liệu, tìm cách sử dụng dữ liệu thực tế trong phân tích, nhân rộng và lựa chọn các giải pháp tốt nhất rất tốt.

Một cuốn sách thực sự thú vị khác là Suy nghĩ với dữ liệu: Cách biến thông tin thành thông tin chuyên sâu , không phải là kỹ thuật (= hướng dẫn lập trình), nhưng bao gồm các chủ đề quan trọng về cách thực sự sử dụng sức mạnh khoa học dữ liệu trong việc ra quyết định và các vấn đề trong thế giới thực.


7

Tôi thích đề xuất của Amir Ali Akbari, và tôi sẽ thêm một vài thứ của riêng mình, tập trung vào các chủ đề và kỹ năng không được đề cập đầy đủ trong hầu hết các sách phân tích dữ liệu và học máy tập trung vào toán học và / hoặc lập trình.

Làm sạch dữ liệu:

Phân tích dữ liệu Bayes (thay thế cho thử nghiệm ý nghĩa giả thuyết Null theo phong cách Fisher):

Suy luận khi đối mặt với sự không chắc chắn, không đầy đủ, mâu thuẫn, mơ hồ, thiếu quyết đoán, thiếu hiểu biết, vv.:

Thí nghiệm:

Mô phỏng:

Chuyên gia khơi gợi, ước lượng xác suất:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.