Kế thừa hiện đại để phân tích dữ liệu khám phá của Tukey?


52

Tôi đã đọc cuốn sách "Phân tích dữ liệu khám phá" của Tukey. Được viết vào năm 1977, cuốn sách nhấn mạnh các phương pháp giấy / bút chì. Có một người kế vị 'hiện đại' hơn có tính đến việc bây giờ chúng ta có thể lập biểu đồ ngay lập tức cho các tập dữ liệu lớn không?


Đây có nên là cộng đồng wiki?
richiemorrisroe

Tôi không rõ liệu điều này có nên là CW hay không. Có thể không có câu trả lời tốt; có thể có một câu trả lời nổi bật rõ ràng; chúng tôi có thể tạo ra một danh sách dài các câu trả lời hiệu quả. Hãy xem điều gì xảy ra.
whuber

4
Đây là một câu hỏi hay, biofreezer. Tôi chỉ muốn nhận xét rằng có những sự tương đồng gần với các phương pháp làm việc khác. Yêu thích của tôi là, bút & giấy EDA là các số liệu thống kê hiện đại vì các dụng cụ cầm tay dành cho chế biến gỗ hiện đại. (Chế biến gỗ "Hiện đại" sử dụng nhiều công cụ điện như bàn và bộ định tuyến cho phép ngay cả người mới bắt đầu cũng có được kết quả chấp nhận được trong thời gian ngắn hơn nhiều. Tuy nhiên, những công cụ này cũng chiếm hàng ngàn chữ số và tay chân bị thiếu mỗi năm. thường học cách làm việc tốt hơn và hiệu quả hơn ngay cả khi họ sử dụng các công cụ quyền lực.)
whuber

4
Vâng, chế biến gỗ là một tương tự tốt đẹp (thiếu chữ số, thiếu chữ số). Xem thêm phần mềm-carpentry.org .
chối

Câu trả lời:


19

Điều gần nhất là Dữ liệu Trực quan của Cleveland . Đó là về Phân tích dữ liệu khám phá, đó là về trực quan hóa do máy tính tạo ra, nó sâu sắc, đó là một tác phẩm kinh điển.


2
Điều tương tự cũng áp dụng cho cuốn sách Các yếu tố của dữ liệu đồ họa của cùng một tác giả. Mua cả hai; họ đều xuất sắc
Karl Ove Hufthammer 2/214




4

Khám phá dữ liệu về kỹ thuật, khoa học và y học của Ronald Pearson đáng được đề cập ở đây. Độc giả mục tiêu chính của nó dường như là các nhà khoa học không sợ một toán học nhỏ muốn họ biết nhiều số liệu thống kê. Đó là một nhóm khá lớn, và một nhóm cũng được đại diện ở đây. Đó là một chút kỳ quặc và lạc quan, nhưng nó bao gồm rất nhiều nền tảng và nó bao gồm nhiều lời khuyên hợp lý. Đó không phải là Tukey được xem xét lại theo nghĩa là nó cung cấp nhiều ý tưởng mới, nhưng nó có thể là phần thưởng để nghiên cứu, ngay cả khi bạn nghĩ rằng nó hơi sai lầm.

Cuốn sách này dường như đã thu hút rất ít thông báo, hoàn toàn có thể bởi vì nó rất đắt tiền, rõ ràng không phù hợp như một văn bản khóa học, và như chỉ có sẵn trong bìa cứng. Nhưng nó thông minh và dễ đọc và không có rác của sách giáo khoa giới thiệu hiện đại (trang và trang bài tập cơ bản, biểu tượng ngớ ngẩn, hình ảnh vô cớ của những người trẻ hạnh phúc, bố cục cầu kỳ với hộp, bất cứ điều gì, v.v.).



0

Một vài cuốn sách hay để đọc là Hình ảnh đẹp và Dữ liệu đẹp. Đây là những cuốn sách được chỉnh sửa, có những ví dụ tốt đáng kinh ngạc về việc khám phá dữ liệu với cốt truyện, và một số chương hoàn toàn kinh khủng.

Một cuốn sách khác có một số ví dụ hay về việc sử dụng ggplot2 là một cuốn sách mới của Winston Chang


1
Tôi chỉ muốn kiểm tra lại, Di, trong trường hợp một lỗi đánh máy tinh tế len lỏi vào: có lẽ bạn muốn viết "hấp dẫn" thay vì "kinh khủng"? Mặc dù cả hai đều có ý nghĩa trong bối cảnh này, sự xuất hiện của cái sau - mà không có bất kỳ lời giải thích nào thêm - là khá bất ngờ!
whuber

2
kinh khủng là chính xác - đó là một túi hỗn hợp - khối lượng chỉnh sửa thường là
Dianne Cook

Tôi ngạc nhiên trước những khuyến nghị này. Tôi thấy cả hai cuốn sách đều gây thất vọng (dài về guff, ngắn về đồ họa). Thật không may, O'Reilly, lần đầu tiên tôi gặp là nhà xuất bản sách Unix cực kỳ hay, dường như có sự kiểm soát chất lượng rất không đồng đều đối với sách về bất cứ điều gì thậm chí là thống kê từ xa.
Nick Cox

Tôi thích cả hai cuốn sách, và thực sự cảm thấy rằng chúng là những đóng góp đáng kể. Winston Chang's có rất nhiều chi tiết cơ bản về âm mưu với ggplot2. Nó là một tài liệu tham khảo cho người mới bắt đầu tốt. Nó không cho bạn biết nhiều về lý do tại sao bạn sẽ tạo ra những mảnh đất này, nhưng hầu hết đều có ý nghĩa tốt cho mục đích, từ những tác phẩm mà tôi đã đọc. Beautiful Visualization có một số chương rất ấn tượng, giải quyết các vấn đề khó khăn như trực quan hóa wikipedia, dữ liệu lớn, nhiều phức tạp và nó trải qua quá trình suy nghĩ / quyết định được đưa ra để thực hiện các âm mưu.
Dianne Cook

Chỉ trong trường hợp nhận xét của tôi là mơ hồ: Tôi đã đề cập đến những cuốn sách "Đẹp". Cuốn sách của Winston Chang rất hay và hữu ích.
Nick Cox

0

Tôi nghĩ đến việc Tìm hiểu phân tích mạnh mẽ và khám phá của Hoaglin, Mosteller và Tukey một khối lượng đồng hành về Khám phá các bảng dữ liệu và hình dạng như là một kỹ thuật tiếp theo của EDA. Tôi cũng thấy phân tích dữ liệu và hồi quy, một khóa học thứ hai về thống kê của Mosteller và Tukey là phần tiếp theo của EDA. Các cuốn sách khác nhau của Cleveland được đề cập ở trên là kho báu.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.