Sách hay bao gồm tiền xử lý dữ liệu và kỹ thuật phát hiện ngoại lệ


11

Như tiêu đề, có ai biết về một cuốn sách hay, cập nhật bao gồm tiền xử lý dữ liệu nói chung và đặc biệt là các kỹ thuật phát hiện ngoại lệ không?

Cuốn sách không cần tập trung hoàn toàn vào đó, nhưng nó sẽ giải quyết triệt để các chủ đề đã nói ở trên - tôi sẽ không hài lòng với điều gì đó là điểm khởi đầu và trích dẫn một danh sách các bài báo, giải thích về các kỹ thuật khác nhau phải xuất hiện trong cuốn sách chính nó.

Kỹ thuật xử lý dữ liệu bị thiếu tốt hơn, nhưng không cần thiết ...


Ông có thể cho chúng tôi biết loại dữ liệu (lĩnh vực khoa học hoặc kỹ thuật đo lường) mà bạn đang xem không?
cbeleites không hài lòng với SX

Dữ liệu được thu thập từ người dùng web (không thể cụ thể hơn). Bao gồm là dấu thời gian (mặc dù dữ liệu không liên quan chặt chẽ đến thời gian, ít nhất là bằng trực giác), thuộc tính phân loại và thuộc tính liên tục. Outliers có thể được gây ra bởi vô số lý do, bao gồm. robot web, người dùng độc hại và nhiều nguồn khác. Dữ liệu cũng khá lớn (GB ở định dạng CSV, vài triệu mục nhập)
em70

Đối với tôi nó đủ cụ thể: không cần phải làm bạn
nhàm

Câu trả lời:


3

Mặc dù cụ thể đối với Stata, tôi đã tìm thấy cuốn sách của Scott Long, Quy trình phân tích dữ liệu bằng Stata , vô giá trong lĩnh vực quản lý và chuẩn bị dữ liệu. Tác giả đưa ra rất nhiều lời khuyên hữu ích liên quan đến các thực tiễn tốt trong quản lý dữ liệu, chẳng hạn như làm sạch và lưu trữ dữ liệu, kiểm tra các ngoại lệ và xử lý dữ liệu bị thiếu.


2
Tôi cũng thích cuốn sách này, nhưng tôi là người dùng Stata nhuộm màu khi có liên quan đến quản lý dữ liệu. Trong khi tôi không đồng ý, những người khác trong danh sách này đã lập luận rằng nó quá cụ thể Stata là hữu ích, vì vậy hãy báo trước / lector.
Dimitriy V. Masterov

Rất stata-ish từ những gì tôi thu thập được và tôi không quen thuộc với stata, cũng không giúp ích gì cho chính dự án này nếu tôi (dữ liệu quá lớn, sử dụng các công nghệ khác nhau)
em70

Cuốn sách thực sự rất bình dị. Các kỹ thuật xử lý dữ liệu cụ thể (và đặc biệt là siêu dữ liệu) là dành riêng cho Stata, nhưng các ý tưởng chung có thể chuyển được giữa các nền tảng. Tôi ngạc nhiên rằng với tỷ lệ khoảng 20 cuốn sách Stata / 100 cuốn sách R trên thị trường, không có cuốn sách nào có thể so sánh về việc tổ chức quy trình làm việc trong R - điều này có phải là không thể? Dung lượng bộ nhớ lớn nhất mà tôi nhớ lại một cách sinh động khi phân bổ cho Stata là 48Gb trên máy 64Gb - đó là cho dù kích thước có quan trọng hay không. Nếu bạn cần thao tác với các đối tượng có cấu trúc cực kỳ khác nhau, bạn sẽ muốn làm điều này trong R, không phải trong Stata.
StasK

0

Đối với SAS, có Kỹ thuật làm sạch dữ liệu của Ron Cody bằng Phần mềm SAS . Có một câu nói trên SAS-L: "Bạn không bao giờ có thể sai với một cuốn sách của Ron Cody"


Tôi e rằng SAS không phải là công cụ được lựa chọn trong môi trường của tôi và tôi cũng không quen thuộc với nó. Bên cạnh đó, tôi đang tìm kiếm một số cách tiếp cận, thay vì một cuốn sách nấu ăn. Hãy nói rằng tôi đang theo đuổi một thứ gì đó nhiều hơn về mặt toán học và mô hình hóa của mọi thứ.
em70

0

Nếu bạn có những điều cơ bản (xác định các ngoại lệ, các giá trị bị thiếu, trọng số, mã hóa) tùy thuộc vào chủ đề, sẽ có nhiều hơn nữa trong tài liệu học thuật đơn giản được tìm thấy. Ví dụ, trong nghiên cứu khảo sát (là một chủ đề mà nhiều điều có thể sai, và dễ bị nhiều nguồn sai lệch) có rất nhiều bài viết hay được tìm thấy.

Khi chuẩn bị cho hồi quy cắt ngang thường xuyên, mọi thứ thể ít phức tạp hơn. Vấn đề có thể là ví dụ bạn loại bỏ quá nhiều 'ngoại lệ' và do đó phù hợp một cách giả tạo mô hình của bạn.

Do đó tôi cũng khuyên bạn bên cạnh việc học các kỹ thuật tốt, cũng nên giữ ý thức chung trong tâm trí. Hãy chắc chắn rằng bạn áp dụng các kỹ thuật đúng cách và không mù quáng. Đối với các cuộc thảo luận phần mềm trong các câu trả lời khác. Tôi nghĩ SPSS không tệ trong việc chuẩn bị dữ liệu (tôi cũng đã nghe thấy những điều hay về SAS) tùy thuộc vào kích thước tập dữ liệu của bạn. Các menu thả xuống rất trực quan.

Nhưng như một câu trả lời trực tiếp cho câu hỏi của bạn, tài liệu học thuật có thể hoặc không phải là một nguồn rất tốt để chuẩn bị dữ liệu của bạn tùy thuộc vào chủ đề và phân tích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.