Như tôi đã lưu ý trong nhận xét của mình , không có đủ chi tiết trong câu hỏi để một câu trả lời thực sự được đưa ra. Vì bạn cần trợ giúp thậm chí tìm các thuật ngữ đúng và hình thành câu hỏi của bạn, tôi có thể nói ngắn gọn một cách chung chung.
→ 2 ) và sắp xếp lại các hàng và cột là các tác vụ làm sạch dữ liệu điển hình.
Theo một nghĩa nào đó, việc làm sạch dữ liệu có thể được thực hiện trong bất kỳ phần mềm nào và có thể được thực hiện bằng Excel hoặc với R. Sẽ có những ưu và nhược điểm đối với cả hai lựa chọn:
- Excel: Excel gần như chắc chắn là lựa chọn phổ biến nhất để làm sạch dữ liệu (xem R fortunes # 59 pdf ). Nó cũng được coi là một lựa chọn kém của các nhà thống kê. Lý do chính là khó đảm bảo rằng bạn đã nắm bắt được mọi thứ hoặc bạn đã xử lý mọi thứ giống hệt nhau và không có hồ sơ về những thay đổi mà bạn đã thực hiện, vì vậy bạn không thể xem lại những thay đổi đó sau này. Mặt trái của việc sử dụng Excel là sẽ dễ dàng hơn để xem những gì bạn đang làm và bạn không cần phải biết nhiều để thực hiện các thay đổi. (Các nhà thống kê sẽ coi sau này là một con bổ sung .)
R: R sẽ yêu cầu một đường cong học tập dốc. Nếu bạn không quen thuộc với R hoặc lập trình, những thứ có thể được thực hiện khá nhanh chóng và dễ dàng trong Excel sẽ gây khó chịu khi thử trong R. Mặt khác, nếu bạn phải làm điều này một lần nữa, thì việc học sẽ được thời gian chi tiêu tốt Ngoài ra, khả năng viết và lưu mã của bạn để làm sạch dữ liệu trong R sẽ làm giảm bớt các nhược điểm được liệt kê ở trên. Sau đây là một số liên kết sẽ giúp bạn bắt đầu với các tác vụ này trong R:
Bạn có thể nhận được nhiều thông tin tốt về Stack Overflow :
Quick-R cũng là một tài nguyên quý giá:
Bắt số vào chế độ số:
Một nguồn vô giá khác để tìm hiểu về R là trang web trợ giúp thống kê của UCLA :
Cuối cùng, bạn luôn có thể tìm thấy nhiều thông tin với Google cũ:
Cập nhật: Đây là một vấn đề phổ biến liên quan đến cấu trúc dữ liệu của bạn khi bạn có nhiều phép đo cho mỗi "đơn vị nghiên cứu" (trong trường hợp của bạn là một người). Nếu bạn có một hàng cho mỗi người, ví dụ, dữ liệu của bạn được cho là ở dạng 'rộng', nhưng sau đó bạn nhất thiết sẽ có nhiều cột cho biến phản hồi của mình. Mặt khác, bạn có thể chỉ có một cột cho biến phản hồi của mình (kết quả là có nhiều hàng cho mỗi người), trong trường hợp đó, dữ liệu của bạn được cho là ở dạng 'dài'. Di chuyển giữa hai định dạng này thường được gọi là 'định hình lại' dữ liệu của bạn, đặc biệt là trong thế giới R.
- Hàm R tiêu chuẩn cho việc này là ? Định hình lại . Có một hướng dẫn sử dụng
reshape()
trên trang web trợ giúp thống kê của UCLA.
- Nhiều người nghĩ
reshape
là khó làm việc. Hadley Wickham đã đóng góp một gói gọi là reshape2 , nhằm mục đích đơn giản hóa quy trình. Trang web cá nhân của Hadley cho reshape2 đã có ở đây , tổng quan về Quick-R ở đây và có một hướng dẫn dễ nhìn ở đây .
- Có rất nhiều câu hỏi về SO về cách định hình lại dữ liệu. Hầu hết trong số họ là về việc đi từ rộng đến dài, bởi vì đó thường là những gì các nhà phân tích dữ liệu phải đối mặt. Câu hỏi của bạn là về việc đi từ dài đến rộng, ít phổ biến hơn, nhưng vẫn còn nhiều chủ đề về điều đó, bạn có thể xem qua chúng với tìm kiếm này .
- Nếu trái tim của bạn đang cố gắng làm điều này với Excel, có một chủ đề về cách viết macro VBA cho Excel để sao chép chức năng định hình lại ở đây: làm tan / tái cấu trúc trong Excel bằng VBA?
data.table
,dplyr
,plyr
, vàreshape2
- Tôi khuyên bạn nên tránh Excel và các bảng tổng hợp nếu có thể.