Như Hadley có thể mong đợi, bài viết của anh ấy chứa một định nghĩa tốt về dữ liệu gọn gàng và tôi đồng ý với hầu hết mọi thứ trong bài viết của anh ấy và tin rằng nó không chỉ hợp lệ với "chuyên gia dữ liệu". Tuy nhiên, một số điểm anh ta đưa ra tương đối dễ khắc phục (ví dụ: với các gói anh ta đã tạo ra) nếu một số vấn đề cơ bản hơn được tránh. Hầu hết các vấn đề này là kết quả của việc sử dụng rộng rãi Excel. Excel là một công cụ có giá trị và có giá trị của nó, nhưng một số cơ sở của nó dẫn đến các vấn đề cho các nhà phân tích dữ liệu.
Một số điểm (từ kinh nghiệm của tôi):
- Một số người thích bảng tính đầy màu sắc và sử dụng phong phú các tùy chọn định dạng. Điều này là tốt, nếu nó giúp họ sắp xếp dữ liệu của họ và chuẩn bị các bảng để trình bày. Tuy nhiên, thật nguy hiểm nếu màu tế bào thực sự mã hóa dữ liệu. Thật dễ dàng để mất dữ liệu này và rất khó để có được dữ liệu đó được nhập vào phần mềm thống kê (ví dụ: xem câu hỏi này trên Stack Overflow).
- Đôi khi tôi nhận được một số dữ liệu được định dạng độc đáo (sau khi tôi nói với mọi người cách chuẩn bị), nhưng mặc dù yêu cầu họ sử dụng một cột chuyên dụng hoặc tệp riêng để nhận xét, họ quyết định đưa nhận xét vào cột giá trị. Tôi không chỉ cần xử lý cột này theo cách đặc biệt khi nhập dữ liệu, mà vấn đề chính là tôi sẽ cần phải cuộn qua tất cả các bảng để xem những bình luận như vậy (điều mà tôi thường không làm). Điều này thậm chí còn tồi tệ hơn nếu họ sử dụng các phương tiện bình luận của Excel.
- Bảng tính có nhiều bảng trong đó, nhiều dòng tiêu đề hoặc các ô được kết nối dẫn đến công việc thủ công để chuẩn bị chúng để nhập vào phần mềm thống kê. Các nhà phân tích dữ liệu tốt thường không thích loại công việc thủ công này.
- Không bao giờ, không bao giờ ẩn các cột trong Excel. Nếu chúng không cần thiết, hãy xóa chúng. Nếu họ cần thiết, cho họ thấy.
- xls và hậu duệ của nó không phải là định dạng tệp phù hợp để trao đổi dữ liệu với người khác hoặc lưu trữ nó. Các công thức được cập nhật khi tệp được mở và các phiên bản Excel khác nhau có thể xử lý các tệp khác nhau. Thay vào đó, tôi khuyên dùng một tệp CSV đơn giản, vì hầu như tất cả các phần mềm liên quan đến dữ liệu đều có thể nhập tệp đó (ngay cả Excel) và có thể dự kiến rằng điều đó sẽ không thay đổi sớm. Tuy nhiên, lưu ý rằng Excel làm tròn thành các chữ số hiển thị khi lưu vào CSV (do đó loại bỏ độ chính xác).
- Nếu bạn muốn làm cho cuộc sống của người khác trở nên dễ dàng, hãy tuân thủ các nguyên tắc được đưa ra trong bài viết của Hadley. Có một cột giá trị cho mỗi cột biến và các yếu tố xác định tầng.
Có lẽ có một số điểm bổ sung mà tôi không nghĩ đến.