Khi tôi làm việc trên các dự án phân tích dữ liệu, tôi thường lưu trữ dữ liệu trong các tệp dữ liệu được phân cách bằng dấu phẩy hoặc phân tách bằng tab (CSV, TSV). Trong khi dữ liệu thường thuộc về một hệ thống quản lý cơ sở dữ liệu chuyên dụng. Đối với nhiều ứng dụng của tôi, điều này sẽ làm quá nhiều thứ.
Tôi có thể chỉnh sửa các tệp CSV và TSV trong Excel (hoặc có lẽ là một chương trình Bảng tính khác). Điều này có lợi ích:
- bảng tính giúp dễ dàng nhập dữ liệu
Ngoài ra còn có một số vấn đề:
- Làm việc với các tệp CSV và TSV dẫn đến một loạt các thông báo cảnh báo về các tính năng khác nhau bị mất và làm thế nào chỉ có bảng hoạt động sẽ được lưu và vv. Vì vậy, thật khó chịu nếu bạn chỉ muốn mở tệp và thực hiện một chút thay đổi.
- Nó thực hiện nhiều chuyển đổi "được cho là thông minh". Ví dụ: nếu bạn nhập 12/3, nó sẽ nghĩ rằng bạn muốn nhập một ngày. CẬP NHẬT: Tôi nên đã đề cập rằng ví dụ ngày chỉ là một trong nhiều ví dụ; hầu hết các vấn đề dường như có liên quan đến chuyển đổi không phù hợp. Cụ thể, các trường văn bản trông giống như số hoặc ngày gây ra vấn đề.
Ngoài ra, tôi có thể làm việc trực tiếp với tệp văn bản trong trình soạn thảo văn bản tiêu chuẩn. Điều này đảm bảo rằng những gì tôi nhập là những gì được ghi lại. Tuy nhiên, cách nhập dữ liệu rất khó xử (các cột không xếp hàng; rất khó nhập dữ liệu vào nhiều ô, v.v.).
Câu hỏi
- Chiến lược tốt để làm việc với các tệp dữ liệu CSV hoặc TSV là gì? tức là, chiến lược nào giúp bạn dễ dàng nhập và thao tác dữ liệu đồng thời đảm bảo rằng những gì bạn nhập thực sự được diễn giải chính xác?