Trong một câu hỏi trước tôi đã hỏi về các công cụ chỉnh sửa tệp CSV .
Gavin đã liên kết với một nhận xét về Trợ giúp R của Duncan Murdoch cho thấy Định dạng trao đổi dữ liệu là một cách đáng tin cậy hơn để lưu trữ dữ liệu so với CSV.
Đối với một số ứng dụng, một hệ thống quản lý cơ sở dữ liệu chuyên dụng là những gì cần thiết. Tuy nhiên, đối với các dự án phân tích dữ liệu quy mô nhỏ, một cái gì đó nhẹ hơn có vẻ phù hợp hơn.
Xem xét các tiêu chí sau để đánh giá định dạng tệp:
- độ tin cậy : dữ liệu được nhập phải đúng với những gì đã nhập; dữ liệu phải mở một cách nhất quán trong các phần mềm khác nhau;
- đơn giản : sẽ rất tuyệt nếu định dạng tệp dễ hiểu và lý tưởng nhất có thể đọc được bằng một trình soạn thảo văn bản đơn giản; thật dễ dàng để viết một chương trình đơn giản để đọc và viết định dạng.
- mở : định dạng nên được mở
- có thể tương tác : định dạng tệp nên được nhiều hệ thống hỗ trợ
Tôi thấy các định dạng giá trị được phân tách bằng dấu phẩy và dấu phẩy không thành công trên tiêu chí độ tin cậy. Mặc dù tôi cho rằng tôi có thể đổ lỗi cho các chương trình nhập và xuất hơn là định dạng tệp. Tôi thường thấy mình phải điều chỉnh một chút cho các tùy chọn
read.table
để ngăn một số nhân vật lạ phá vỡ việc tải khung dữ liệu.
Câu hỏi
- Định dạng tập tin nào đáp ứng tốt nhất các nhu cầu này?
- Là định dạng trao đổi dữ liệu là một thay thế tốt hơn? hoặc nó có vấn đề riêng của nó?
- Có một số định dạng khác là thích hợp hơn?
- Tôi có đánh giá không công bằng TSV và CSV không? Có một bộ mẹo đơn giản để làm việc với các tệp như vậy làm cho định dạng tệp đáng tin cậy hơn không?
write.DIF()
đường nên tôi hơi sợ đường một chiều.