Tôi biết ai đó đang làm việc trong một dự án liên quan đến việc nhập các tệp dữ liệu mà không liên quan đến các cột hoặc loại dữ liệu. Nhiệm vụ là lấy một tệp với bất kỳ số lượng cột và các loại dữ liệu khác nhau và thống kê tóm tắt đầu ra trên dữ liệu số.
Tuy nhiên, anh không chắc chắn về cách chuyển động các kiểu dữ liệu cho các dữ liệu dựa trên số nhất định. Ví dụ:
CITY
Albuquerque
Boston
Chicago
Đây rõ ràng không phải là dữ liệu số và sẽ được lưu trữ dưới dạng văn bản. Tuy nhiên,
ZIP
80221
60653
25525
không được đánh dấu rõ ràng là phân loại. Phần mềm của anh ta sẽ gán mã ZIP dưới dạng thống kê tóm tắt bằng số và đầu ra cho nó, điều này không có ý nghĩa đối với loại dữ liệu đó.
Một vài ý tưởng chúng tôi đã có:
- Nếu một cột là tất cả các số nguyên, hãy gắn nhãn là phân loại. Điều này rõ ràng sẽ không hoạt động, nhưng đó là một ý tưởng.
- Nếu một cột có ít hơn n giá trị duy nhất và là số, hãy gắn nhãn phân loại. Điều này có thể gần hơn, nhưng vẫn có thể có vấn đề với dữ liệu số rơi qua.
- Duy trì một danh sách các dữ liệu số phổ biến thực sự cần được phân loại và so sánh các tiêu đề cột với danh sách này cho phù hợp. Ví dụ, bất cứ thứ gì có "ZIP" trong đó sẽ được phân loại.
Ruột của tôi nói với tôi rằng không có cách nào để gán chính xác dữ liệu số là phân loại hoặc số, nhưng hy vọng có một gợi ý. Bất kỳ cái nhìn sâu sắc bạn có được đánh giá rất cao.