Có những lợi ích đáng kể để chuẩn hóa dữ liệu nếu bạn sẵn sàng thực hiện công việc để đạt được và duy trì nó. Hai lợi ích cơ bản để bình thường hóa là:
- Toàn vẹn dữ liệu
- Linh hoạt truy vấn
Cách tiếp cận đơn giản để chuẩn hóa là tạo một bảng cho mỗi người, địa điểm, sự vật, khái niệm hoặc sự kiện. Bằng cách này, bạn có từng đặc điểm của từng người, địa điểm, sự vật, khái niệm hoặc sự kiện bạn quan tâm ở một và chỉ một nơi trong cơ sở dữ liệu. Lợi ích của tính toàn vẹn dữ liệu đạt được khi bạn chèn và cập nhật dữ liệu. Vì bạn đã bình thường hóa nên bạn không có các bản sao dự phòng có cùng đặc điểm ở nhiều nơi trên cơ sở dữ liệu, mỗi nơi có một giá trị khác nhau, bạn phải nhớ cập nhật và giữ đồng bộ. Thứ hai, bạn chỉ có một nơi trong cơ sở dữ liệu để kiểm tra chương trình khi chèn hoặc cập nhật dữ liệu để đảm bảo dữ liệu hợp lệ. Vì dữ liệu của bạn đến từ nhiều bảng tính excel, bình thường hóa dữ liệu của bạn cung cấp cho bạn cơ hội để thực hiện kiểm tra tính toàn vẹn dữ liệu trên tải để đảm bảo rằng bạn phân tích dựa trên dữ liệu chính xác. Lợi ích của tính linh hoạt truy vấn đạt được khi bạn muốn đọc và phân tích dữ liệu. Vì bạn đã chuẩn hóa dữ liệu, bạn có thể kết nối các bảng một cách linh hoạt dựa trên câu hỏi về dữ liệu bạn muốn trả lời, chỉ bao gồm những gì bạn cần để trả lời câu hỏi cụ thể. Thứ hai, điều này cho phép cơ sở dữ liệu trả về các câu trả lời cho các câu hỏi của bạn nhanh hơn nhiều so với việc nó phải quét qua tất cả dữ liệu, bao gồm cả dữ liệu không liên quan đến câu hỏi của bạn, trong các bảng không chuẩn hóa của bạn. Vì bạn đã chuẩn hóa dữ liệu, bạn có thể kết nối các bảng một cách linh hoạt dựa trên câu hỏi về dữ liệu bạn muốn trả lời, chỉ bao gồm những gì bạn cần để trả lời câu hỏi cụ thể. Thứ hai, điều này cho phép cơ sở dữ liệu trả về các câu trả lời cho các câu hỏi của bạn nhanh hơn nhiều so với việc nó phải quét qua tất cả dữ liệu, bao gồm cả dữ liệu không liên quan đến câu hỏi của bạn, trong các bảng không chuẩn hóa của bạn. Vì bạn đã chuẩn hóa dữ liệu, bạn có thể kết nối các bảng một cách linh hoạt dựa trên câu hỏi về dữ liệu bạn muốn trả lời, chỉ bao gồm những gì bạn cần để trả lời câu hỏi cụ thể. Thứ hai, điều này cho phép cơ sở dữ liệu trả về các câu trả lời cho các câu hỏi của bạn nhanh hơn nhiều so với việc nó phải quét qua tất cả dữ liệu, bao gồm cả dữ liệu không liên quan đến câu hỏi của bạn, trong các bảng không chuẩn hóa của bạn.
Access là một DBMS được đơn giản hóa và bao gồm một bộ xử lý SQL cơ bản cho phép bạn viết các truy vấn và do đó tận dụng lợi ích của dữ liệu được chuẩn hóa. Nếu cuối cùng bạn sẽ chuyển sang SQL Server, một DBMS đầy đủ tính năng, thì việc bình thường hóa dữ liệu của bạn bây giờ sẽ dễ dàng chuyển đổi và cho phép bạn tận dụng các khả năng đầy đủ của SQL Server và triển khai SQL rất phong phú của nó.
Như tôi đã đề cập lúc đầu, để đạt được những lợi ích này, bạn phải sẵn sàng lập trình trước để dịch dữ liệu từ các bãi excel khác nhau của bạn và ánh xạ các hàng và cột trong các bảng tính đó sang các bảng được chuẩn hóa của bạn. Đây không phải là một bài tập tầm thường nhưng có thể thực hiện được bằng cách sử dụng lập trình Access. Một cách tiếp cận sẽ là tạo các bảng sao chép dữ liệu như trong nguồn và tải dữ liệu vào chúng. Chúng được gọi là giai đoạnnhững cái bàn. Khi bạn có dữ liệu chưa được chuẩn hóa trong các bảng Access, bạn có thể dễ dàng viết mã truy cập bằng SQL để trích xuất dữ liệu từ các bảng giai đoạn đó, chuẩn hóa nó, xác định các vấn đề về chất lượng dữ liệu (nói cùng một đặc điểm trong hai kết xuất excel khác nhau cần có cùng một giá trị nhưng không) và tải nó vào các bảng được chuẩn hóa của bạn. Đây là phương pháp phổ biến để chuẩn hóa dữ liệu đến từ nguồn không chuẩn hóa rất phổ biến trong kho dữ liệu dựa trên khu vực chủ đề.
Bạn sẽ thấy mức độ nỗ lực bổ sung này rất xứng đáng mặc dù một khi bạn có dữ liệu chuẩn hóa, chất lượng cao trong cơ sở dữ liệu truy cập của mình. Bạn báo cáo người tiêu dùng sẽ thấy rằng bạn là một chuyên gia dữ liệu thực sự khi bạn đưa cho họ xem các ví dụ về chất lượng dữ liệu kém và bạn phát hiện ra thực tế đó để có thể sửa nó trong các nguồn. Tương tự, khi họ yêu cầu một báo cáo mới phân tích dữ liệu theo một cách rất khác, bạn có thể nhanh chóng tạo báo cáo mới bằng SQL để kết hợp dữ liệu trong các bảng được chuẩn hóa theo cách rất khác mà không được dự đoán trước. Họ sẽ rất ấn tượng rằng bạn có thể làm điều này một cách nhanh chóng và dễ dàng!
Tôi hy vọng điều này sẽ giúp giải thích tại sao bình thường hóa sẽ có ích cho bạn.