Tôi nhấn mạnh tất cả các câu trả lời đã được đưa ra, nhưng hãy gọi một con mèo là mèo: trong nhiều không gian làm việc, khó có thể thuyết phục quản lý rằng đầu tư vào các công cụ mềm "kỳ lạ" (đó là kỳ lạ đối với họ) là cần thiết, chứ đừng nói đến việc thuê ai đó có thể đặt ra nó lên và duy trì nó Tôi đã nói với khá nhiều khách hàng rằng họ sẽ được hưởng lợi rất nhiều từ việc thuê một nhà thống kê với nền tảng kỹ lưỡng về phần mềm và cơ sở dữ liệu, nhưng "không thể làm được" là câu trả lời chung.
Vì vậy, miễn là điều đó sẽ không xảy ra, có một số điều đơn giản bạn có thể làm với Excel sẽ giúp cuộc sống dễ dàng hơn. Và đầu tiên của điều này là không có nghi ngờ kiểm soát phiên bản. Thông tin thêm về kiểm soát phiên bản với Excel có thể được tìm thấy ở đây .
Một số điều về việc sử dụng excel
Những người sử dụng EXCEL rất thường thích các tính năng công thức của EXCEL. Tuy nhiên, đây là nguồn lỗi quan trọng nhất trong các trang EXCEL và các vấn đề khi cố đọc trong các tệp EXCEL theo như kinh nghiệm của tôi. Tôi từ chối làm việc với các tờ có chứa công thức.
Tôi cũng buộc mọi người tôi làm việc cùng cung cấp các tờ EXCEL ở định dạng đơn giản, nghĩa là:
- Hàng đầu tiên chứa tên của các biến khác nhau
- Bảng tính bắt đầu trong ô A1
- Tất cả dữ liệu được đặt trong các cột, không bị gián đoạn và không có định dạng.
- Nếu có thể, dữ liệu cũng được lưu ở định dạng .csv. Không khó để viết một tập lệnh VBA sẽ trích xuất dữ liệu, định dạng lại và đặt nó vào tệp .csv. Điều này cũng cho phép kiểm soát phiên bản tốt hơn, vì bạn có thể tạo ra một .csv dữ liệu mỗi ngày.
Nếu có một cấu trúc chung mà dữ liệu luôn có, thì có thể tốt để phát triển một mẫu với các macro VB cơ bản để thêm dữ liệu và tạo tập dữ liệu để phân tích. Điều này nói chung sẽ tránh việc mọi nhân viên đưa ra hệ thống lưu trữ dữ liệu "thiên tài" của riêng mình và nó cho phép bạn viết mã theo chức năng này.
Điều này nói rằng, nếu bạn có thể thuyết phục mọi người sử dụng SQL (và một giao diện người dùng để nhập dữ liệu), bạn có thể liên kết R trực tiếp với cái đó. Điều này sẽ tăng hiệu suất rất nhiều.
Cấu trúc và quản lý dữ liệu
Theo nguyên tắc chung, dữ liệu được lưu trữ trong cơ sở dữ liệu (hoặc bảng EXCEL nếu họ khăng khăng) phải là mức tối thiểu tuyệt đối, có nghĩa là không nên chứa bất kỳ biến nào có thể được tính từ một số biến khác trong cơ sở dữ liệu. Hãy nhớ rằng, đôi khi cũng có thể có ích khi lưu trữ các biến xuất phát hoặc biến đổi đó, nếu các phép tính tẻ nhạt và mất nhiều thời gian. Nhưng những thứ này nên được lưu trữ trong một cơ sở dữ liệu riêng biệt, nếu cần được liên kết với cơ sở dữ liệu gốc.
Suy nghĩ cũng nên được đưa ra cho những gì được coi là một trường hợp (và do đó một hàng). Như một ví dụ, mọi người có xu hướng tạo ra chuỗi thời gian bằng cách tạo một biến mới cho mỗi điểm thời gian. Mặc dù điều này có ý nghĩa trong một EXCEL, nhưng việc đọc trong các dữ liệu này đòi hỏi khá nhiều lần lật xung quanh ma trận dữ liệu. Tương tự cho việc so sánh các nhóm: Nên có một chỉ số nhóm và một biến trả lời, không phải là biến trả lời cho mỗi nhóm. Cách này cấu trúc dữ liệu có thể được tiêu chuẩn hóa là tốt.
Một điều cuối cùng tôi gặp phải thường xuyên, là việc sử dụng các số liệu khác nhau. Độ dài được tính bằng mét hoặc centimet, nhiệt độ tính bằng Celcius, Kelvin hoặc Farenheit, ... Người ta phải chỉ ra ở bất kỳ mặt trước hoặc bất kỳ mẫu nào đơn vị đo biến số.
Và thậm chí sau tất cả những điều này, bạn vẫn muốn có một bước kiểm soát dữ liệu trước khi bạn thực sự bắt đầu với việc phân tích. Một lần nữa, đây có thể là bất kỳ tập lệnh nào chạy hàng ngày (ví dụ qua đêm) trên các mục mới và đánh dấu các vấn đề ngay lập tức (ngoài phạm vi, loại sai, trường bị thiếu, ...) để chúng có thể được sửa nhanh nhất có thể. Nếu bạn phải quay lại mục đã được thực hiện 2 tháng trước để tìm hiểu điều gì sai và tại sao, tốt hơn bạn nên lấy một số "kỹ năng Sherlock" tốt để sửa nó.
2 xu của tôi