Tôi sẽ cố gắng trả lời các câu hỏi của bạn, nhưng trước khi tôi muốn lưu ý rằng việc sử dụng thuật ngữ "tập dữ liệu lớn" là sai lệch, vì "lớn" là một khái niệm tương đối . Bạn phải cung cấp thêm chi tiết. Nếu bạn đang xử lý dữ liệu giá thầu , thì thực tế này rất có thể sẽ ảnh hưởng đến việc lựa chọn các công cụ , phương pháp và thuật toán ưa thích để phân tích dữ liệu của bạn . Tôi hy vọng rằng những suy nghĩ sau đây của tôi về phân tích dữ liệu giải quyết các câu hỏi phụ của bạn. Xin lưu ý rằng việc đánh số điểm của tôi không khớp với cách đánh số câu hỏi phụ của bạn. Tuy nhiên, tôi tin rằng nó phản ánh tốt hơn quy trình phân tích dữ liệu chung , ít nhất là cách tôi hiểu nó.
1) Đầu tiên, tôi nghĩ rằng bạn cần phải có ít nhất một loại mô hình khái niệm nào đó trong tâm trí (hoặc, tốt hơn, trên giấy). Mô hình này sẽ hướng dẫn bạn trong phân tích dữ liệu khám phá (EDA) . Sự hiện diện của một biến phụ thuộc (DV) trong mô hình có nghĩa là trong giai đoạn học máy (ML) của bạn sau này trong phân tích, bạn sẽ đối phó với cái gọi là ML được giám sát, trái ngược với ML không được giám sát khi không có DV được xác định.
2) Thứ hai, EDA là một phần quan trọng. IMHO, EDA nên bao gồm nhiều lần lặp để tạo số liệu thống kê mô tả và trực quan hóa dữ liệu , khi bạn tinh chỉnh hiểu biết của mình về dữ liệu. Không chỉ giai đoạn này sẽ cung cấp cho bạn những hiểu biết có giá trị về bộ dữ liệu của bạn, mà nó sẽ cung cấp cho giai đoạn quan trọng tiếp theo của bạn - làm sạch và chuyển đổi dữ liệu . Chỉ cần ném dữ liệu thô của bạn vào gói phần mềm thống kê sẽ không mang lại nhiều - đối với mọi phân tích thống kê hợp lệ , dữ liệu phải sạch, chính xác và nhất quán . Đây thường là phần tốn thời gian và công sức nhất, nhưng hoàn toàn cần thiết. Để biết thêm chi tiết về chủ đề này, hãy đọc những bài báo hay này:http://vita.had.co.nz/papers/tidy-data.pdf (bởi Hadley Wickham) và http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (bởi Edwin de Jrid và Mark van der Loo).
3) Bây giờ, như bạn hy vọng được thực hiện với EDA cũng như làm sạch và chuyển đổi dữ liệu, bạn đã sẵn sàng để bắt đầu một số giai đoạn liên quan đến thống kê hơn. Một trong những giai đoạn như vậy là phân tích nhân tố khám phá (EFA) , sẽ cho phép bạn trích xuất cấu trúc cơ bản của dữ liệu của mình. Đối với các bộ dữ liệu có số lượng biến lớn, tác dụng phụ tích cực của EFA là giảm kích thước . Và, theo nghĩa đó, EFA tương tự như phân tích thành phần chính (PCA)và các phương pháp giảm kích thước khác, tôi nghĩ rằng EFA quan trọng hơn vì nó cho phép tinh chỉnh mô hình khái niệm của bạn về các hiện tượng mà dữ liệu của bạn "mô tả", do đó có ý nghĩa về các bộ dữ liệu của bạn. Tất nhiên, ngoài EFA, bạn có thể / nên thực hiện phân tích hồi quy cũng như áp dụng các kỹ thuật học máy , dựa trên những phát hiện của bạn trong các giai đoạn trước.
Cuối cùng, một lưu ý về công cụ phần mềm . Theo tôi, tình trạng hiện tại của các gói phần mềm thống kê là ở điểm mà trên thực tế, bất kỳ gói phần mềm chính nào cũng có tính năng cung cấp tương đương. Nếu bạn học hoặc làm việc trong một tổ chức có các chính sách và sở thích nhất định về các công cụ phần mềm, thì bạn bị ràng buộc bởi chúng. Tuy nhiên, nếu đó không phải là trường hợp, tôi chân thành khuyên bạn nên sử dụng phần mềm thống kê nguồn mở , dựa trên sự thoải mái của bạn với ngôn ngữ lập trình cụ thể , đường cong học tập và quan điểm nghề nghiệp của bạn . Nền tảng lựa chọn hiện tại của tôi là R Project, cung cấp phần mềm thống kê trưởng thành, mạnh mẽ, linh hoạt, mở rộng và mở rộng, cùng với hệ sinh thái tuyệt vời của các gói, chuyên gia và người đam mê. Các lựa chọn tốt khác bao gồm Python , Julia và phần mềm nguồn mở cụ thể để xử lý dữ liệu lớn , chẳng hạn như cơ sở dữ liệu Hadoop , Spark , NoQuery , WEKA . Để biết thêm ví dụ về phần mềm nguồn mở để khai thác dữ liệu , bao gồm phần mềm ML và thống kê chung và cụ thể, hãy xem phần này của trang Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_appluggest .
CẬP NHẬT: Quên đề cập đến Rattle ( http://rattle.togkn.com ), đây cũng là một phần mềm GUI định hướng R mã nguồn mở rất phổ biến để khai thác dữ liệu.