Câu trả lời tốt đã xuất hiện. Do đó tôi sẽ chỉ chia sẻ một số suy nghĩ dựa trên kinh nghiệm cá nhân: điều chỉnh những điều có liên quan với tình huống của bạn khi cần thiết.
Đối với nền và bối cảnh- vì bạn có thể giải thích cho bất kỳ sự thiên vị cá nhân nào có thể xuất hiện trong thông điệp này - phần lớn công việc của tôi là giúp mọi người đưa ra quyết định quan trọng dựa trên các bộ dữ liệu tương đối nhỏ. Chúng nhỏ vì dữ liệu có thể tốn kém để thu thập (ví dụ 10 nghìn đô la cho mẫu đầu tiên của giếng quan trắc nước ngầm, hoặc vài nghìn đô la để phân tích các hóa chất bất thường). Tôi đã quen với việc lấy càng nhiều càng tốt từ bất kỳ dữ liệu nào có sẵn, để khám phá chúng cho đến chết và phát minh ra các phương pháp mới để phân tích chúng nếu cần thiết. Tuy nhiên, trong vài năm qua, tôi đã tham gia vào một số cơ sở dữ liệu khá lớn, chẳng hạn như một trong những dữ liệu kinh tế xã hội và kỹ thuật bao trùm toàn bộ Hoa Kỳ ở cấp khối Điều tra dân số (8,5 triệu hồ sơ,
Với bộ dữ liệu rất lớn, toàn bộ cách tiếp cận và tư duy thay đổi . Hiện tại có quá nhiều dữ liệu để phân tích. Một số ý nghĩa rõ ràng ngay lập tức (và, khi nhìn lại) (nhấn mạnh vào mô hình hồi quy) bao gồm
Bất kỳ phân tích nào bạn nghĩ về việc làm có thể mất rất nhiều thời gian và tính toán. Bạn sẽ cần phát triển các phương pháp lấy mẫu con và làm việc trên các bộ dữ liệu một phần để bạn có thể lập kế hoạch cho quy trình làm việc của mình khi tính toán với toàn bộ tập dữ liệu. (Lấy mẫu con có thể phức tạp, vì bạn cần một tập hợp con đại diện của dữ liệu phong phú như toàn bộ tập dữ liệu. Và đừng quên xác thực chéo các mô hình của bạn với dữ liệu được giữ lại.)
Bởi vì điều này, bạn sẽ dành nhiều thời gian hơn để ghi lại những gì bạn làm và viết kịch bản mọi thứ (để nó có thể được lặp lại).
Như @dsimcha vừa lưu ý, kỹ năng lập trình tốt rất hữu ích. Trên thực tế, bạn không cần nhiều kinh nghiệm trong môi trường lập trình, nhưng bạn cần sẵn sàng lập trình, khả năng nhận biết khi lập trình sẽ giúp (thực sự là về mọi bước) và hiểu rõ về các yếu tố cơ bản của khoa học máy tính, chẳng hạn như thiết kế cấu trúc dữ liệu phù hợp và cách phân tích độ phức tạp tính toán của các thuật toán. Điều đó hữu ích để biết trước liệu mã bạn dự định viết sẽ mở rộng đến toàn bộ dữ liệu.
Một số bộ dữ liệu lớn vì chúng có nhiều biến số (hàng nghìn hoặc hàng chục nghìn, tất cả chúng đều khác nhau). Hy vọng sẽ dành rất nhiều thời gian chỉ để tóm tắt và hiểu dữ liệu . Một cuốn sách mã hoặc từ điển dữ liệu và các dạng siêu dữ liệu khác trở nên cần thiết.
Phần lớn thời gian của bạn chỉ dành cho việc di chuyển dữ liệu xung quanh và định dạng lại chúng. Bạn cần có kỹ năng xử lý cơ sở dữ liệu lớn và kỹ năng với việc tóm tắt và vẽ đồ thị lượng lớn dữ liệu. ( Nhiều bội số của Tufte trở nên nổi bật ở đây.)
Một số công cụ phần mềm yêu thích của bạn sẽ thất bại. Quên bảng tính, ví dụ. Rất nhiều phần mềm mã nguồn mở và học thuật sẽ không thể xử lý các bộ dữ liệu lớn: quá trình xử lý sẽ mất vĩnh viễn hoặc phần mềm sẽ bị sập. Mong đợi điều này và đảm bảo bạn có nhiều cách để hoàn thành các nhiệm vụ chính của mình.
Hầu như bất kỳ kiểm tra thống kê nào bạn chạy sẽ mạnh đến mức gần như chắc chắn sẽ xác định được hiệu ứng "đáng kể". Bạn phải tập trung nhiều hơn vào tầm quan trọng thống kê , chẳng hạn như kích thước hiệu ứng, thay vì tầm quan trọng.
Tương tự, lựa chọn mô hình là rắc rối bởi vì hầu hết mọi biến số và bất kỳ tương tác nào bạn có thể dự tính sẽ trông có vẻ quan trọng. Bạn phải tập trung nhiều hơn vào ý nghĩa của các biến bạn chọn để phân tích.
Sẽ có quá nhiều thông tin để xác định các phép biến đổi phi tuyến thích hợp của các biến. Biết làm thế nào để làm điều này.
Bạn sẽ có đủ dữ liệu để phát hiện các mối quan hệ phi tuyến tính, thay đổi xu hướng, không cố định, không đồng nhất , v.v.
Bạn sẽ không bao giờ được hoàn thành . Có rất nhiều dữ liệu bạn có thể nghiên cứu chúng mãi mãi. Do đó, điều quan trọng là phải thiết lập các mục tiêu phân tích của bạn ngay từ đầu và liên tục ghi nhớ chúng.
Tôi sẽ kết thúc bằng một giai thoại ngắn minh họa một sự khác biệt bất ngờ giữa mô hình hồi quy với một tập dữ liệu lớn so với dữ liệu nhỏ hơn. Vào cuối dự án với dữ liệu Điều tra dân số, một mô hình hồi quy mà tôi đã phát triển cần được triển khai trong hệ thống máy tính của khách hàng, có nghĩa là viết mã SQL trong cơ sở dữ liệu quan hệ. Đây là một bước thường quy nhưng mã được tạo bởi các lập trình viên cơ sở dữ liệu liên quan đến hàng ngàn dòng SQL. Điều này khiến cho gần như không thể đảm bảo nó không có lỗi - mặc dù chúng tôi có thể phát hiện ra các lỗi (nó cho kết quả khác nhau trên dữ liệu thử nghiệm), việc tìm ra chúng là một vấn đề khác. (Tất cả những gì bạn cần là một lỗi đánh máy trong một hệ số ...) Một phần của giải pháp là viết chương trình tạo các lệnh SQL trực tiếp từ các ước tính mô hình. Điều này đảm bảo rằng những gì được đưa ra từ gói thống kê chính xác là những gì đã đi vào RDBMS. Như một phần thưởng, một vài giờ dành cho việc viết kịch bản này đã thay thế có thể vài tuần mã hóa và thử nghiệm SQL. Đây là một phần nhỏ trong ý nghĩa của nhà thống kê để có thể truyền đạt kết quả của họ.