Theo ngữ cảnh: Khi làm việc với một tập dữ liệu rất lớn, đôi khi tôi được hỏi liệu chúng ta có thể tạo một tập dữ liệu tổng hợp trong đó chúng ta "biết" mối quan hệ giữa các yếu tố dự đoán và biến phản ứng hoặc mối quan hệ giữa các yếu tố dự đoán hay không.
Trong những năm qua, tôi dường như bắt gặp một trong hai bộ dữ liệu tổng hợp, trông giống như chúng được nấu chín theo cách thức không thường xuyên hoặc các bộ dữ liệu có cấu trúc hơn có vẻ đặc biệt thuận lợi cho phương pháp mô hình đề xuất của nhà nghiên cứu.
Tôi tin rằng tôi đang tìm kiếm các phương pháp tiêu chuẩn để tạo các bộ dữ liệu tổng hợp. Mặc dù việc lấy lại bootstrap là một phương pháp phổ biến để tạo tập dữ liệu tổng hợp, nhưng nó không thỏa mãn điều kiện là chúng ta biết cấu trúc tiên nghiệm . Hơn nữa, việc trao đổi các mẫu bootstrap với người khác về cơ bản đòi hỏi phải trao đổi dữ liệu, thay vì phương thức tạo dữ liệu.
Nếu chúng ta có thể điều chỉnh phân phối tham số cho dữ liệu hoặc tìm một mô hình tham số đủ gần, thì đây là một ví dụ để chúng ta có thể tạo các tập dữ liệu tổng hợp.
Những phương pháp khác tồn tại? Tôi đặc biệt quan tâm đến dữ liệu chiều cao, dữ liệu thưa thớt và dữ liệu chuỗi thời gian. Đối với dữ liệu chiều cao, tôi sẽ tìm các phương thức có thể tạo các cấu trúc (ví dụ: cấu trúc hiệp phương sai, mô hình tuyến tính, cây, v.v.) đáng quan tâm. Đối với dữ liệu chuỗi thời gian, từ các bản phân phối trên FFT, mô hình AR hoặc các mô hình lọc hoặc dự báo khác nhau có vẻ như là một sự khởi đầu. Đối với dữ liệu thưa thớt, việc tái tạo một mô hình thưa thớt có vẻ hữu ích.
Tôi tin rằng những điều này chỉ làm trầy xước bề mặt - đây là những hành vi heuristic, không phải là thực hành chính thức. Có tài liệu tham khảo hoặc tài nguyên để tạo dữ liệu tổng hợp mà các học viên nên biết không?
Lưu ý 1: Tôi nhận ra rằng câu hỏi này giải quyết các tài liệu về cách người ta có thể tạo dữ liệu như một mô hình chuỗi thời gian cụ thể. Sự khác biệt ở đây là về thực tiễn, đặc biệt là để chỉ ra một cấu trúc đã biết (câu hỏi của tôi), so với sự tương đồng / trung thực với một tập dữ liệu hiện có. Trong trường hợp của tôi, không cần thiết phải có sự tương đồng, nhiều như cấu trúc đã biết, mặc dù sự tương đồng được ưu tiên rất nhiều cho sự không giống nhau. Một bộ dữ liệu tổng hợp kỳ lạ mà một mô hình cho thấy lời hứa ít được ưu tiên hơn so với mô phỏng thực tế.
Lưu ý 2: Mục nhập Wikipedia cho dữ liệu tổng hợp chỉ ra rằng các ngôi sao sáng như Rubin và Fienberg đã giải quyết vấn đề này, mặc dù tôi không tìm thấy tài liệu tham khảo nào về các thực tiễn tốt nhất. Thật thú vị khi biết những gì sẽ vượt qua được, với Biên niên sử Thống kê Ứng dụng (hoặc AOS), hoặc trong các công trình đánh giá trong các tạp chí này hoặc các tạp chí khác. Nói một cách đơn giản và hay thay đổi, người ta có thể hỏi ngưỡng giữa "(chấp nhận được) nấu chín" và "quá chín" tồn tại ở đâu?
Lưu ý 3: Mặc dù nó không ảnh hưởng đến câu hỏi, kịch bản sử dụng là mô hình hóa các tập dữ liệu lớn, chiều cao khác nhau, trong đó chương trình nghiên cứu là tìm hiểu (cả người và máy ;-)) cấu trúc của dữ liệu. Không giống như các tình huống đơn biến, bivariate và các chiều thấp khác, cấu trúc không dễ dàng được suy luận. Khi chúng ta hiểu rõ hơn về cấu trúc, việc có thể tạo các tập dữ liệu có các thuộc tính tương tự là điều đáng quan tâm để xem phương thức mô hình hóa tương tác với dữ liệu như thế nào (ví dụ để kiểm tra tính ổn định của tham số). Tuy nhiên, các hướng dẫn cũ hơn về dữ liệu tổng hợp chiều thấp có thể là điểm khởi đầu có thể được mở rộng hoặc điều chỉnh cho các tập dữ liệu chiều cao hơn.