Một số thực hành tiêu chuẩn để tạo tập dữ liệu tổng hợp là gì?


26

Theo ngữ cảnh: Khi làm việc với một tập dữ liệu rất lớn, đôi khi tôi được hỏi liệu chúng ta có thể tạo một tập dữ liệu tổng hợp trong đó chúng ta "biết" mối quan hệ giữa các yếu tố dự đoán và biến phản ứng hoặc mối quan hệ giữa các yếu tố dự đoán hay không.

Trong những năm qua, tôi dường như bắt gặp một trong hai bộ dữ liệu tổng hợp, trông giống như chúng được nấu chín theo cách thức không thường xuyên hoặc các bộ dữ liệu có cấu trúc hơn có vẻ đặc biệt thuận lợi cho phương pháp mô hình đề xuất của nhà nghiên cứu.

Tôi tin rằng tôi đang tìm kiếm các phương pháp tiêu chuẩn để tạo các bộ dữ liệu tổng hợp. Mặc dù việc lấy lại bootstrap là một phương pháp phổ biến để tạo tập dữ liệu tổng hợp, nhưng nó không thỏa mãn điều kiện là chúng ta biết cấu trúc tiên nghiệm . Hơn nữa, việc trao đổi các mẫu bootstrap với người khác về cơ bản đòi hỏi phải trao đổi dữ liệu, thay vì phương thức tạo dữ liệu.

Nếu chúng ta có thể điều chỉnh phân phối tham số cho dữ liệu hoặc tìm một mô hình tham số đủ gần, thì đây là một ví dụ để chúng ta có thể tạo các tập dữ liệu tổng hợp.

Những phương pháp khác tồn tại? Tôi đặc biệt quan tâm đến dữ liệu chiều cao, dữ liệu thưa thớt và dữ liệu chuỗi thời gian. Đối với dữ liệu chiều cao, tôi sẽ tìm các phương thức có thể tạo các cấu trúc (ví dụ: cấu trúc hiệp phương sai, mô hình tuyến tính, cây, v.v.) đáng quan tâm. Đối với dữ liệu chuỗi thời gian, từ các bản phân phối trên FFT, mô hình AR hoặc các mô hình lọc hoặc dự báo khác nhau có vẻ như là một sự khởi đầu. Đối với dữ liệu thưa thớt, việc tái tạo một mô hình thưa thớt có vẻ hữu ích.

Tôi tin rằng những điều này chỉ làm trầy xước bề mặt - đây là những hành vi heuristic, không phải là thực hành chính thức. Có tài liệu tham khảo hoặc tài nguyên để tạo dữ liệu tổng hợp mà các học viên nên biết không?


Lưu ý 1: Tôi nhận ra rằng câu hỏi này giải quyết các tài liệu về cách người ta có thể tạo dữ liệu như một mô hình chuỗi thời gian cụ thể. Sự khác biệt ở đây là về thực tiễn, đặc biệt là để chỉ ra một cấu trúc đã biết (câu hỏi của tôi), so với sự tương đồng / trung thực với một tập dữ liệu hiện có. Trong trường hợp của tôi, không cần thiết phải có sự tương đồng, nhiều như cấu trúc đã biết, mặc dù sự tương đồng được ưu tiên rất nhiều cho sự không giống nhau. Một bộ dữ liệu tổng hợp kỳ lạ mà một mô hình cho thấy lời hứa ít được ưu tiên hơn so với mô phỏng thực tế.

Lưu ý 2: Mục nhập Wikipedia cho dữ liệu tổng hợp chỉ ra rằng các ngôi sao sáng như Rubin và Fienberg đã giải quyết vấn đề này, mặc dù tôi không tìm thấy tài liệu tham khảo nào về các thực tiễn tốt nhất. Thật thú vị khi biết những gì sẽ vượt qua được, với Biên niên sử Thống kê Ứng dụng (hoặc AOS), hoặc trong các công trình đánh giá trong các tạp chí này hoặc các tạp chí khác. Nói một cách đơn giản và hay thay đổi, người ta có thể hỏi ngưỡng giữa "(chấp nhận được) nấu chín" và "quá chín" tồn tại ở đâu?

Lưu ý 3: Mặc dù nó không ảnh hưởng đến câu hỏi, kịch bản sử dụng là mô hình hóa các tập dữ liệu lớn, chiều cao khác nhau, trong đó chương trình nghiên cứu tìm hiểu (cả người và máy ;-)) cấu trúc của dữ liệu. Không giống như các tình huống đơn biến, bivariate và các chiều thấp khác, cấu trúc không dễ dàng được suy luận. Khi chúng ta hiểu rõ hơn về cấu trúc, việc có thể tạo các tập dữ liệu có các thuộc tính tương tự là điều đáng quan tâm để xem phương thức mô hình hóa tương tác với dữ liệu như thế nào (ví dụ để kiểm tra tính ổn định của tham số). Tuy nhiên, các hướng dẫn cũ hơn về dữ liệu tổng hợp chiều thấp có thể là điểm khởi đầu có thể được mở rộng hoặc điều chỉnh cho các tập dữ liệu chiều cao hơn.

Câu trả lời:


7

Tôi không chắc chắn có những thông lệ tiêu chuẩn để tạo ra dữ liệu tổng hợp - nó được sử dụng rất nhiều trong rất nhiều khía cạnh khác nhau của nghiên cứu dữ liệu mục đích xây dựng có vẻ là một cách tiếp cận phổ biến hơn và có lẽ hợp lý hơn.

Đối với tôi, thực hành tiêu chuẩn tốt nhất của tôi là không tạo ra tập dữ liệu để nó hoạt động tốt với mô hình. Đó là một phần của giai đoạn nghiên cứu, không phải là một phần của giai đoạn tạo dữ liệu. Thay vào đó, dữ liệu nên được thiết kế để phản ánh quá trình tạo dữ liệu . Ví dụ, đối với các nghiên cứu mô phỏng trong Dịch tễ học, tôi luôn bắt đầu từ một quần thể giả thuyết lớn với phân bố đã biết, và sau đó mô phỏng lấy mẫu nghiên cứu từ dân số đó, thay vì trực tiếp tạo ra "dân số nghiên cứu".

Ví dụ: dựa trên cuộc thảo luận của chúng tôi dưới đây, hai ví dụ về dữ liệu mô phỏng tôi đã thực hiện:

  • Tương tự như ví dụ về mô hình SIR của bạn dưới đây, tôi đã từng sử dụng một mô hình toán học về sự lây lan của bệnh qua mạng để thể hiện bản thân mình thông qua mô phỏng rằng một tham số không đổi cụ thể không nhất thiết gây ra nguy cơ không đổi nếu bạn coi kết quả là kết quả của một nghiên cứu đoàn hệ. Đó là một bằng chứng hữu ích về khái niệm trong khi tôi đi đào tìm giải pháp phân tích.
  • Tôi muốn khám phá tác động của một sơ đồ lấy mẫu nhất định cho một nghiên cứu kiểm soát trường hợp. Thay vì cố gắng tạo ra nghiên cứu hoàn toàn, tôi đi qua từng bước của quy trình. Dân số 1.000.000 người, với tỷ lệ mắc bệnh đã biết và mô hình đồng biến đã biết. Sau đó, từ đó mô phỏng quá trình lấy mẫu - trong trường hợp này, cách các trường hợp và kiểm soát được rút ra từ dân số. Chỉ sau đó tôi mới ném một mô hình thống kê thực tế vào các "nghiên cứu mô phỏng" được thu thập.

Các mô phỏng như sau này rất phổ biến khi kiểm tra tác động của các phương pháp tuyển dụng nghiên cứu, phương pháp thống kê để kiểm soát các đồng biến, v.v.


Cảm ơn đã trả lời. Tuy nhiên, dựa trên những gì tôi biết về dịch tễ học, rất nhiều việc đã được thực hiện trong việc phát triển các mô hình ngẫu nhiên khá hữu ích, đặc biệt là các mô hình SIR. Điều này không đúng trong nhiều lĩnh vực khác, mặc dù việc có thể phát triển các mô hình dữ liệu ngẫu nhiên có thể chấp nhận một cách nhanh chóng là một phần trong ý định của tôi.
Lặp lại

@Iterator Điều đó phụ thuộc rất nhiều vào vị trí của bạn và khía cạnh của dịch tễ học mà bạn đang nói đến. Một nhà dịch tễ học ung thư, chẳng hạn, sẽ bị sốc khi biết rằng "nhiều hơn nữa" đã được thực hiện với các mô hình SIR - họ có thể chưa bao giờ gặp phải một trong công việc của họ. Trong khi các mô hình kiểu SIR là một khía cạnh của một phần đặc biệt của dịch tễ học (Bệnh truyền nhiễm epi, và thậm chí sau đó, thậm chí không phải là một tập hợp lớn của ID Epi), Dịch tễ học như một lĩnh vực sử dụng rất nhiều mô hình thống kê, đặc biệt là mô hình tuyến tính nói chung phân tích và chuỗi thời gian.
Fomite

Whoa Không có ý định xúc phạm, tôi chỉ nói rằng các mô hình SIR là một ví dụ rất hay về mô hình tạo dữ liệu tiêu chuẩn. Tất nhiên tôi biết rằng có những lĩnh vực khác của epi sử dụng toàn bộ các phương pháp mô hình hóa. Nếu bạn có một số gợi ý hoặc tham chiếu về các phương pháp tạo dữ liệu khác được sử dụng trong dịch tễ học, tôi khá cởi mở với chúng.
Lặp lại

1
@Iterator Xin lỗi nếu tôi cho ấn tượng tôi đã bị xúc phạm. Rất nhiều không;). Đó chỉ là thứ tôi có được vì tôi ngồi vuông ở giao điểm giữa epi toán học và dịch tễ học quan sát, và mọi người ở một khu vực đang nao núng ở khu vực khác tồn tại. Tôi sẽ chỉnh sửa câu trả lời của mình bằng một ví dụ loại không SIR.
Fomite

2

Gói thống kê R có chức năng mô phỏng sẽ mô phỏng dữ liệu dựa trên mô hình phù hợp với dữ liệu hiện có. Điều này sử dụng mô hình được trang bị làm mối quan hệ dân số "đã biết", sau đó mô phỏng dữ liệu mới dựa trên mô hình đó. Có một phương thức cho chức năng này trong gói lme4. Những đối tượng được trang bị này có thể tính đến các hiệu ứng và tương quan ngẫu nhiên và cố định (bao gồm tự động tương quan cho chuỗi thời gian).

Điều này có thể làm việc làm những gì bạn muốn.


Cám ơn vì sự gợi ý. Chức năng này chắc chắn hữu ích, mặc dù mối quan tâm của tôi là nhiều hơn về mặt thực tiễn và phương pháp thống kê hơn là mã cho một giải pháp cụ thể. Điều này giống như hỏi về các phương pháp lấy mẫu hoặc phân tích tái sản xuất, thay vì các gói cụ thể thực hiện các phương pháp và phân tích nói trên. Tuy nhiên, phương pháp tốt nên trở thành gói. :)
Lặp lại
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.