Cách tiếp cận chung là phân tích thống kê truyền thống trên tập dữ liệu của bạn để xác định quy trình ngẫu nhiên đa chiều sẽ tạo ra dữ liệu có cùng đặc điểm thống kê. Ưu điểm của phương pháp này là dữ liệu tổng hợp của bạn độc lập với mô hình ML của bạn, nhưng thống kê "gần" với dữ liệu của bạn. (xem bên dưới để thảo luận về sự thay thế của bạn)
Về bản chất, bạn đang ước tính phân phối xác suất đa biến liên quan đến quá trình. Khi bạn đã ước tính phân phối, bạn có thể tạo dữ liệu tổng hợp thông qua phương pháp Monte Carlo hoặc các phương pháp lấy mẫu lặp lại tương tự. Nếu dữ liệu của bạn giống với một số phân phối tham số (ví dụ lognatural) thì cách tiếp cận này đơn giản và đáng tin cậy. Phần khó khăn là ước tính sự phụ thuộc giữa các biến. Xem: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statistic_analysis .
Nếu dữ liệu của bạn không thường xuyên, thì các phương pháp không tham số sẽ dễ dàng hơn và có thể mạnh mẽ hơn. Ước tính mật độ hạt nhân đa biến là một phương pháp có thể truy cập và hấp dẫn với những người có nền ML. Để biết giới thiệu chung và liên kết đến các phương pháp cụ thể, hãy xem: https://en.wikipedia.org/wiki/Nonparametric_statistic .
Để xác thực rằng quy trình này có hiệu quả với bạn, bạn lại tiếp tục quá trình học máy với dữ liệu tổng hợp và bạn sẽ kết thúc với một mô hình khá gần với bản gốc của bạn. Tương tự, nếu bạn đặt dữ liệu tổng hợp vào mô hình ML của mình, bạn sẽ nhận được các đầu ra có phân phối tương tự như đầu ra ban đầu của bạn.
Ngược lại, bạn đang đề xuất điều này:
[dữ liệu gốc -> xây dựng mô hình học máy -> sử dụng mô hình ml để tạo dữ liệu tổng hợp .... !!!]
Điều này thực hiện một cái gì đó khác nhau mà phương pháp tôi vừa mô tả. Điều này sẽ giải quyết vấn đề nghịch đảo : "những gì đầu vào có thể tạo ra bất kỳ tập hợp đầu ra mô hình nhất định nào". Trừ khi mô hình ML của bạn được trang bị quá mức cho dữ liệu gốc của bạn, dữ liệu tổng hợp này sẽ không giống với dữ liệu gốc của bạn về mọi mặt, hoặc thậm chí là hầu hết.
Hãy xem xét một mô hình hồi quy tuyến tính. Mô hình hồi quy tuyến tính tương tự có thể có sự phù hợp giống hệt với dữ liệu có các đặc điểm rất khác nhau. Một minh chứng nổi tiếng về điều này là thông qua bộ tứ của Anscombe .
Nghĩ rằng tôi không có tài liệu tham khảo, tôi tin rằng vấn đề này cũng có thể phát sinh trong hồi quy logistic, mô hình tuyến tính tổng quát, SVM và phân cụm K-nghĩa.
Có một số loại mô hình ML (ví dụ: cây quyết định) trong đó có thể đảo ngược chúng để tạo dữ liệu tổng hợp, mặc dù phải mất một số công việc. Xem: Tạo dữ liệu tổng hợp để khớp với các mẫu khai thác dữ liệu .