Làm thế nào để tạo tập dữ liệu tổng hợp bằng mô hình học máy đã học với tập dữ liệu gốc?


19

Nói chung, mô hình học máy được xây dựng trên bộ dữ liệu. Tôi muốn biết liệu có cách nào để tạo tập dữ liệu tổng hợp bằng cách sử dụng mô hình học máy được đào tạo như vậy để duy trì các đặc điểm của tập dữ liệu gốc không?

[dữ liệu gốc -> xây dựng mô hình học máy -> sử dụng mô hình ml để tạo dữ liệu tổng hợp .... !!!]

Có thể không? Vui lòng chỉ cho tôi tài nguyên liên quan nếu có thể.

Câu trả lời:


27

Cách tiếp cận chung là phân tích thống kê truyền thống trên tập dữ liệu của bạn để xác định quy trình ngẫu nhiên đa chiều sẽ tạo ra dữ liệu có cùng đặc điểm thống kê. Ưu điểm của phương pháp này là dữ liệu tổng hợp của bạn độc lập với mô hình ML của bạn, nhưng thống kê "gần" với dữ liệu của bạn. (xem bên dưới để thảo luận về sự thay thế của bạn)

Về bản chất, bạn đang ước tính phân phối xác suất đa biến liên quan đến quá trình. Khi bạn đã ước tính phân phối, bạn có thể tạo dữ liệu tổng hợp thông qua phương pháp Monte Carlo hoặc các phương pháp lấy mẫu lặp lại tương tự. Nếu dữ liệu của bạn giống với một số phân phối tham số (ví dụ lognatural) thì cách tiếp cận này đơn giản và đáng tin cậy. Phần khó khăn là ước tính sự phụ thuộc giữa các biến. Xem: https://www.encyclopediaofmath.org/index.php/Multi-dimensional_statistic_analysis .

Nếu dữ liệu của bạn không thường xuyên, thì các phương pháp không tham số sẽ dễ dàng hơn và có thể mạnh mẽ hơn. Ước tính mật độ hạt nhân đa biến là một phương pháp có thể truy cập và hấp dẫn với những người có nền ML. Để biết giới thiệu chung và liên kết đến các phương pháp cụ thể, hãy xem: https://en.wikipedia.org/wiki/Nonparametric_statistic .

Để xác thực rằng quy trình này có hiệu quả với bạn, bạn lại tiếp tục quá trình học máy với dữ liệu tổng hợp và bạn sẽ kết thúc với một mô hình khá gần với bản gốc của bạn. Tương tự, nếu bạn đặt dữ liệu tổng hợp vào mô hình ML của mình, bạn sẽ nhận được các đầu ra có phân phối tương tự như đầu ra ban đầu của bạn.

Ngược lại, bạn đang đề xuất điều này:

[dữ liệu gốc -> xây dựng mô hình học máy -> sử dụng mô hình ml để tạo dữ liệu tổng hợp .... !!!]

Điều này thực hiện một cái gì đó khác nhau mà phương pháp tôi vừa mô tả. Điều này sẽ giải quyết vấn đề nghịch đảo : "những gì đầu vào có thể tạo ra bất kỳ tập hợp đầu ra mô hình nhất định nào". Trừ khi mô hình ML của bạn được trang bị quá mức cho dữ liệu gốc của bạn, dữ liệu tổng hợp này sẽ không giống với dữ liệu gốc của bạn về mọi mặt, hoặc thậm chí là hầu hết.

Hãy xem xét một mô hình hồi quy tuyến tính. Mô hình hồi quy tuyến tính tương tự có thể có sự phù hợp giống hệt với dữ liệu có các đặc điểm rất khác nhau. Một minh chứng nổi tiếng về điều này là thông qua bộ tứ của Anscombe .

Tất cả bốn bộ giống hệt nhau khi được kiểm tra bằng cách sử dụng thống kê tóm tắt đơn giản, nhưng khác nhau đáng kể khi được vẽ biểu đồ

Nghĩ rằng tôi không có tài liệu tham khảo, tôi tin rằng vấn đề này cũng có thể phát sinh trong hồi quy logistic, mô hình tuyến tính tổng quát, SVM và phân cụm K-nghĩa.

Có một số loại mô hình ML (ví dụ: cây quyết định) trong đó có thể đảo ngược chúng để tạo dữ liệu tổng hợp, mặc dù phải mất một số công việc. Xem: Tạo dữ liệu tổng hợp để khớp với các mẫu khai thác dữ liệu .


đã đến lúc đọc thêm về Monte-Carlo và phân tích thống kê đa chiều ... cảm ơn vì lời giải thích hay .. !!!
hadooper

2

Có một cách tiếp cận rất phổ biến để đối phó với các bộ dữ liệu mất cân bằng, được gọi là SMOTE, tạo ra các mẫu tổng hợp từ lớp thiểu số. Nó hoạt động bằng cách gây nhiễu các mẫu thiểu số bằng cách sử dụng các khác biệt với các lân cận của nó (nhân với một số ngẫu nhiên trong khoảng từ 0 đến 1)

Đây là một trích dẫn từ bài báo gốc:

Các mẫu tổng hợp được tạo theo cách sau: Lấy sự khác biệt giữa vectơ đặc trưng (mẫu) đang được xem xét và hàng xóm gần nhất của nó. Nhân số chênh lệch này với một số ngẫu nhiên trong khoảng từ 0 đến 1 và thêm nó vào vectơ đặc trưng đang xem xét.

Bạn có thể tìm thêm thông tin ở đây .


1

Tăng dữ liệu là quá trình tạo mẫu tổng hợp dựa trên dữ liệu hiện có. Dữ liệu hiện tại hơi bị nhiễu loạn để tạo dữ liệu mới giữ lại nhiều thuộc tính dữ liệu gốc. Ví dụ, nếu dữ liệu là hình ảnh. Pixel hình ảnh có thể được hoán đổi. Nhiều ví dụ về kỹ thuật tăng dữ liệu có thể được tìm thấy ở đây .

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.