Kỹ thuật tăng dữ liệu cho bộ dữ liệu chung?

Trong nhiều ứng dụng học máy, cái gọi là phương pháp tăng dữ liệu đã cho phép xây dựng các mô hình tốt hơn. Ví dụ, giả sử một bộ huấn luyện gồm hình ảnh của mèo và chó. Bằng cách xoay, phản chiếu, điều chỉnh độ tương phản, v.v ... có thể tạo ra hình ảnh bổ sung từ ảnh gốc. $100$

Trong trường hợp hình ảnh, việc tăng dữ liệu tương đối đơn giản. Tuy nhiên, giả sử (ví dụ) rằng người ta có một bộ huấn luyện gồm mẫu và vài trăm biến liên tục đại diện cho những thứ khác nhau. Việc tăng dữ liệu không còn có vẻ trực quan nữa. Những gì có thể được thực hiện trong trường hợp như vậy? $100$

— mmh
nguồn

Tôi nghĩ rằng một số phương pháp như PCA hoặc AE vẫn trực quan để tăng dữ liệu. Các phương thức đầu tiên được áp dụng PCA và giữ k evalvalues đầu tiên và đặt kn eigenvalues ngẫu nhiên từ một sự phân tâm, gaussian, vv Nếu các phương thức khác sử dụng bộ mã hóa tự động để tự xây dựng dữ liệu. Nếu số lượng các đơn vị ẩn gần với các đơn vị có thể nhìn thấy, nó có thể tự xây dựng khá tốt. Dữ liệu được xây dựng lại có thể được sử dụng như là một phần của dữ liệu.

— yasin.yazici

@mmh, điều này đã trả lời câu hỏi của bạn?

— shf8888

@ yasin.yazici Xin chào. bạn có thể giải thích một chút về việc tăng dữ liệu bằng pca không? Giả sử tôi có dữ liệu

với

là kích thước tính năng. Bây giờ tôi làm PCA và thấy rằng

eigenvector đầu tiên là đủ. Tôi nên làm gì trong

eigenvector tiếp theo và tôi nên giới thiệu tính ngẫu nhiên như thế nào?

100 x 50

$100x50$

50

$50$

30

$30$

20

$20$

— roni

Xem luận án thạc sĩ của tôi, trang 80 để biết tổng quan về công nghệ tăng dữ liệu cho hình ảnh.

— Martin Thoma

Tăng dữ liệu có rất nhiều ý nghĩa cho hình ảnh, ví dụ. Hình ảnh xoay của đối tượng vẫn là hình ảnh của đối tượng và bạn cần mô hình được phơi bày với điều đó, nhưng có lẽ bạn không nhất thiết phải có hình ảnh như vậy trong tập dữ liệu của mình. Sự cần thiết cho / điểm tăng dữ liệu trong trường hợp này là gì? Tôi không rõ ràng rằng bạn nên làm điều này.

— gung - Tái lập Monica

Câu trả lời:

Tôi hiểu câu hỏi này liên quan đến cả việc xây dựng tính năng và xử lý sự giàu có của các tính năng bạn đã có + sẽ xây dựng, liên quan đến các quan sát của bạn ( N << P).

Tính năng xây dựng

Mở rộng dựa trên nhận xét của @ yasin.yazici, một số cách có thể để tăng dữ liệu sẽ là:

PCA
Tự động mã hóa
Biến đổi như log, quyền hạn, v.v.
Biến các biến liên tục thành các loại riêng biệt (nghĩa là biến liên tục là 1 SD trên trung bình, 1 dưới trung bình, v.v.)
Biến tổng hợp (ví dụ, xem tại đây )

Tôi chắc chắn còn nhiều điều tôi đang thiếu.

Lựa chọn tính năng / Giảm kích thước

Bạn có thể giảm tính chiều bằng các kỹ thuật như PCA (mặc dù có lẽ không phải sau khi tăng dữ liệu của bạn bằng các biến PCA). Ngoài ra, bạn có thể sử dụng các thuật toán thực hiện lựa chọn tính năng cho bạn, chẳng hạn như lasso, rừng ngẫu nhiên, v.v.

— shf8888
nguồn

Bạn có thể vui lòng cho biết cách mã hóa tự động có thể được sử dụng để xây dựng tính năng không?

— roni

@roni Đào tạo thành công bộ mã hóa tự động mang lại một số biểu diễn dữ liệu ở mức độ trừu tượng cao hơn. Hy vọng rằng một đại diện hữu ích hơn mà bạn có thể sử dụng trong một bộ phân loại.

— Chris Anderson

Tôi đã phải đối mặt với một vấn đề tương tự khi tôi muốn tăng dữ liệu số không ghi nhãn. Tôi đã tăng dữ liệu theo cách sau: (Giả sử tôi có bộ dữ liệu có kích thước 100 * 10.)

Tạo danh sách bằng cách lấy mẫu ngẫu nhiên các giá trị từ {0,1}, sao cho số lượng số không nhỏ hơn số 1, giả sử tỷ lệ 0 là 20% trong trường hợp này. Vì vậy, người ta sẽ có một danh sách 0 và 1 dài 100.
Sử dụng danh sách này như một biến phụ thuộc và chuyển nó vào smote để tạo thêm điểm dữ liệu. (Ở đây smote sẽ tạo các điểm trên các cạnh kết nối các điểm dữ liệu tương ứng với 0 trong danh sách được tạo).
Lặp lại quy trình này cho đến khi thu được tập dữ liệu có kích thước yêu cầu.

— Harshita Vemula
nguồn

Xin vui lòng không gửi câu trả lời giống hệt nhau cho nhiều chủ đề. Nếu bạn thực sự tin rằng câu trả lời giống như bạn đã đăng ở nơi khác hoàn toàn trả lời một câu hỏi khác, hãy đánh dấu câu hỏi đó là một bản sao của câu hỏi đầu tiên.

— gung - Phục hồi Monica