Làm thế nào để tăng dữ liệu và phân tách xác thực tàu?


14

Tôi đang làm phân loại hình ảnh bằng cách sử dụng máy học.

Giả sử tôi có một số dữ liệu đào tạo (hình ảnh) và sẽ chia dữ liệu thành các bộ đào tạo và xác nhận. Và tôi cũng muốn tăng dữ liệu (tạo ra hình ảnh mới từ ảnh gốc) bằng cách xoay ngẫu nhiên và khử nhiễu. Các augmentaion được thực hiện ngoại tuyến.

Đó là cách chính xác để làm tăng dữ liệu?

  1. Đầu tiên, chia dữ liệu thành các tập huấn luyện và xác nhận, sau đó thực hiện tăng dữ liệu trên cả tập huấn luyện và xác thực.

  2. Đầu tiên, chia dữ liệu thành các tập huấn luyện và xác nhận, sau đó chỉ tăng dữ liệu trên tập huấn luyện.

  3. Đầu tiên thực hiện tăng dữ liệu trên dữ liệu, sau đó chia dữ liệu thành tập huấn luyện và xác thực.


1
"Tăng dữ liệu" có nhiều hơn một nghĩa; Sẽ giúp chỉnh sửa câu hỏi của bạn để làm rõ câu hỏi nào là của bạn hoặc chỉ đưa ra một ví dụ.
Scortchi - Phục hồi Monica

Nếu bạn có kế hoạch thực hiện TTA, thì việc tăng cường sẽ được áp dụng cho tập xác thực như đối với tập kiểm tra.
abby yorker

Câu trả lời:


18

Đầu tiên, chia dữ liệu thành các tập huấn luyện và xác nhận, sau đó thực hiện tăng dữ liệu trên tập huấn luyện.

Bạn sử dụng bộ xác thực của mình để cố gắng ước tính phương thức của bạn hoạt động trên dữ liệu trong thế giới thực, do đó, nó chỉ nên chứa dữ liệu trong thế giới thực. Thêm dữ liệu tăng cường sẽ không cải thiện tính chính xác của xác nhận. Tốt nhất là sẽ nói điều gì đó về việc phương pháp của bạn đáp ứng tốt như thế nào đối với việc tăng dữ liệu và tệ nhất là làm hỏng kết quả xác thực và tính dễ hiểu.


Tôi khá tò mò về một cái gì đó trong câu trả lời của bạn. Nếu tiêu chí của tôi để ngừng đào tạo một CNN là giảm mất xác thực, bạn có tin rằng việc tăng dữ liệu trên dữ liệu xác nhận là một lựa chọn tốt?
điên

1
Không, tôi vẫn nghĩ rằng điều đó sẽ "phá hỏng kết quả xác thực và tính dễ hiểu", vì độ chính xác xác thực không còn là một proxy tốt cho độ chính xác trên dữ liệu chưa xem mới nếu bạn tăng dữ liệu xác thực.

Vì vậy, chúng ta không cần phải áp dụng tăng dữ liệu trên xác thực và kiểm tra dữ liệu?
Aadnan Farooq A

@AadnanFarooqA Không. Thông thường bạn nên thực hiện các thao tác tương tự trên dữ liệu kiểm tra và xác thực của mình như bạn dự định thực hiện đối với dữ liệu chưa xem khi bạn sử dụng mô hình của mình để dự đoán.

1
@AadnanFarooqA Thông thường bạn chỉ nên áp dụng tăng cường trên dữ liệu đào tạo, sau khi chia tách.

4

không bao giờ làm 3, vì bạn sẽ bị rò rỉ. ví dụ giả sử sự gia tăng là dịch chuyển 1 pixel trái. nếu sự phân chia không nhận biết tăng cường, bạn có thể nhận được các mẫu dữ liệu rất giống nhau trong cả đào tạo và xác nhận.


0

Tăng cường dữ liệu có nghĩa là thêm dữ liệu / thông tin bên ngoài vào dữ liệu hiện có đang được phân tích.

Vì vậy, vì toàn bộ dữ liệu tăng cường sẽ được sử dụng cho học máy, nên quy trình sau đây sẽ phù hợp hơn:

Thực hiện tăng dữ liệu -> Chia dữ liệu


Cảm ơn vi đa trả lơi. Có phải tất cả đều đúng khi một mẫu và mẫu tăng cường, khá giống với mẫu ban đầu, được trải đều trong các bộ khác nhau?
yangjie

Bạn có nghĩa là dữ liệu hiện có dưới dạng tập huấn luyện và dữ liệu tăng thêm dưới dạng tập xác thực? Sau đó, KHÔNG
Dawny33

Việc chia tách là ngẫu nhiên, vì vậy tôi có nghĩa là nếu tôi thực hiện tăng dữ liệu và sau đó phân tách dữ liệu, có khả năng một số dữ liệu hiện có (không phải tất cả) được chia thành tập huấn luyện, trong khi dữ liệu tăng cường chuyển sang tập xác thực.
yangjie

Bằng cách tăng cường, bạn có nghĩa là nối thêm? Dữ liệu mở rộng là dữ liệu hỗ trợ dữ liệu hiện tại tại tất cả các điểm. Vì vậy, nếu việc phân tách là ngẫu nhiên, thì việc phân tách sẽ dẫn đến cùng một lượng dữ liệu gia tăng trong cả hai bộ, như của dữ liệu hiện có
Dawny33

Có bất kỳ tài liệu tham khảo của giấy cho điều này?
Aadnan Farooq A
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.