Một số kỹ thuật tăng dữ liệu hữu ích cho các mạng thần kinh tích chập sâu là gì?


13

Bối cảnh: Gần đây tôi đã hiểu ở mức độ sâu hơn về tầm quan trọng của việc tăng dữ liệu khi đào tạo mạng lưới thần kinh tích chập sau khi xem bài nói chuyện tuyệt vời này của Geoffrey Hinton .

Ông giải thích rằng các mạng thần kinh tích chập thế hệ hiện tại không thể khái quát hóa khung tham chiếu của đối tượng được thử nghiệm, khiến cho mạng khó có thể thực sự hiểu rằng các hình ảnh được nhân đôi của một đối tượng là như nhau.

Một số nghiên cứu đã đi vào cố gắng khắc phục điều này. Đây là một trong nhiều ví dụ . Tôi nghĩ rằng điều này giúp thiết lập cách thức tăng dữ liệu quan trọng ngày nay khi đào tạo mạng lưới thần kinh tích chập.

Kỹ thuật tăng dữ liệu hiếm khi được điểm chuẩn với nhau. Vì thế:

Câu hỏi:

  • Một số bài báo mà các học viên báo cáo hiệu suất đặc biệt tốt hơn là gì?

  • Một số kỹ thuật tăng dữ liệu mà bạn đã thấy hữu ích là gì?


Xin chào @rhadar, bạn đã có tin tức gì chưa? Cảm ơn :)
nullgeppetto

Câu trả lời:


1

Giây 1: Tăng cường dữ liệu Vì các mạng sâu cần được đào tạo trên một số lượng lớn hình ảnh đào tạo để đạt được hiệu suất thỏa đáng, nếu bộ dữ liệu hình ảnh gốc chứa hình ảnh đào tạo hạn chế, tốt hơn là thực hiện tăng dữ liệu để tăng hiệu suất. Ngoài ra, tăng dữ liệu trở thành điều cần làm khi đào tạo một mạng lưới sâu.

  • Có nhiều cách để tăng cường dữ liệu, chẳng hạn như lật theo chiều ngang phổ biến, cắt ngẫu nhiên và xáo trộn màu. Hơn nữa,
    bạn có thể thử kết hợp nhiều cách xử lý khác nhau, ví dụ:
    thực hiện xoay và chia tỷ lệ ngẫu nhiên cùng một lúc. Ngoài ra,
    bạn có thể cố gắng tăng độ bão hòa và giá trị (các thành phần S và V của
    không gian màu HSV) của tất cả các pixel thành công suất từ ​​0,25 đến 4 (tương tự
    cho tất cả các pixel trong một bản vá), nhân các giá trị này với hệ số
    từ 0,7 và 1.4, và thêm vào chúng một giá trị trong khoảng -0.1 đến 0.1.
    Ngoài ra, bạn có thể thêm một giá trị giữa [-0.1, 0.1] vào màu sắc (
    thành phần H của HSV) của tất cả các pixel trong ảnh / bản vá.

  • Krizhevsky và cộng sự. 1 đề xuất PCA ưa thích khi đào tạo Alex-Net nổi tiếng vào năm 2012. PCA ưa thích làm thay đổi cường độ của các
    kênh RGB trong đào tạo hình ảnh. Trong thực tế, trước tiên bạn có thể thực hiện PCA trên tập hợp các giá trị pixel RGB trong suốt các hình ảnh đào tạo của bạn. Và
    sau đó, đối với mỗi hình ảnh đào tạo, chỉ cần thêm số lượng sau vào
    từng pixel hình ảnh RGB (nghĩa là I_ {xy} = [I_ {xy} ^ R, I_ {xy} ^ G, I_ {xy} ^ B] ^ T ):
    [bf {p} _1, bf {p} _2, bf {p} _3] [alpha_1 lambda_1, alpha_2 lambda_2, alpha_3
    lambda_3] ^ T ở đâu, bf {p} _i và lambda_i là những thứ i eigenvector và
    eigenvalue
    lần lượt là ma trận hiệp phương sai 3 lần 3 của các giá trị pixel RGB và alpha_i là một biến ngẫu nhiên được rút ra từ một Gaussian
    với giá trị trung bình bằng 0 và độ lệch chuẩn 0,1. Xin lưu ý rằng, mỗi
    alpha_i chỉ được vẽ một lần cho tất cả các pixel của một
    hình ảnh đào tạo cụ thể cho đến khi hình ảnh đó được sử dụng để đào tạo lại. Điều đó có nghĩa là
    , khi mô hình đáp ứng cùng một hình ảnh đào tạo, nó sẽ
    tạo ngẫu nhiên một alpha_i khác để tăng dữ liệu. Trong 1 , họ
    tuyên bố rằng PCA ưa thích có thể chụp được một
    thuộc tính quan trọng của hình ảnh tự nhiên, cụ thể là, danh tính đối tượng đó là bất biến đối với những thay đổi về cường độ và màu sắc của đèn chiếu sáng. Đối với
    hiệu suất phân loại, sơ đồ này đã giảm
    hơn 1% tỷ lệ lỗi hàng đầu trong cuộc cạnh tranh của ImageNet 2012.

(Nguồn: Phải biết Mẹo / Thủ thuật trong Mạng lưới thần kinh sâu (của Xiu-Shen Wei))

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.