Lưu ý: trong suốt câu trả lời này, tôi đề cập đến việc giảm thiểu tổn thất đào tạo và tôi không thảo luận về các tiêu chí dừng như mất xác nhận. Việc lựa chọn tiêu chí dừng không ảnh hưởng đến quá trình / khái niệm được mô tả dưới đây.
Quá trình đào tạo mạng nơ-ron là tìm giá trị tối thiểu của hàm mất , trong đó W đại diện cho ma trận (hoặc một số ma trận) trọng số giữa các nơ-ron và X đại diện cho tập dữ liệu huấn luyện. Tôi sử dụng một subscript cho X để chỉ ra rằng giảm thiểu của chúng ta về ℒ chỉ xảy ra trên các trọng số W (có nghĩa là, chúng tôi đang tìm kiếm W mà ℒ được giảm thiểu) trong khi X là cố định.LX(W)WXXLWWLX
Bây giờ, nếu chúng ta giả định rằng chúng ta có yếu tố trong W (có nghĩa là, có P trọng trong mạng), ℒ là một bề mặt trong một P + 1 không gian ba chiều. Để đưa ra một sự tương tự trực quan, hãy tưởng tượng rằng chúng ta chỉ có hai trọng lượng nơ-ron ( P = 2 ). Sau đó ℒ có một giải thích hình học đơn giản: đó là một bề mặt trong một không gian 3 chiều. Điều này xuất phát từ thực tế là đối với bất kỳ ma trận có trọng số W nào , hàm mất có thể được đánh giá trên X và giá trị đó trở thành độ cao của bề mặt.PWPLP+1P=2LWX
Nhưng có vấn đề không lồi lõm; bề mặt tôi mô tả sẽ có rất nhiều cực tiểu cục bộ, và do đó các thuật toán giảm độ dốc dễ bị "kẹt" trong các cực tiểu đó trong khi giải pháp sâu hơn / thấp hơn / tốt hơn có thể nằm gần đó. Điều này có thể xảy ra nếu không thay đổi trên tất cả các lần lặp đào tạo, bởi vì bề mặt được cố định cho một X cho trước ; tất cả các tính năng của nó là tĩnh, bao gồm các cực tiểu khác nhau của nó.XX
Một giải pháp cho vấn đề này là đào tạo hàng loạt kết hợp với xáo trộn. Bằng cách xáo trộn các hàng và chỉ đào tạo một tập hợp con của chúng trong một lần lặp đã cho, thay đổi theo mỗi lần lặp và thực tế là không có hai lần lặp nào trong toàn bộ chuỗi lặp và đào tạo sẽ được thực hiện trên cùng một X chính xác . Hiệu quả là bộ giải có thể dễ dàng "bật" ra khỏi mức tối thiểu cục bộ. Hãy tưởng tượng rằng bộ giải bị kẹt ở mức tối thiểu cục bộ khi lặp i với đào tạo mini- i X i . Mức tối thiểu cục bộ này tương ứng với ℒ được đánh giá ở một giá trị trọng số cụ thể; chúng tôi sẽ gọi nó là ℒ X i ( WXXiXiL . Ở lần lặp lại tiếp theo, hình dạng bề mặt mất mát của chúng ta thực sự thay đổi bởi vì chúng ta đang sử dụng X i + 1 , nghĩa là, ℒ X i + 1 ( W i ) có thể có giá trị rất khác so với ℒ X i ( W i ) và nó hoàn toàn có thể là nó không tương ứng với mức tối thiểu cục bộ! Bây giờ chúng ta có thể tính toán một bản cập nhật gradient và tiếp tục đào tạo. Để rõ ràng: hình dạng của ℒ X i + 1 sẽ - nói chung - khác với hình dạng của ℒ X iLXi(Wi)Xi+1LXi+1(Wi)LXi(Wi)LXi+1LXi. Lưu ý rằng ở đây tôi đề cập đến hàm tổn thất đánh giá trên tập huấn luyện X ; nó là một bề mặt hoàn toàn được xác định trên tất cả các giá trị có thể của W , chứ không phải là việc đánh giá thiệt hại đó (mà chỉ là một vô hướng) cho một giá trị cụ thể của W . Cũng lưu ý rằng nếu các lô nhỏ được sử dụng mà không xáo trộn thì vẫn có một mức độ "đa dạng hóa" bề mặt tổn thất, nhưng sẽ có một số lượng hữu hạn (và tương đối nhỏ) các bề mặt lỗi duy nhất mà người giải quyết nhìn thấy (cụ thể, nó sẽ thấy cùng một bộ chính xác của các lô nhỏ - và do đó làm mất bề mặt - trong mỗi kỷ nguyên).LXWW
Một điều tôi cố tình tránh là một cuộc thảo luận về kích thước lô nhỏ, bởi vì có hàng triệu ý kiến về điều này và nó có ý nghĩa thực tiễn quan trọng (có thể đạt được sự song song lớn hơn với các lô lớn hơn). Tuy nhiên, tôi tin rằng sau đây là đáng nói. Bởi vì được đánh giá bằng cách tính toán giá trị cho mỗi hàng của X (và tổng hợp hoặc lấy trung bình; ví dụ, một nhà điều hành giao hoán) cho một tập hợp các ma trận trọng lượng W , sự sắp xếp của các hàng của X không có tác dụng khi sử dụng full- giảm dần độ dốc hàng loạt (nghĩa là khi mỗi lô là X đầy đủ , và các lần lặp và epoch là cùng một thứ).LXWX X