Sự lãng quên thảm khốc là một vấn đề cố hữu trong các mạng lưới thần kinh. Từ Wikipedia,
(Sự lãng quên thảm khốc) là một biểu hiện triệt để của tình huống khó xử 'nhạy cảm-ổn định' hoặc tiến thoái lưỡng nan 'ổn định-dẻo'. Cụ thể, những vấn đề này đề cập đến vấn đề có thể tạo ra một mạng lưới thần kinh nhân tạo nhạy cảm, nhưng không bị phá vỡ bởi thông tin mới. Các bảng tra cứu và các mạng kết nối nằm ở phía đối diện của phổ dẻo ổn định. Cái trước vẫn hoàn toàn ổn định khi có thông tin mới nhưng thiếu khả năng khái quát hóa, tức là suy ra các nguyên tắc chung, từ đầu vào mới.
Sự lãng quên thảm khốc là gì? Chúng ta hãy xem xét hai nhiệm vụ: Nhiệm vụ A và nhiệm vụ B. Bây giờ, giả sử chúng ta đang sử dụng một mô hình được đào tạo trước, vốn đã khá tốt cho nhiệm vụ A (trọng lượng đã họcθMột) và chúng tôi muốn "tinh chỉnh" nó để phù hợp với nhiệm vụ B. Thực tiễn phổ biến là lấy trọng số của một mô hình được đào tạo về nhiệm vụ A và sử dụng chúng làm khởi tạo để đào tạo cho nhiệm vụ B. Điều này hoạt động tốttrong các ứng dụng trong đó nhiệm vụ B là "nhiệm vụ phụ" của nhiệm vụ A (ví dụ: nhiệm vụ B đang phát hiện kính mắt và nhiệm vụ A đang phát hiện khuôn mặt). Khi B không phải là nhiệm vụ phụ của A, có một nỗi sợ rằng sự lãng quên thảm khốc sẽ xảy ra: về cơ bản, mạng sẽ sử dụng cùng các nơ-ron đã được tối ưu hóa cho nhiệm vụ A, để dự đoán về nhiệm vụ B. Khi thực hiện điều này, nó sẽ mất hoàn toàn khả năng phân loại các trường hợp của nhiệm vụ A một cách chính xác. Bạn thực sự có thể tự mình thử nghiệm điều này: Bạn có thể xây dựng một mạng nhỏ có thể cho biết hình ảnh MNIST là 5 hay không 5 và đo lường độ chính xác của nó trong nhiệm vụ này; Sau đó, nếu bạn tiếp tục hoàn thiện mô hình này với nhiệm vụ cho biết hình ảnh MNIST có phải là 4 hay không, bạn sẽ lưu ý rằng độ chính xác của mô hình cuối cùng trên tác vụ ban đầu (nhận ra 5) đã xấu đi.
Một giải pháp ngây thơ. Giải pháp ngây thơ cho sự lãng quên thảm khốc sẽ là không chỉ khởi tạo các trọng số của mô hình đã hoàn thànhθMột, nhưng cũng thêm tính chính quy: xử phạt giải pháp của mô hình đã hoàn thành khi nó ở xa θMột. Về cơ bản, điều này có nghĩa là mục tiêu sẽ là tìm ra giải pháp tốt nhất cho nhiệm vụ B mà nó vẫn tương tự nhưθMột, giải pháp cho nhiệm vụ A. Lý do tại sao chúng ta gọi đây là một cách tiếp cận ngây thơ là nó thường không hoạt động tốt. Các hàm được học bởi các mạng thần kinh thường rất phức tạp và khác xa tuyến tính, do đó, một thay đổi nhỏ trong các giá trị tham số (nghĩa làθB gần gũi θMột) vẫn có thể dẫn đến kết quả rất khác nhau (nghĩa là fθMột rất khác với fθB). Vì đó là kết quả mà chúng tôi quan tâm, điều này rất tệ cho chúng tôi.
Giả hành . Một cách tiếp cận tốt hơn sẽ là cố gắng làm tốt nhiệm vụ B trong khi đồng thời đưa ra các câu trả lời tương tự cho các câu trả lời được đưa ra bởi fθMột. Điều tốt là phương pháp này rất dễ thực hiện: Một khi bạn đã họcθMột, chúng ta có thể sử dụng mô hình đó để tạo vô số ví dụ "được gắn nhãn" ( x ,fθMột( x ) ). Sau đó, khi đào tạo mô hình tinh chỉnh, chúng ta sẽ xen kẽ giữa các ví dụ được gắn nhãn cho nhiệm vụ B và các ví dụ về biểu mẫu( x ,fθMột( x ) ). Bạn có thể suy nghĩ về sau này là "bài tập sửa đổi" mà chắc chắn rằng mạng của chúng tôi không mất đi khả năng của nó để xử lý công việc Một thời gian học tập để xử lý công việc B .
Một cách tiếp cận thậm chí tốt hơn: thêm bộ nhớ . Là con người, chúng ta rất giỏi trong việc khái quát hóa (tính dẻo) bằng cách sử dụng các ví dụ mới và ghi nhớ các sự kiện rất hiếm hoặc duy trì các kỹ năng mà chúng ta đã không sử dụng trong một thời gian (tính ổn định). Theo nhiều cách, phương pháp duy nhất để đạt được điều gì đó tương tự với các mạng lưới thần kinh sâu, như chúng ta biết, là kết hợp một số dạng "bộ nhớ" vào chúng. Điều này nằm ngoài phạm vi câu hỏi của bạn nhưng nó là một lĩnh vực nghiên cứu thú vị và tích cực vì vậy tôi mặc dù tôi muốn đề cập đến nó. Xem ví dụ này công việc gần đây: TÌM HIỂU NHỮNG SỰ KIỆN HIẾM .