@Alexey Grigorev đã đưa ra một câu trả lời rất hay, tuy nhiên tôi nghĩ rằng có thể hữu ích khi thêm hai điều:
- Tôi muốn cung cấp cho bạn một ví dụ giúp tôi hiểu được tầm quan trọng của đa tạp bằng trực giác.
- Xây dựng về điều đó, tôi muốn làm rõ "giống như không gian Euclidian" một chút.
Ví dụ trực quan
Hãy tưởng tượng chúng ta sẽ làm việc trên một bộ sưu tập các hình ảnh HD rồi (đen và trắng) (1280 * 720 pixel). Những bức ảnh đó sống trong một thế giới 921.600 chiều; Mỗi hình ảnh được xác định bởi các giá trị riêng lẻ của pixel.
Bây giờ hãy tưởng tượng rằng chúng ta sẽ xây dựng những hình ảnh này bằng cách điền vào từng pixel theo thứ tự bằng cách lăn một con súc sắc 256 mặt.
Hình ảnh thu được có thể trông giống như thế này:
Không thú vị lắm, nhưng chúng tôi có thể tiếp tục làm điều đó cho đến khi chúng tôi đạt được thứ gì đó chúng tôi muốn giữ. Rất mệt mỏi nhưng chúng ta có thể tự động hóa điều này trong một vài dòng Python.
Nếu không gian của những hình ảnh có ý nghĩa (huống chi là hiện thực) thậm chí sẽ rộng lớn như toàn bộ không gian tính năng, chúng ta sẽ sớm thấy điều gì đó thú vị. Có lẽ chúng ta sẽ thấy một bức ảnh em bé của bạn hoặc một bài báo từ một dòng thời gian thay thế. Này, làm thế nào về việc chúng ta thêm một thành phần thời gian và thậm chí chúng ta có thể gặp may mắn và tạo ra Back to th Tương lai với một kết thúc thay thế
Trên thực tế, chúng ta đã từng có những cỗ máy thực hiện chính xác điều này: TV cũ không được điều chỉnh đúng. Bây giờ tôi nhớ đã nhìn thấy những thứ đó và chưa bao giờ tôi thấy bất cứ thứ gì thậm chí có cấu trúc.
Lý do tại sao điều này xảy ra? Chà: Hình ảnh chúng tôi thấy thú vị trên thực tế là các hình chiếu có độ phân giải cao của hiện tượng và chúng bị chi phối bởi những thứ ít chiều cao hơn nhiều. Ví dụ: Độ sáng của cảnh, gần với hiện tượng một chiều, chiếm ưu thế gần một triệu chiều trong trường hợp này.
Điều này có nghĩa là có một không gian con (đa tạp), trong trường hợp này (nhưng không phải theo định nghĩa) được kiểm soát bởi các biến ẩn, có chứa các trường hợp quan tâm đối với chúng tôi
Hành vi Euclidian địa phương
Hành vi Euclidian có nghĩa là hành vi có tính chất hình học. Trong trường hợp độ sáng rất rõ ràng: Nếu bạn tăng nó dọc theo "trục", hình ảnh thu được sẽ sáng hơn liên tục.
Nhưng đây là nơi thú vị: Hành vi Euclidian đó cũng hoạt động trên các chiều trừu tượng hơn trong không gian Manifold của chúng tôi. Xem xét ví dụ này từ Deep Learning của Goodfellow, Bengio và Courville
Trái: Bản đồ 2 chiều của các khuôn mặt Frey đa dạng. Một chiều đã được phát hiện (nằm ngang) chủ yếu tương ứng với một vòng quay của khuôn mặt, trong khi chiều còn lại (dọc) tương ứng với biểu hiện cảm xúc. Phải: Bản đồ 2 chiều của đa tạpMNIST
Một lý do tại sao học tập sâu thành công trong ứng dụng liên quan đến hình ảnh là bởi vì nó kết hợp một hình thức học tập đa dạng rất hiệu quả. Đó là một trong những lý do tại sao nó được áp dụng để nhận dạng và nén hình ảnh, cũng như thao tác hình ảnh.