Giả định đa dạng trong học tập bán giám sát là gì?


20

Tôi đang cố gắng tìm hiểu xem giả định đa dạng có nghĩa gì trong học tập bán giám sát. Bất cứ ai có thể giải thích một cách đơn giản? Tôi không thể có được trực giác đằng sau nó.

Nó nói rằng dữ liệu của bạn nằm trên một đa tạp chiều thấp được nhúng trong một không gian chiều cao hơn. Tôi đã không hiểu điều đó có nghĩa là gì.


Câu trả lời:


38

Hãy tưởng tượng rằng bạn có một bó hạt được gắn chặt trên một tấm kính, đang nằm ngang trên bàn. Do cách chúng ta thường nghĩ về không gian, sẽ an toàn khi nói rằng những hạt giống này sống trong một không gian hai chiều, ít nhiều, bởi vì mỗi hạt giống có thể được xác định bằng hai số cho tọa độ của hạt giống đó trên bề mặt cái kính.

Bây giờ hãy tưởng tượng rằng bạn lấy cái đĩa và nghiêng nó theo đường chéo lên trên, sao cho bề mặt kính không còn nằm ngang so với mặt đất. Bây giờ, nếu bạn muốn xác định vị trí một trong những hạt giống, bạn có một vài lựa chọn. Nếu bạn quyết định bỏ qua kính, thì mỗi hạt sẽ xuất hiện nổi trong không gian ba chiều phía trên bảng và do đó bạn cần mô tả vị trí của mỗi hạt bằng ba số, một số cho mỗi hướng không gian. Nhưng chỉ bằng cách nghiêng kính, bạn đã không thay đổi thực tế là các hạt vẫn sống trên bề mặt hai chiều. Vì vậy, bạn có thể mô tả bề mặt của kính nằm trong không gian ba chiều, và sau đó bạn có thể mô tả vị trí của các hạt trên kính bằng hai chiều ban đầu của bạn.

Trong thí nghiệm suy nghĩ này, bề mặt thủy tinh gần giống với đa tạp chiều thấp tồn tại trong không gian chiều cao hơn: cho dù bạn xoay tấm theo ba chiều như thế nào, hạt vẫn sống dọc theo bề mặt của mặt phẳng hai chiều.

Ví dụ

Tổng quát hơn, một đa tạp chiều thấp được nhúng trong không gian chiều cao hơn chỉ là một tập hợp các điểm mà vì lý do nào đó, được coi là được kết nối hoặc là một phần của cùng một tập hợp. Đáng chú ý, đa tạp có thể bị biến dạng bằng cách nào đó trong không gian chiều cao hơn (ví dụ, có lẽ bề mặt của kính bị biến dạng thành hình bát thay vì hình dạng tấm), nhưng về cơ bản vẫn là chiều thấp. Đặc biệt là trong không gian nhiều chiều, đa tạp này có thể có nhiều hình dạng và hình dạng khác nhau, nhưng vì chúng ta sống trong một thế giới ba chiều, thật khó để tưởng tượng các ví dụ có nhiều hơn ba chiều. Tuy nhiên, giống như một mẫu, hãy xem xét các ví dụ sau:

  • một mảnh thủy tinh (phẳng, hai chiều) trong không gian vật lý (ba chiều)
  • một sợi đơn (một chiều) trong một mảnh vải (hai chiều)
  • một mảnh vải (hai chiều) vò nát trong máy giặt (ba chiều)

Các ví dụ phổ biến về đa tạp trong học máy (hoặc ít nhất là các tập hợp được giả thuyết để sống dọc theo đa tạp chiều thấp) bao gồm:

  • ví dụ, hình ảnh của cảnh thiên nhiên (thông thường bạn không thấy hình ảnh nhiễu trắng, nghĩa là hình ảnh "tự nhiên" không chiếm toàn bộ không gian của các cấu hình pixel có thể)
  • âm thanh tự nhiên (lập luận tương tự)
  • chuyển động của con người (cơ thể con người có hàng trăm độ tự do, nhưng các chuyển động dường như sống trong một không gian có thể được biểu diễn hiệu quả bằng cách sử dụng ~ 10 chiều)

Học đa dạng

Giả định đa dạng trong học máy là, thay vì giả định rằng dữ liệu trên thế giới có thể đến từ mọi phần của không gian có thể (ví dụ: không gian của tất cả các hình ảnh 1 megapixel có thể, bao gồm cả nhiễu trắng), sẽ có ý nghĩa hơn khi giả định dữ liệu huấn luyện đến từ các đa tạp chiều tương đối thấp (như tấm kính với các hạt). Sau đó học cấu trúc của đa tạp trở thành một nhiệm vụ quan trọng; Ngoài ra, nhiệm vụ học tập này dường như là có thể mà không cần sử dụng dữ liệu đào tạo được dán nhãn.

Có rất nhiều, rất nhiều cách khác nhau để học cấu trúc của một đa tạp chiều thấp. Một trong những cách tiếp cận được sử dụng rộng rãi nhất là PCA, giả định rằng đa tạp bao gồm một "đốm" hình elip giống như hình bánh kếp hoặc xì gà, được nhúng trong không gian chiều cao hơn. Các kỹ thuật phức tạp hơn như isomap, ICA hoặc mã hóa thưa thớt giúp thư giãn một số giả định này theo nhiều cách khác nhau.

Học bán giám sát

Lý do giả định đa dạng là quan trọng trong học tập bán giám sát là hai lần. Đối với nhiều tác vụ thực tế (ví dụ: xác định xem các pixel trong ảnh hiển thị 4 hay 5), có nhiều dữ liệu có sẵn trên thế giới mà không có nhãn (ví dụ: hình ảnh có thể có chữ số trong đó) so với nhãn (ví dụ: hình ảnh được dán nhãn rõ ràng "4" hoặc "5"). Ngoài ra, có nhiều thứ tự có độ lớn thông tin có sẵn trong các pixel của hình ảnh hơn là trong nhãn của hình ảnh có nhãn. Nhưng, như tôi đã mô tả ở trên, hình ảnh tự nhiên không thực sự được lấy mẫu từ phân bố đồng đều trên các cấu hình pixel, vì vậy có vẻ như có một số đa tạp chụp cấu trúc của hình ảnh tự nhiên.đa tạp, trong khi các hình ảnh chứa 5s tương tự nằm trên một đa tạp khác nhưng gần đó, thì chúng ta có thể cố gắng phát triển các đại diện cho mỗi đa tạp này bằng cách chỉ sử dụng dữ liệu pixel, hy vọng rằng các đa tạp khác nhau sẽ được biểu diễn bằng các tính năng khác nhau của dữ liệu. Sau đó, sau này, khi chúng tôi có sẵn một vài bit dữ liệu nhãn, chúng tôi có thể sử dụng các bit đó để áp dụng nhãn đơn giản cho các đa tạp đã được xác định.

Hầu hết các giải thích này đến từ công việc trong nghiên cứu sâu và tính năng học tập. Yoshua BengioYann LeCun - xem Hướng dẫn học tập dựa trên năng lượng có các đối số đặc biệt dễ tiếp cận trong lĩnh vực này.


1
Điều này không trả lời cho câu hỏi: bạn không giải thích tại sao cần đa tạp, về cơ bản bạn đang giải thích tại sao không cần nhúng chiều cao hơn (một tập hợp con của chiều nhúng cao hơn không phải là một đa tạp để phù hợp với ví dụ của bạn).
gents

5

Đầu tiên, hãy chắc chắn rằng bạn hiểu thế nào là nhúng. Nó mượn từ toán học . Nói một cách đơn giản, đó là ánh xạ dữ liệu vào một không gian khác (thường được gọi là không gian nhúng hoặc không gian đặc trưng ), bảo tồn một số cấu trúc hoặc thuộc tính của dữ liệu. Lưu ý rằng kích thước của nó có thể lớn hơn hoặc nhỏ hơn không gian đầu vào. Trong thực tế, ánh xạ là phức tạp và phi tuyến tính cao. Một vài ví dụ:

  • Một "vectơ từ" có giá trị thực để biểu thị một từ, chẳng hạn như word2vec
  • Kích hoạt một lớp của một mạng lưới, chẳng hạn như lớp FC7 AlexNet (FC7 là lớp thứ 7 được kết nối đầy đủ)

Để minh họa, tôi sẽ lấy một ví dụ về bài viết này từ Josh Tenenbaum:

Hình 1 minh họa vấn đề khám phá tính năng với một ví dụ từ nhận thức trực quan. Tập hợp các khung nhìn của một khuôn mặt từ tất cả các góc nhìn có thể là một tập dữ liệu cực kỳ cao khi được biểu diễn dưới dạng các mảng hình ảnh trong máy tính hoặc trên võng mạc; ví dụ, hình ảnh tỷ lệ xám 32 x 32 pixel có thể được coi là các điểm trong không gian quan sát 1.024 chiều [không gian đầu vào] . Tuy nhiên, cấu trúc có ý nghĩa của những hình ảnh này [không gian đặc trưng] có chiều hướng thấp hơn nhiều; tất cả các hình ảnh trong hình 1 nằm trên một đa tạp hai chiều được tham số hóa bằng góc nhìn

nhập mô tả hình ảnh ở đây

Josh Tenenbaum sau đó thảo luận về những khó khăn khi học một ánh xạ như vậy từ đầu vào đến không gian đặc trưng. Nhưng hãy quay trở lại câu hỏi: chúng tôi quan tâm đến việc các không gian đầu vào và tính năng có liên quan như thế nào.

  • Các 32*32 array of grey pixel valueslà không gian đầu vào
  • Không [x1=elevation, x2=azimuth]gian là không gian đặc trưng (mặc dù đơn giản, nó có thể được coi là không gian nhúng hợp lệ).

Nêu lại giả thuyết đa dạng (trích từ bài viết tuyệt vời này ):

Giả thuyết đa dạng là dữ liệu tự nhiên hình thành các đa tạp chiều thấp hơn trong không gian nhúng của nó

Với ví dụ này, rõ ràng là chiều của không gian nhúng ít hơn không gian đầu vào: 2 so với 1024. (Sự khác biệt này sẽ giữ ngay cả đối với các lựa chọn không gian nhúng cao hơn, đơn giản hơn).

Để thuyết phục bản thân rằng việc nhúng tạo thành một đa tạp, tôi mời bạn đọc phần còn lại của giấy tờ Tenenbaum hoặc bài báo Colah .

Lưu ý: đây chỉ là một minh họa về ý nghĩa của giả thuyết đa dạng, không phải là một lập luận về lý do tại sao nó xảy ra .

Liên quan: Giải thích về vectơ từ , giấy word2vec

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.