Làm thế nào để chứng minh rằng giả định đa dạng là đúng?


9

Trong học máy, người ta thường cho rằng một tập dữ liệu nằm trên một đa tạp chiều thấp (giả định đa tạp), nhưng có cách nào để chứng minh rằng giả sử một số điều kiện được thỏa mãn, thì tập dữ liệu thực sự được tạo ra từ một đa tạp trơn chiều thấp?

Ví dụ: đã đưa ra một chuỗi dữ liệu trong đó (nói chuỗi hình ảnh khuôn mặt với các góc khác nhau) và một chuỗi nhãn tương ứng trong đó (nói các góc của chuỗi mặt). Giả sử khi và rất gần nhau, nhãn của họ và cũng rất gần nhau, chúng ta có thể tưởng tượng rằng có khả năngX iR d { y 1 ... y n } y 1y 2 ... y n X i X i + 1 y i y i + 1 { X 1 ... X n }{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}nằm trên một đa tạp chiều thấp. Điều này có đúng không? Nếu vậy, làm thế nào chúng ta có thể chứng minh nó? Hoặc những điều kiện nào mà chuỗi cần phải thỏa mãn để giả định đa dạng có thể được chứng minh là đúng?

Câu trả lời:


10

Nó nhanh chóng trở nên rõ ràng, bằng cách xem xét nhiều tài khoản của "giả định đa dạng", rằng nhiều nhà văn đáng chú ý là cẩu thả về ý nghĩa của nó. Những người cẩn thận hơn xác định nó với một cảnh báo tinh tế nhưng cực kỳ quan trọng : rằng dữ liệu nằm trên hoặc gần với một đa tạp chiều thấp.

Ngay cả những người không bao gồm mệnh đề "hoặc gần với" rõ ràng chấp nhận giả định đa tạp như một hư cấu gần đúng, thuận tiện cho việc thực hiện phân tích toán học, bởi vì các ứng dụng của họ phải xem xét độ lệch giữa dữ liệu và đa tạp ước tính. Thật vậy, nhiều nhà văn sau đó đã giới thiệu một cơ chế rõ ràng cho các sai lệch, chẳng hạn như suy nghĩ hồi quy của chống lại trong đó bị hạn chế nằm trên một đa tạp nhưng có thể bao gồm độ lệch ngẫu nhiên. Điều này tương đương với việc giả sử rằng các bộ dữ liệu nằm sát nhaux x M kR d y ( x i , y i ) kyxxMkRd y(xi,yi)đến, nhưng không nhất thiết phải trên, một đa dạng -chiều đa dạng của hình thứck

(x,f(x))Mk×RRd×RRd+1

đối với một số hàm (hồi quy) mượt mà . Vì chúng ta có thể xem tất cả các điểm nhiễu loạn , chỉ đơn thuần là gần với biểu đồ của (một đa chiều ) trên các đa dạng chiều , điều này giúp giải thích tại sao luộm thuộm như vậy về việc phân biệt "trên" từ "gần" có thể không quan trọng về mặt lý thuyết. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1 M k × Rf:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

Sự khác biệt giữa "bật" và "gần" cực kỳ quan trọng đối với các ứng dụng. "Gần với" cho phép dữ liệu có thể đi chệch khỏi đa tạp. Như vậy, nếu bạn chọn ước tính đa tạp đó, thì độ lệch điển hình giữa dữ liệu và đa tạp có thể được định lượng. Một đa tạp được trang bị sẽ tốt hơn so với loại khác khi số lượng sai lệch điển hình ít hơn, ceteris paribus.

Nhân vật

Hình minh họa cho thấy hai phiên bản của giả định đa dạng cho dữ liệu (các chấm lớn màu xanh): đa tạp màu đen tương đối đơn giản (chỉ cần bốn tham số để mô tả) nhưng chỉ đến "gần" dữ liệu, trong khi đa tạp chấm màu đỏ phù hợp với dữ liệu hoàn hảo nhưng phức tạp (cần 17 thông số).

Như trong tất cả các vấn đề như vậy, có một sự đánh đổi giữa sự phức tạp của việc mô tả đa tạp và sự tốt đẹp của sự phù hợp (vấn đề quá mức). Đó là luôn luôn là trường hợp mà một đa tạp một chiều có thể được tìm thấy để phù hợp với bất kỳ số lượng hữu hạn của dữ liệu trong một cách hoàn hảo (như với đa dạng chấm đỏ trong hình, chỉ cần chạy một đường cong mượt mà qua tất cả các điểm , theo bất kỳ thứ tự nào: gần như chắc chắn nó sẽ không giao nhau, nhưng nếu có, làm nhiễu đường cong trong vùng lân cận của bất kỳ giao lộ nào như vậy để loại bỏ nó). Ở một thái cực khác, nếu chỉ cho phép một loại đa tạp giới hạn (chẳng hạn như siêu phẳng Euclide thẳng), thì sự phù hợp tốt có thể là không thể, bất kể kích thước và độ lệch điển hình giữa dữ liệu và độ khớp có thể lớn.Rd

Điều này dẫn đến một cách đơn giản, thực tế để đánh giá giả định đa tạp: nếu mô hình / dự đoán / phân loại được phát triển từ giả định đa tạp hoạt động tốt, thì giả định đó đã được chứng minh. Vì vậy, các điều kiện thích hợp được tìm kiếm trong câu hỏi sẽ là một số biện pháp phù hợp về mức độ phù hợp có thể chấp nhận được nhỏ. (Biện pháp nào? Nó phụ thuộc vào vấn đề và tương đương với việc chọn chức năng mất.)

Có thể các đa tạp có kích thước khác nhau (với các loại ràng buộc khác nhau về độ cong của chúng) có thể phù hợp với dữ liệu - và dự đoán dữ liệu được giữ lại - cũng tương tự. Nói chung, không có gì có thể được "chứng minh" về "đa dạng" bên dưới , đặc biệt là khi làm việc với các bộ dữ liệu lớn, lộn xộn của con người. Tất cả chúng ta thường có thể hy vọng là nó đa tạp được trang bị là một mô hình tốt.

Nếu bạn không đưa ra một mô hình / dự đoán / phân loại tốt, thì giả định đa tạp là không hợp lệ, bạn đang giả sử các đa tạp có kích thước quá nhỏ hoặc bạn trông không đủ cứng hoặc đủ tốt.


1
+1 Rất đẹp. Hãy để tôi nói thêm (không ngụ ý bạn chia sẻ quan điểm của tôi) rằng điều này một lần nữa cho thấy lý do tại sao lối suy nghĩ nguyên tắc nhưng hay hoài nghi và thường xuyên được trau dồi trong các số liệu thống kê trong nhiều năm qua là rất quan trọng đối với sự mơ hồ, nhanh chóng, mới mẻ- thế giới đồ chơi của máy học và khoa học dữ liệu.
Momo

5

Bất kỳ tập hợp hữu hạn nào của điểm có thể phù hợp với bất kỳ đa tạp nào (tham chiếu định lý cần thiết, tôi không thể nhớ định lý là gì, tôi chỉ nhớ thực tế này từ uni).

Nếu một người không muốn tất cả các điểm được xác định, thì kích thước thấp nhất có thể là 1.

Lấy một ví dụ đơn giản, cho điểm N 2d, tồn tại một số đa thức bậc N - 1 trong đó tất cả các điểm N nằm trên đa thức đó. Do đó, chúng tôi có đa tạp 1d cho bất kỳ tập dữ liệu 2d nào. Tôi nghĩ logic cho kích thước tùy ý là tương tự.

Vì vậy, đó không phải là vấn đề, các giả định thực sự nằm ở cấu trúc / tính đơn giản của đa tạp, đặc biệt khi coi các đa tạp Riemannian được kết nối là không gian số liệu. Tôi đã đọc các bài báo về tiêu điểm đa dạng này, và tìm thấy nếu bạn đọc kỹ một số giả định khá lớn xuất hiện!

Các giả định được đưa ra là khi định nghĩa cảm ứng về "sự gần gũi" được giả định là "lưu giữ thông tin trong tập dữ liệu của chúng tôi", nhưng vì điều này không được định nghĩa chính thức trong thuật ngữ Lý thuyết thông tin, nên định nghĩa kết quả khá đặc biệt và thực sự là một giả định rất lớn. Trong vấn đề cụ thể, vấn đề dường như là "sự gần gũi" được bảo tồn, tức là hai điểm gần nhau, ở gần nhau, nhưng "khoảng cách" thì không, và vì vậy hai điểm "xa" không ở xa.

Để kết luận, tôi sẽ rất cảnh giác với những mánh khóe như vậy trong học máy trừ khi bộ dữ liệu được biết đến thực sự là euclid tự nhiên, ví dụ như nhận dạng mô hình trực quan. Tôi sẽ không xem xét các phương pháp này phù hợp cho các vấn đề chung hơn.


Cảm ơn! Câu trả lời của bạn đã giúp tôi hiểu vấn đề tốt hơn. Bạn có thể giới thiệu một số bài báo liên quan đến giả định đa dạng mà bạn đề cập ở đây không?
thinkbear

Xin lỗi không thể nhớ, Google sẽ có thể giúp đỡ :)
samthebest
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.