Nó nhanh chóng trở nên rõ ràng, bằng cách xem xét nhiều tài khoản của "giả định đa dạng", rằng nhiều nhà văn đáng chú ý là cẩu thả về ý nghĩa của nó. Những người cẩn thận hơn xác định nó với một cảnh báo tinh tế nhưng cực kỳ quan trọng : rằng dữ liệu nằm trên hoặc gần với một đa tạp chiều thấp.
Ngay cả những người không bao gồm mệnh đề "hoặc gần với" rõ ràng chấp nhận giả định đa tạp như một hư cấu gần đúng, thuận tiện cho việc thực hiện phân tích toán học, bởi vì các ứng dụng của họ phải xem xét độ lệch giữa dữ liệu và đa tạp ước tính. Thật vậy, nhiều nhà văn sau đó đã giới thiệu một cơ chế rõ ràng cho các sai lệch, chẳng hạn như suy nghĩ hồi quy của chống lại trong đó bị hạn chế nằm trên một đa tạp nhưng có thể bao gồm độ lệch ngẫu nhiên. Điều này tương đương với việc giả sử rằng các bộ dữ liệu nằm sát nhaux x M k ⊂ R d y ( x i , y i ) kyxxMk⊂ Rd y( xTôi, yTôi)đến, nhưng không nhất thiết phải trên, một đa dạng -chiều đa dạng của hình thứck
( x , f( x ) ) ∈ Mk× R ⊂ Rd× R ≈ Rd+ 1
đối với một số hàm (hồi quy) mượt mà . Vì chúng ta có thể xem tất cả các điểm nhiễu loạn , chỉ đơn thuần là gần với biểu đồ của (một đa chiều ) trên các đa dạng chiều , điều này giúp giải thích tại sao luộm thuộm như vậy về việc phân biệt "trên" từ "gần" có thể không quan trọng về mặt lý thuyết. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1 M k × Rf: Rd→ R( x , y) = ( x , f( X ) + ε )fkk + 1Mk× R
Sự khác biệt giữa "bật" và "gần" cực kỳ quan trọng đối với các ứng dụng. "Gần với" cho phép dữ liệu có thể đi chệch khỏi đa tạp. Như vậy, nếu bạn chọn ước tính đa tạp đó, thì độ lệch điển hình giữa dữ liệu và đa tạp có thể được định lượng. Một đa tạp được trang bị sẽ tốt hơn so với loại khác khi số lượng sai lệch điển hình ít hơn, ceteris paribus.
Hình minh họa cho thấy hai phiên bản của giả định đa dạng cho dữ liệu (các chấm lớn màu xanh): đa tạp màu đen tương đối đơn giản (chỉ cần bốn tham số để mô tả) nhưng chỉ đến "gần" dữ liệu, trong khi đa tạp chấm màu đỏ phù hợp với dữ liệu hoàn hảo nhưng phức tạp (cần 17 thông số).
Như trong tất cả các vấn đề như vậy, có một sự đánh đổi giữa sự phức tạp của việc mô tả đa tạp và sự tốt đẹp của sự phù hợp (vấn đề quá mức). Đó là luôn luôn là trường hợp mà một đa tạp một chiều có thể được tìm thấy để phù hợp với bất kỳ số lượng hữu hạn của dữ liệu trong một cách hoàn hảo (như với đa dạng chấm đỏ trong hình, chỉ cần chạy một đường cong mượt mà qua tất cả các điểm , theo bất kỳ thứ tự nào: gần như chắc chắn nó sẽ không giao nhau, nhưng nếu có, làm nhiễu đường cong trong vùng lân cận của bất kỳ giao lộ nào như vậy để loại bỏ nó). Ở một thái cực khác, nếu chỉ cho phép một loại đa tạp giới hạn (chẳng hạn như siêu phẳng Euclide thẳng), thì sự phù hợp tốt có thể là không thể, bất kể kích thước và độ lệch điển hình giữa dữ liệu và độ khớp có thể lớn.Rd
Điều này dẫn đến một cách đơn giản, thực tế để đánh giá giả định đa tạp: nếu mô hình / dự đoán / phân loại được phát triển từ giả định đa tạp hoạt động tốt, thì giả định đó đã được chứng minh. Vì vậy, các điều kiện thích hợp được tìm kiếm trong câu hỏi sẽ là một số biện pháp phù hợp về mức độ phù hợp có thể chấp nhận được nhỏ. (Biện pháp nào? Nó phụ thuộc vào vấn đề và tương đương với việc chọn chức năng mất.)
Có thể các đa tạp có kích thước khác nhau (với các loại ràng buộc khác nhau về độ cong của chúng) có thể phù hợp với dữ liệu - và dự đoán dữ liệu được giữ lại - cũng tương tự. Nói chung, không có gì có thể được "chứng minh" về "đa dạng" bên dưới , đặc biệt là khi làm việc với các bộ dữ liệu lớn, lộn xộn của con người. Tất cả chúng ta thường có thể hy vọng là nó đa tạp được trang bị là một mô hình tốt.
Nếu bạn không đưa ra một mô hình / dự đoán / phân loại tốt, thì giả định đa tạp là không hợp lệ, bạn đang giả sử các đa tạp có kích thước quá nhỏ hoặc bạn trông không đủ cứng hoặc đủ tốt.