Ok, vậy hãy phân tích ví dụ về việc trẻ phân cụm đồ chơi của nó.
Hãy tưởng tượng đứa trẻ chỉ có 3 món đồ chơi:
- một quả bóng đá màu xanh
- một màu xanh
- một khối lập phương màu xanh lá cây (ok có lẽ nó không phải là đồ chơi thú vị nhất bạn có thể tưởng tượng)
Chúng ta hãy làm giả thuyết ban đầu sau đây về cách làm một món đồ chơi:
- Các màu có thể là: đỏ, xanh lá cây, xanh dương
- Hình dạng có thể là: hình tròn, hình vuông, hình tam giác
Bây giờ chúng ta có thể có (num_colors * num_shapes) = 3 * 3 = 9 cụm có thể.
Cậu bé sẽ co cụm đồ chơi như sau:
- CLUSTER A) chứa quả bóng màu xanh và màu xanh tự do, vì thay vào đó có cùng màu sắc và hình dạng
- CLUSTER B) chứa khối màu xanh lá cây siêu hài hước
Chỉ sử dụng 2 kích thước (màu sắc, hình dạng) này, chúng tôi có 2 cụm không trống: vì vậy trong trường hợp đầu tiên này, 7/9 ~ 77% không gian của chúng tôi trống.
Bây giờ hãy tăng số lượng kích thước mà đứa trẻ phải xem xét. Chúng tôi cũng đưa ra giả thuyết sau đây về cách làm một món đồ chơi:
- Kích thước của đồ chơi có thể thay đổi từ vài cm đến 1 mét, trong bước mười centimet: 0-10cm, 11-20cm, ..., 91cm-1m
- Trọng lượng của đồ chơi có thể thay đổi theo cách tương tự lên tới 1 kg, với các bước 100 gram: 0-100g, 101-200g, ..., 901g-1kg.
Nếu chúng ta muốn phân cụm đồ chơi NGAY BÂY GIỜ, chúng ta có (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 cụm có thể.
Cậu bé sẽ co cụm đồ chơi như sau:
- CLUSTER A) chứa quả bóng đá màu xanh vì màu xanh và nặng
- CLUSTER B) chứa freesbe màu xanh vì màu xanh và ánh sáng
- CLUSTER C) chứa khối màu xanh lá cây siêu hài hước
Sử dụng 4 kích thước hiện tại (hình dạng, màu sắc, kích thước, chiều rộng) chỉ có 3 cụm là không trống: vì vậy trong trường hợp này 897/900 ~ 99,7% không gian trống.
Đây là một ví dụ về những gì bạn tìm thấy trên Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ):
... khi kích thước tăng, âm lượng của không gian tăng nhanh đến mức dữ liệu có sẵn trở nên thưa thớt.
Chỉnh sửa: Tôi không chắc là tôi thực sự có thể giải thích cho trẻ tại sao khoảng cách đôi khi bị sai trong không gian nhiều chiều, nhưng chúng ta hãy thử tiếp tục với ví dụ về đứa trẻ và đồ chơi của chúng.
Chỉ xem xét 2 tính năng đầu tiên {màu sắc, hình dạng} mọi người đồng ý rằng quả bóng màu xanh giống với quả bóng màu xanh hơn là khối màu xanh lá cây.
Bây giờ, hãy thêm 98 tính năng khác {giả sử: kích thước, trọng lượng, day_of_production_of_the_toy, vật liệu, độ mềm, day_in_which_the_toy_was_b think_by_daddy, giá vv}: đối với tôi sẽ ngày càng khó đánh giá đồ chơi nào tương tự.
Vì thế:
- Một số lượng lớn các tính năng có thể không liên quan trong một so sánh nhất định về sự tương tự, dẫn đến sự hỏng của tỷ lệ tín hiệu trên tạp âm.
- Trong kích thước cao, tất cả các ví dụ "trông giống nhau".
Nếu bạn lắng nghe tôi, một bài giảng hay là "Một vài điều hữu ích cần biết về học máy" ( http://homes.cs.washington.edu/~pedrod/ con / cacm12.pdf ), đoạn 6 nói riêng loại lý luận.
Hi vọng điêu nay co ich!