Nói về 99 % số điểm trong một hypercube 'là một chút sai lầm vì một hypercube chứa vô số điểm. Hãy nói về âm lượng thay thế.
Thể tích của một hypercube là sản phẩm có độ dài cạnh của nó. Đối với đơn vị hypercube 50 chiều chúng tôi nhận Total volume=1×1×⋯×150 times=150=1.
Bây giờ chúng ta hãy loại trừ ranh giới của hypercube và nhìn vào ' bên trong ' (tôi đặt điều này trong dấu ngoặc kép vì thuật ngữ bên trong thuật ngữ có một ý nghĩa rất khác). Chúng tôi chỉ giữ các điểm x=(x1,x2,…,x50) thỏa mãn
0.05<x1<0.95 and 0.05<x2<0.95 and … and 0.05<x50<0.95.
Khối lượng của 'nội thất' này là gì? Chà, 'nội thất' lại là một hypercube và chiều dài của mỗi bên là0.9 (=0.95−0.05 ... nó giúp tưởng tượng điều này trong hai và ba chiều). Vì vậy, khối lượng làInterior volume=0.9×0.9×⋯×0.950 times=0.950≈0.005.
Kết luận rằng âm lượng của 'ranh giới' (được định nghĩa là hypercube đơn vị không có 'nội thất ') là 1−0.950≈0.995.
Điều này cho thấy 99.5% thể tích của một hypercube 50 chiều tập trung vào ' ranh giới ' của nó.
Theo dõi: ignatius đưa ra một câu hỏi thú vị về cách điều này được kết nối với xác suất. Đây là một ví dụ.
Giả sử bạn đã đưa ra mô hình (học máy) dự đoán giá nhà đất dựa trên 50 thông số đầu vào. Tất cả 50 tham số đầu vào là độc lập và phân bố đồng đều giữa 0 và 1 .
Hãy để chúng tôi nói rằng mô hình của bạn hoạt động rất tốt nếu không có tham số đầu vào nào là cực trị: Miễn là mọi tham số đầu vào nằm trong khoảng 0.05 đến 0.95 , mô hình của bạn dự đoán giá nhà ở gần như hoàn hảo. Nhưng nếu một hoặc nhiều tham số đầu vào là cực trị (nhỏ hơn 0.05 hoặc lớn hơn 0.95 ), thì các dự đoán về mô hình của bạn là hoàn toàn khủng khiếp.
Bất kỳ tham số đầu vào nào là cực kỳ với xác suất chỉ 10% . Vì vậy, rõ ràng đây là một mô hình tốt, phải không? Không! Xác suất mà ít nhất một trong những 50 thông số là cực đoan là 1−0.950≈0.995.
Vì vậy, trong 99.5% trường hợp, dự đoán mô hình của bạn là khủng khiếp.
Quy tắc của ngón tay cái: Trong các kích thước cao, các quan sát cực đoan là quy tắc và không phải là ngoại lệ.