Điều đó có nghĩa là gì khi chúng ta nói hầu hết các điểm trong một hypercube nằm ở ranh giới?


12

Nếu tôi có một hypercube 50 chiều. Và tôi xác định ranh giới của nó bằng hoặc 0,95 < x j < 1 trong đó x j là kích thước của hypercube. Sau đó, tính tỷ lệ các điểm trên ranh giới của hypercube sẽ là 0,995 . Nó có nghĩa là gì? Có nghĩa là phần còn lại của không gian trống? Nếu 99 % số điểm nằm ở ranh giới thì các điểm bên trong khối lập phương không được phân bố đồng đều?0<xj<0.050.95<xj<1xj0.99599%


2
Không, nó có nghĩa là ngoại vi rộng rãi hơn, và hiệu ứng tương xứng với chiều. Nó hơi phản khoa học. Hiện tượng này có hậu quả đối với sự phân bố khoảng cách giữa các cặp nút ngẫu nhiên có liên quan khi bạn muốn phân cụm hoặc tính toán các lân cận gần nhất trong không gian nhiều chiều.
Emre

Tính tỷ lệ các điểm trên một đoạn thẳng gần ranh giới của nó. Sau đó chỉ vào một hình vuông. Sau đó chỉ vào một khối. Bạn có thể nói gì về họ?
dùng253751

Câu trả lời:


27

Nói về 99% số điểm trong một hypercube 'là một chút sai lầm vì một hypercube chứa vô số điểm. Hãy nói về âm lượng thay thế.

Thể tích của một hypercube là sản phẩm có độ dài cạnh của nó. Đối với đơn vị hypercube 50 chiều chúng tôi nhận

Total volume=1×1××150 times=150=1.

Bây giờ chúng ta hãy loại trừ ranh giới của hypercube và nhìn vào ' bên trong ' (tôi đặt điều này trong dấu ngoặc kép vì thuật ngữ bên trong thuật ngữ có một ý nghĩa rất khác). Chúng tôi chỉ giữ các điểm x=(x1,x2,,x50) thỏa mãn

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
Khối lượng của 'nội thất' này là gì? Chà, 'nội thất' lại là một hypercube và chiều dài của mỗi bên là0.9 (=0.950.05 ... nó giúp tưởng tượng điều này trong hai và ba chiều). Vì vậy, khối lượng là
Interior volume=0.9×0.9××0.950 times=0.9500.005.
Kết luận rằng âm lượng của 'ranh giới' (được định nghĩa là hypercube đơn vị không có 'nội thất ') là 10.9500.995.

Điều này cho thấy 99.5% thể tích của một hypercube 50 chiều tập trung vào ' ranh giới ' của nó.


Theo dõi: ignatius đưa ra một câu hỏi thú vị về cách điều này được kết nối với xác suất. Đây là một ví dụ.

Giả sử bạn đã đưa ra mô hình (học máy) dự đoán giá nhà đất dựa trên 50 thông số đầu vào. Tất cả 50 tham số đầu vào là độc lậpphân bố đồng đều giữa 01 .

Hãy để chúng tôi nói rằng mô hình của bạn hoạt động rất tốt nếu không có tham số đầu vào nào là cực trị: Miễn là mọi tham số đầu vào nằm trong khoảng 0.05 đến 0.95 , mô hình của bạn dự đoán giá nhà ở gần như hoàn hảo. Nhưng nếu một hoặc nhiều tham số đầu vào là cực trị (nhỏ hơn 0.05 hoặc lớn hơn 0.95 ), thì các dự đoán về mô hình của bạn là hoàn toàn khủng khiếp.

Bất kỳ tham số đầu vào nào là cực kỳ với xác suất chỉ 10% . Vì vậy, rõ ràng đây là một mô hình tốt, phải không? Không! Xác suất mà ít nhất một trong những 50 thông số là cực đoan10.9500.995. Vì vậy, trong 99.5% trường hợp, dự đoán mô hình của bạn là khủng khiếp.

Quy tắc của ngón tay cái: Trong các kích thước cao, các quan sát cực đoan là quy tắc và không phải là ngoại lệ.


7
Giá trị sử dụng trích dẫn của OP "Điều đó có nghĩa là phần còn lại của không gian trống?" và trả lời: Không, nó có nghĩa là phần còn lại của không gian tương đối nhỏ . . . Hoặc tương tự trong lời nói của bạn. . .
Neil Slater

2
Giải thích thực sự hay về thuật ngữ "lời nguyền của chiều"
ignatius 19/12/18

Tự hỏi liệu điều sau đây có đúng không: lấy ví dụ này, nếu một tập hợp các tính năng được phân bổ đều dọc theo [0,1] trong mỗi 50 chiều, (99,5% -0,5%) = 99% âm lượng (tính năng hypercube không gian) chỉ ghi lại 10% giá trị của mỗi tính năng
ignatius 19/12/18

"Bất kỳ tham số đầu vào nào là cực kỳ với xác suất chỉ 5%." Tôi nghĩ xác suất này là 10%.
Rodvi

@Rodvi: Tất nhiên là bạn đúng, cảm ơn! Đã sửa nó.
Elias Stroundle

8

Bạn có thể thấy mô hình rõ ràng ngay cả trong kích thước thấp hơn.

Chiều thứ 1. Lấy một dòng có chiều dài 10 và một ranh giới là 1. Độ dài của ranh giới là 2 và tỷ lệ 8, 1: 4 bên trong.

Chiều thứ 2. Lấy một hình vuông cạnh 10 và ranh giới 1 một lần nữa. Diện tích của ranh giới là 36, tỷ lệ bên trong 64, 9:16.

Chiều thứ 3. Cùng chiều dài và ranh giới. Thể tích của ranh giới là 488, bên trong là 512, 61:64 - đã là ranh giới chiếm gần như nhiều không gian bên trong.

Chiều thứ 4, bây giờ ranh giới là 5904 và bên trong 4096 - ranh giới bây giờ lớn hơn.

Ngay cả đối với chiều dài ranh giới nhỏ hơn và nhỏ hơn, vì kích thước tăng thể tích biên sẽ luôn vượt qua bên trong.


0

Cách tốt nhất để "hiểu" nó (mặc dù IMHO là không thể đối với con người) là so sánh thể tích của một quả bóng n chiều và khối lập phương n chiều. Với sự tăng trưởng của n (chiều), tất cả thể tích của quả bóng "rò rỉ ra" và tập trung ở các góc của khối lập phương. Đây là một nguyên tắc chung hữu ích cần nhớ trong lý thuyết mã hóa và các ứng dụng của nó.

Giải thích về sách giáo khoa tốt nhất về nó là trong cuốn sách "Lý thuyết mã hóa và thông tin" của Richard W. Hamming (3.6 Phương pháp hình học, trang 44).

Các bài viết ngắn trong Wikipedia sẽ cung cấp cho bạn một bản tóm tắt ngắn gọn về các tương tự nếu bạn ghi nhớ rằng khối lượng của một đơn vị khối n-chiều luôn là 1 ^ n.

Tôi mong nó sẽ có ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.