Khi nào thì gần nhất Neighbor Neighbor có ý nghĩa, hôm nay?

Năm 1999, Beyer và cộng sự. hỏi, khi nào "Hàng xóm gần nhất" có ý nghĩa?

Có cách nào tốt hơn để phân tích và hình dung ảnh hưởng của độ phẳng khoảng cách đối với tìm kiếm NN từ năm 1999 không?

Tập dữ liệu [đã cho] có cung cấp câu trả lời có ý nghĩa cho vấn đề 1-NN không? Vấn đề 10-NN? Vấn đề 100-NN?

Làm thế nào bạn sẽ các chuyên gia tiếp cận câu hỏi này ngày hôm nay?

Chỉnh sửa Thứ Hai ngày 24 tháng 1:

Làm thế nào về "khoảng cách khoảng cách" như một tên ngắn hơn cho "độ phẳng khoảng cách với kích thước tăng"?

Một cách dễ dàng để xem xét "khoảng cách trắng" là chạy 2-NN và vẽ khoảng cách đến hàng xóm gần nhất và hàng xóm gần thứ hai. Cốt truyện dưới đây cho thấy dist ₁ và dist ₂ cho một loạt các cụm và kích thước, bởi Monte Carlo. Ví dụ này cho thấy độ tương phản khoảng cách khá tốt cho sự khác biệt tuyệt đối được chia tỷ lệ | dist ₂ - dist ₁ |. (Sự khác biệt tương đối | dist ₂ / dist ₁ | → 1 là thứ nguyên →, vì vậy trở nên vô dụng.)

Việc sử dụng lỗi tuyệt đối hay lỗi tương đối nên được sử dụng trong một ngữ cảnh cụ thể tất nhiên phụ thuộc vào tiếng ồn "thực" hiện tại: khó khăn.

Gợi ý: luôn chạy 2-NN; 2 hàng xóm hữu ích khi họ thân thiết, và hữu ích khi không.

nhập mô tả hình ảnh ở đây

machine-learning k-nearest-neighbour

— từ chối
nguồn

Beyer và cộng sự. dường như đang giải quyết một chút khía cạnh khác nhau của vấn đề NN. Nhưng, đối với các mục đích phân loại (nhị phân), trong các điều kiện nhẹ, đó là kết quả cổ điển mà phân loại 1-NN, trong trường hợp xấu nhất , gấp đôi xác suất lỗi của phân loại Bayes (tức là tối ưu) không có triệu chứng. Nói cách khác, hàng xóm gần nhất đầu tiên chứa "ít nhất một nửa thông tin" về nhãn của mục tiêu là phân loại tốt nhất. Theo nghĩa này, 1-NN có vẻ khá phù hợp. (Xem Cover & Hart (1967) để biết thêm. Tôi ngạc nhiên khi Beyer và cộng sự không trích dẫn nó.)

— Đức hồng y

@cardinal, ràng buộc Cover-Hart dường như hoàn toàn không phụ thuộc vào kích thước, như bạn nói ở một khía cạnh khác?

— chối

vâng tôi tin điều này là đúng và phần lớn, quan điểm của tôi là đưa nó lên. 1-NN có vẻ khá phù hợp theo nghĩa đó, nghĩa là, thực tế là nó hoạt động tốt (về mặt lý thuyết) một cách thống nhất theo chiều không gian đặc trưng dường như giúp nó tự đứng vững, bất kể hành vi của gần nhất và hàng xóm xa nhất là trong một không gian chiều rộng. Nó khiến tôi tự hỏi liệu Beyer có nhận thức được tất cả kết quả (cổ điển) này không.

— Đức hồng y

@cardinal Đầu trang 24 trong Cover và Hart trông giống như một nơi mà một vấn đề có thể phát sinh trong chứng minh của họ, trong bước mà Cover và Hart lập luận rằng mọi RV x \ in X đều có thuộc tính mà mọi hình cầu mở về x đều có biện pháp khác không. Nếu chúng ta xem xét hình dạng của siêu cầu, chúng ta thấy rằng thể tích bên trong của siêu cầu co lại với kích thước tăng dần, do đó, trong giới hạn, bóng mở về x chỉ chứa x trong phần bên trong của nó. Ngoài ra, thông qua SLLN, iid RVs x trong không gian hệ mét X đều nằm trong bề mặt của siêu cầu với xác suất một.

— Bob Durrant

Xem thêm số liệu L1 hoặc L.5 để phân cụm .

— chối

Câu trả lời:

Tôi không có câu trả lời đầy đủ cho câu hỏi này, nhưng tôi có thể trả lời một phần về một số khía cạnh phân tích. Cảnh báo: Tôi đã làm việc với các vấn đề khác kể từ bài báo đầu tiên bên dưới, vì vậy rất có thể có những thứ hay ho khác ngoài đó tôi không biết.

Đầu tiên tôi nghĩ rằng đáng chú ý là mặc dù tiêu đề của bài báo "Khi nào là 'người hàng xóm gần nhất' có ý nghĩa", Beyer et al thực sự đã trả lời một câu hỏi khác, cụ thể là khi nào NN không có ý nghĩa. Chúng tôi đã chứng minh điều ngược lại với định lý của họ, theo một số giả định nhẹ khác về kích thước của mẫu, trong Khi 'Hàng xóm gần nhất' có ý nghĩa: Định lý ngược và Hàm ý. Tạp chí phức tạp, 25 (4), tháng 8 năm 2009, tr 385-397.và chỉ ra rằng có những tình huống khi (về lý thuyết) sự tập trung của khoảng cách sẽ không phát sinh (chúng tôi đưa ra ví dụ, nhưng về bản chất, số lượng các tính năng không gây nhiễu cần phải tăng theo chiều nên dĩ nhiên chúng hiếm khi phát sinh trong thực tế). Các tài liệu tham khảo 1 và 7 được trích dẫn trong bài báo của chúng tôi đưa ra một số ví dụ về những cách mà sự tập trung khoảng cách có thể được giảm thiểu trong thực tế.

Một bài báo của người giám sát của tôi, Ata Kaban, xem xét liệu các vấn đề tập trung khoảng cách này có tồn tại hay không mặc dù áp dụng các kỹ thuật giảm kích thước trong Nhận thức về tập trung khoảng cách của các kỹ thuật giảm dữ liệu nhất định. Nhận dạng mẫu. Tập 44, Số 2, Tháng 2 năm 2011, tr.265-277. . Có một số cuộc thảo luận tốt đẹp ở đó quá.

$k$

— Bob Durrant
nguồn

Cảm ơn Bob, +1. Một câu hỏi liên quan, bạn sẽ có một quy tắc ngón tay cái để chọn một giá trị của số liệu phân số q (hoặc tôi nên hỏi đó là một câu hỏi riêng biệt)?

— chối

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

Bạn cũng có thể quan tâm đến phân tích các thành phần lân cận của Goldberger et al.

Ở đây, một phép biến đổi tuyến tính được học để tối đa hóa các điểm được phân loại chính xác dự kiến thông qua lựa chọn vùng lân cận gần nhất ngẫu nhiên.

Là một tác dụng phụ, số lượng hàng xóm (dự kiến) được xác định từ dữ liệu.

— bayerj
nguồn

Cảm ơn bayer. Có vẻ như "học số liệu từ xa" đang bùng nổ - scholar.goo có 50 đầu sách kể từ năm 2008, nhưng là giấy bùng nổ, hay sử dụng thực sự? Chú thích, mã cho nca nói "lặp lại ... ít nhất 100000 cho kết quả tốt". Chú thích 2, hầu hết các công việc về học tập từ xa dường như mô hình hóa khoảng cách Mahalanobis; Bạn có biết các mô hình khoảng cách khác?

— chối

Tôi có những trải nghiệm khác nhau với NCA - nó thường hội tụ khá khó khăn với tôi. Kiểm tra "giảm kích thước thông qua việc học lập bản đồ bất biến" của LeCun và "Băm tổn thất tối thiểu cho mã nhị phân nhỏ gọn" của Norouzi.

— bayerj