hoặc


14

Có ai sử dụng số liệu hoặc L .5 để phân cụm, thay vì L 2 không? Aggarwal và cộng sự, về hành vi đáng ngạc nhiên của các số liệu khoảng cách trong không gian chiều cao cho biết (năm 2001) rằngL1L.5L2

luôn được ưu tiên hơn so với chỉ số khoảng cách Euclide L 2 cho các ứng dụng khai thác dữ liệu chiều caoL1L2

và tuyên bố rằng hoặc L .1 có thể tốt hơn.L.5L.1

Lý do sử dụng hoặc có thể là lý thuyết hoặc thử nghiệm, ví dụ: độ nhạy cảm với các giấy tờ ngoại lệ / Kabán hoặc các chương trình chạy trên dữ liệu thực hoặc tổng hợp (vui lòng sao chép lại). Một ví dụ hoặc một bức tranh sẽ giúp trực giác của giáo dân tôi.L .5L1L.5

Câu hỏi này là phần tiếp theo cho câu trả lời của Bob Durrant cho Khi nào là gần nhất-hàng xóm-có ý nghĩa-ngày nay . Như ông nói, sự lựa chọn của sẽ phụ thuộc cả dữ liệu và ứng dụng; Tuy nhiên, báo cáo kinh nghiệm thực tế sẽ hữu ích.p


Ghi chú được thêm vào thứ ba ngày 7 tháng 6:

Tôi tình cờ tìm thấy "Phân tích dữ liệu thống kê dựa trên định mức L1 và các phương pháp liên quan", Dodge ed., 2002, 454p, isbn 3764369205 - hàng tá tài liệu hội nghị.

Bất cứ ai cũng có thể phân tích sự tập trung khoảng cách cho các tính năng theo cấp số nhân? Một lý do cho số mũ là ; khác (không phải chuyên gia) là phân phối entropy tối đa 0; thứ ba là một số bộ dữ liệu thực, cụ thể là Sift, trông có vẻ gần như theo cấp số nhân.|expexp|exp


Điều quan trọng là phải đề cập rằng Aggarwal et al. trong bài viết cụ thể đó, nơi tìm kiếm hành vi của Lp chỉ tiêu trong các vấn đề như phân cụm, hàng xóm gần nhất và lập chỉ mục.
deps_stats

bạn có thể có nghĩa là số liệu cho các chuỗi chứ không phải L p cho các chức năng? Theo tôi, nếu có bất kỳ tiêu chí tối ưu hóa nào, vấn đề có thể được giải quyết tối ưu hóa nó. Quy tắc ngón tay cái thường sẽ liên quan đến giải pháp chính xác như vậy. Dù sao, hãy thử nghĩ về các thuộc tính của giải pháp knn được ưa thích. Sau khi tôi đọc các bài viết có lẽ có thể nói thêm về chủ đề này.lpLp
Dmitrij Celov

@deps_stats, vâng, cảm ơn; thay đổi tiêu đề và dòng đầu tiên. @Dmitrij, 1) vâng little-l nói đúng, nhưng big-L là phổ biến và dễ hiểu. 2) có, người ta có thể tìm thấy một p tối ưu cho một vấn đề nhất định, nhưng lựa chọn đầu tiên của bạn là gì và tại sao?
chối

Câu trả lời:


6

Chìa khóa ở đây là hiểu "lời nguyền của chiều" các tài liệu tham khảo. Từ wikipedia: khi số lượng kích thước rất lớn,

gần như toàn bộ không gian chiều cao nằm cách xa trung tâm, hay nói cách khác, không gian đơn vị chiều cao có thể nói là bao gồm gần như hoàn toàn các "góc" của hypercube, gần như không có "ở giữa"

Kết quả là, nó bắt đầu trở nên khó khăn để suy nghĩ về những điểm gần với những điểm khác, bởi vì tất cả chúng đều cách xa nhau ít nhiều. Đây là vấn đề trong bài báo đầu tiên bạn liên kết đến.

Vấn đề với p cao là nó nhấn mạnh các giá trị lớn hơn - năm bình phương và bốn bình phương cách nhau chín đơn vị, nhưng một bình phương và hai bình phương chỉ cách nhau ba đơn vị. Vì vậy, kích thước lớn hơn (những thứ trong các góc) chi phối mọi thứ và bạn mất đi độ tương phản. Vì vậy, lạm phát của khoảng cách lớn là những gì bạn muốn tránh. Với p phân số, sự nhấn mạnh là sự khác biệt trong các kích thước nhỏ hơn - kích thước thực sự có giá trị trung gian - mang lại cho bạn độ tương phản cao hơn.


(+1) Vậy @David, nói chung có tiêu chí nào mô tả chất lượng tương phản không?
Dmitrij Celov

Có vẻ như bài báo đầu tiên bạn liên kết gợi ý khoảng cách tối đa trừ khoảng cách tối thiểu. Có thể có những cách tốt hơn, mặc dù.
David J. Harris

trực giác rõ ràng tốt, +1 (mặc dù không rõ các góc nằm trong phân phối khoảng cách). Bạn đã sử dụng hoặc L .5 trên dữ liệu thực? L1L.5
chối

1
@Denis Cảm ơn! Tôi nghĩ rằng các bit góc có ý nghĩa nhất nếu dữ liệu được giới hạn ở mức tối đa hoặc tất cả các kích thước. Dù sao, tôi e rằng tôi không có đủ kinh nghiệm với việc phân cụm để có trực giác tốt về các số liệu khác nhau cho bạn. Thật khó chịu, cách tiếp cận tốt nhất có thể là thử một vài cái và xem điều gì sẽ xảy ra
David J. Harris

1

Có một bài báo sử dụng số liệu Lp với p trong khoảng từ 1 đến 5 mà bạn có thể muốn xem:

Amorim, RC và Mirkin, B., Số liệu Minkowski, Trọng số tính năng và Khởi tạo cụm bất thường trong Phân cụm K-Means, Nhận dạng mẫu, tập. 45 (3), trang 1061-1075, 2012

Tải xuống, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_ weighting_and_anomalous_cluster_initializing_in_K-Means_clustering / file / d912f115


0

Tôi không biết liệu bạn có phải là một vấn đề suy luận. Nếu vấn đề là suy ra một vectơ từ theo các ràng buộc nhất định (cần xác định một tập lồi đóng) khi một phỏng đoán trước cho biết u được đưa ra thì vectơ được suy ra bằng cách giảm thiểu 2 -trong khoảng từ u qua tập ràng buộc (nếu u trước không được đưa ra sau đó chỉ bằng cách giảm thiểu 2 -orm). Nguyên tắc trên được chứng minh là điều đúng đắn trong các trường hợp nhất định trong bài viết này http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1176348385 .Rnu2uu2


truyền thống và Csiszar nói , Aggarwal và một vài người khác L 1 hoặc L .5 hoặc ... Phải làm gì? Không có lý do vững chắc, tôi đoán nó phụ thuộc vào suy nghĩ của bạn / niềm tin trước đây của bạn. L2L1L.5
chối
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.