Phân cụm - Trực giác đằng sau Định lý bất khả thi của Kleinberg


17

Tôi đã suy nghĩ về việc viết một bài đăng trên blog về phân tích thú vị này của Kleinberg (2002) để khám phá những khó khăn của việc phân cụm. Kleinberg phác thảo ba desiderata dường như trực quan cho một chức năng phân cụm và sau đó chứng minh rằng không có chức năng như vậy tồn tại. Có nhiều thuật toán phân cụm làm bão hòa hai trong ba tiêu chí; tuy nhiên, không có chức năng nào có thể thỏa mãn cả ba cùng một lúc.

Ngắn gọn và không chính thức, ba desiderata mà ông phác thảo là:

  • Bất biến tỷ lệ : Nếu chúng ta biến đổi dữ liệu để mọi thứ được kéo dài bằng nhau theo mọi hướng, thì kết quả phân cụm không nên thay đổi.
  • Tính nhất quán : Nếu chúng tôi kéo dài dữ liệu để khoảng cách giữa các cụm tăng và / hoặc khoảng cách trong các cụm giảm, thì kết quả phân cụm không nên thay đổi.
  • Độ phong phú : Về mặt lý thuyết, chức năng phân cụm có thể tạo ra bất kỳ phân vùng / cụm dữ liệu tùy ý nào (trong trường hợp không biết khoảng cách cặp giữa hai điểm bất kỳ)

Câu hỏi:

(1) Có một trực giác tốt, hình ảnh hình học có thể cho thấy sự không nhất quán giữa ba tiêu chí này?

(2) Điều này đề cập đến các chi tiết kỹ thuật cho bài báo. Bạn sẽ phải đọc liên kết ở trên để hiểu phần này của câu hỏi.

Trong bài báo, việc chứng minh định lý 3.1 hơi khó để tôi theo dõi tại các điểm. Tôi bị mắc kẹt tại: "Gọi f là hàm phân cụm thỏa mãn tính nhất quán. Chúng tôi khẳng định rằng với bất kỳ phân vùng nào ΓRange(f) , tồn tại các số thực dương a<b sao cho cặp (a,b)Γ - buộc. "

Tôi không thấy làm thế nào điều này có thể xảy ra ... Không phải phân vùng bên dưới một ví dụ ngược lại trong đó a>b (tức là khoảng cách tối thiểu giữa các cụm lớn hơn khoảng cách tối đa trong các cụm)?

phản mẫu?

Chỉnh sửa: đây rõ ràng không phải là một ví dụ, tôi đã tự nhầm lẫn (xem câu trả lời).


Giấy tờ khác:


Liên quan đến "tính nhất quán": đặc tính này chỉ được mong muốn bằng trực giác khi các cụm đã được phân tách rõ ràng. Khi chúng không có, có một vấn đề về số lượng cụm trong dữ liệu - đối với phân tích, vì nó không được giám sát, đó là một câu hỏi. Sau đó, điều khá bình thường là khi bạn tăng dần khoảng cách giữa các cụm (do chúng được tạo bởi bạn), phân tích sẽ thay đổi các nhiệm vụ mà nó thực hiện trong quá trình phân cụm.
ttnphns

Liên quan đến "sự giàu có": Tôi xin lỗi tôi đã không hiểu ý nghĩa của nó (ít nhất là khi bạn đặt nó). Các thuật toán phân cụm có rất nhiều, làm thế nào bạn có thể mong đợi rằng tất cả chúng đều tuân theo một số yêu cầu ưa thích cụ thể?
ttnphns

Đối với hình ảnh của bạn: các phương pháp phân cụm đặc biệt là cần thiết để nhận ra một mẫu như vậy. Các phương pháp phân cụm truyền thống / nguyên bản xuất phát từ sinh học và xã hội học, trong đó các cụm là "hòn đảo" dày đặc hình cầu, không phải là đảo san hô. Các phương pháp này không thể yêu cầu đối phó với dữ liệu trên hình ảnh.
ttnphns

Bạn cũng có thể quan tâm đến: Estivill-Castro, Vladimir. "Tại sao rất nhiều thuật toán phân cụm: một vị trí giấy." Bản tin khám phá ACM SIGKDD 4.1 (2002): 65-75.
Anony-Mousse -Reinstate Monica

Tôi chưa đọc báo. Nhưng trong nhiều thuật toán phân cụm, bạn có một số ngưỡng khoảng cách (ví dụ DBSCAN, phân cụm theo phân cấp). Nếu bạn chia tỷ lệ khoảng cách, của couse, bạn cũng cần phải điều chỉnh ngưỡng của mình cho phù hợp. Vì vậy, tôi không đồng ý với yêu cầu bất biến quy mô của anh ấy. Tôi cũng không đồng ý với sự giàu có. Không phải mọi phân vùng phải là một giải pháp hợp lệ cho mọi thuật toán. Có hàng triệu phân vùng ngẫu nhiên.
Anony-Mousse -Reinstate Monica

Câu trả lời:


11

Bằng cách này hay cách khác, mọi thuật toán phân cụm đều dựa trên một số khái niệm về điểm gần kề điểm của điểm. Có vẻ như trực giác rõ ràng rằng bạn có thể sử dụng một khái niệm tương đối (bất biến tỷ lệ) hoặc một khái niệm tuyệt đối (nhất quán) về sự gần gũi, nhưng không phải cả hai .

Trước tiên tôi sẽ cố gắng minh họa điều này bằng một ví dụ, và sau đó tiếp tục nói cách trực giác này phù hợp với Định lý của Kleinberg.

Một ví dụ minh họa

Giả sử chúng ta có hai bộ S 2 của 270 điểm mỗi, sắp xếp trên mặt phẳng như thế này:S1S2270

hai bộ 270 điểm

Bạn có thể không thấy điểm trong một trong hai bức ảnh này, nhưng đó chỉ là do nhiều điểm rất gần nhau. Chúng tôi thấy nhiều điểm hơn khi chúng tôi phóng to:270

đặt 1 với thu phóng

Có lẽ bạn sẽ tự phát đồng ý rằng, trong cả hai tập dữ liệu, các điểm được sắp xếp thành ba cụm. Tuy nhiên, hóa ra nếu bạn phóng to bất kỳ cụm nào trong ba cụm , bạn sẽ thấy như sau:S2

đặt 2 với thu phóng

Nếu bạn tin vào một khái niệm tuyệt đối về sự gần gũi hoặc tính nhất quán, bạn vẫn sẽ duy trì điều đó, bất kể những gì bạn vừa thấy dưới kính hiển vi, chỉ gồm ba cụm. Thật vậy, sự khác biệt duy nhất giữa S 1S 2 là, trong mỗi cụm, một số điểm hiện đang ở gần nhau hơn. Mặt khác, nếu bạn tin vào một khái niệm tương đối về sự gần gũi hoặc bất biến quy mô, bạn sẽ cảm thấy có khuynh hướng cho rằng S 2 không chỉ gồm 3 mà là 3 × 3 = 9 cụm. Cả hai quan điểm này đều không đúng, nhưng bạn phải đưa ra lựa chọn theo cách này hay cách khác.S2S1S2S233×3=9

Một trường hợp cho bất biến isometry

Nếu bạn so sánh trực giác ở trên với Định lý của Kleinberg, bạn sẽ thấy rằng chúng hơi bất hòa. Thật vậy, Định lý của Kleinberg dường như nói rằng bạn có thể đạt được sự bất biến quy mô và tính nhất quán đồng thời miễn là bạn không quan tâm đến một tài sản thứ ba gọi là sự giàu có. Tuy nhiên, sự giàu có không phải là tài sản duy nhất bạn mất nếu bạn đồng thời nhấn mạnh vào tính bất biến và quy mô nhất quán. Bạn cũng mất một tài sản cơ bản khác: isometry-bất biến. Đây là một tài sản mà tôi sẽ không sẵn sàng hy sinh. Vì nó không xuất hiện trong bài báo của Kleinberg, tôi sẽ ở đó một lát.

k2Điều kiện dừng hoàn toàn sẽ đưa ra các câu trả lời khác nhau tùy theo việc bạn dán nhãn ba điểm của bạn là Câm mèo, chú chó, chú chuột, chú chuột, người hay chú chuột (c <d <m) hay là <S <T):

phân cụm {mèo, chó, chuột} so với {Tom, Spike, Jerry}

k(k) kk

SSS

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

Γddii(x)i(y)Γ(d)xyΓ(d)

SSS

một tập hợp các điểm trong mặt phẳng và hai phép quay của nó

Một biến thể của Định lý Kleinberg

Trực giác đưa ra ở trên được nắm bắt bởi biến thể sau của Định lý Kleinberg.

Định lý: Không có thuật toán phân cụm isometry-bất biến không đồng nhất mà là đồng nhất và bất biến tỷ lệ.

Ở đây, bằng một thuật toán phân cụm tầm thường , ý tôi là một trong hai thuật toán sau:

  1. S

  2. S

Yêu cầu là các thuật toán ngớ ngẩn này là hai thuật toán bất biến đẳng hình duy nhất vừa nhất quán vừa bất biến tỷ lệ.

SΓdSd(x,y)=1xySΓΓ(d)Γ(d)Γ(d)Γ(d)dS1dΓ(d)=Γ(d)ΓΓ(d)dS1Γ(d)=Γ(d)Γ

Tất nhiên, bằng chứng này rất gần với tinh thần của bằng chứng Margareta Ackerman về định lý ban đầu của Kleinberg, được thảo luận trong câu trả lời của Alex Williams.


7

Đây là trực giác tôi nghĩ ra (một đoạn trích từ bài đăng trên blog của tôi ở đây ).

nhập mô tả hình ảnh ở đây

d1d2d3d2d3d1d1d3d2d3


Bạn có nghĩa là dưới cùng bên trái cho d2? Một điều thú vị về sơ đồ của bạn là nó cho thấy tính nhất quán không phải là một tài sản thường được mong muốn (hoặc nó được xây dựng quá lỏng lẻo).
xan

Có dưới cùng bên trái, chỉnh sửa câu trả lời cho phù hợp. Cảm ơn!
Alex Williams

Trước khi tôi hoàn toàn hiểu câu trả lời của bạn, tôi đã đưa ra logic hóa ra là đối ngẫu của bạn: bắt đầu bằng một cụm trong đó tất cả các điểm nằm trong cùng một cụm. Chuyển đổi nó thành bất kỳ sự sắp xếp nào khác bằng cách thu nhỏ nó thành một phiên bản thu nhỏ của bất kỳ sự sắp xếp nào khác và nhân rộng nó thành một phiên bản kích thước đầy đủ của sự sắp xếp khác.
xan
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.