Phân cụm trên đầu ra của t-SNE


78

Tôi đã có một ứng dụng trong đó rất tiện để phân cụm một tập dữ liệu ồn ào trước khi tìm kiếm các hiệu ứng nhóm phụ trong các cụm. Lần đầu tiên tôi nhìn vào PCA, nhưng phải mất ~ 30 thành phần để có được 90% khả năng thay đổi, do đó, việc phân cụm chỉ trong một vài PC sẽ làm mất rất nhiều thông tin.

Sau đó, tôi đã thử t-SNE (lần đầu tiên), nó mang lại cho tôi một hình dạng kỳ lạ ở hai chiều rất phù hợp để phân cụm thông qua phương tiện k. Hơn nữa, chạy một rừng ngẫu nhiên trên dữ liệu với phân công cụm vì kết quả cho thấy các cụm có một cách giải thích khá hợp lý với bối cảnh của vấn đề, về các biến tạo nên dữ liệu thô.

Nhưng nếu tôi sẽ báo cáo về các cụm này, làm thế nào để tôi mô tả chúng? K-nghĩa là các cụm trên các thành phần chính tiết lộ các cá nhân ở gần nhau về các biến xuất phát bao gồm X% của phương sai trong tập dữ liệu. Những tuyên bố tương đương có thể được thực hiện về các cụm t-SNE?

Có lẽ một cái gì đó để ảnh hưởng của:

t-SNE cho thấy sự tiếp giáp gần đúng trong một đa tạp chiều cao cơ bản, do đó, các cụm trên biểu diễn chiều thấp của không gian chiều cao tối đa hóa "khả năng" các cá thể tiếp giáp sẽ không nằm trong cùng một cụm

Bất cứ ai có thể đề xuất một blurb tốt hơn đó?


1
Tôi đã nghĩ rằng mẹo là mô tả các cụm dựa trên các biến ban đầu, thay vì các biến trong không gian giảm.
Tim

1
Đúng, nhưng không có một mô tả ngắn gọn, trực quan về mục tiêu mà thuật toán gán cụm giảm thiểu, tôi có thể sẵn sàng trả phí khi chọn một thuật toán phân cụm tạo điều kiện cho kết quả mà tôi muốn.
generic_user

1
Đối với một số cảnh báo và hình ảnh đẹp trên t-SNE cũng có một cái nhìn tại distill.pub/2016/misread-tsne
Tom Wenseleers 19/03/18

Câu trả lời:


96

Vấn đề với t-SNE là nó không bảo toàn khoảng cách cũng như mật độ. Nó chỉ ở một mức độ nào đó bảo tồn hàng xóm gần nhất. Sự khác biệt là tinh tế, nhưng ảnh hưởng đến bất kỳ thuật toán dựa trên mật độ hoặc khoảng cách.

Để thấy hiệu ứng này, chỉ cần tạo một phân phối Gaussian đa biến. Nếu bạn hình dung điều này, bạn sẽ có một quả bóng dày đặc và ít đậm đặc hơn bên ngoài, với một số ngoại lệ có thể thực sự rất xa.

Bây giờ hãy chạy t-SNE trên dữ liệu này. Bạn thường sẽ có được một vòng tròn có mật độ khá đồng đều. Nếu bạn sử dụng một sự bối rối thấp, nó thậm chí có thể có một số mẫu kỳ lạ trong đó. Nhưng bạn không thể thực sự phân biệt các ngoại lệ nữa.

Bây giờ hãy làm cho mọi thứ phức tạp hơn. Hãy sử dụng 250 điểm trong phân phối bình thường tại (-2,0) và 750 điểm trong phân phối bình thường tại (+2,0).

Dữ liệu đầu vào

Đây được coi là một tập dữ liệu dễ dàng, ví dụ với EM:

Phân cụm EM

Nếu chúng ta chạy t-SNE với độ nhiễu mặc định là 40, chúng ta sẽ có một mẫu có hình dạng kỳ lạ:

t-SNE p = 40

Không tệ, nhưng cũng không dễ để phân cụm, phải không? Bạn sẽ có một thời gian khó khăn để tìm một thuật toán phân cụm hoạt động ở đây chính xác như mong muốn. Và ngay cả khi bạn yêu cầu con người phân cụm dữ liệu này, rất có thể họ sẽ tìm thấy nhiều hơn 2 cụm ở đây.

Nếu chúng tôi chạy t-SNE với độ lúng túng quá nhỏ như 20, chúng tôi sẽ nhận được nhiều hơn những mẫu không tồn tại:

t-SNE p = 20

Điều này sẽ co cụm, ví dụ với DBSCAN, nhưng nó sẽ mang lại bốn cụm. Vì vậy, hãy cẩn thận, t-SNE có thể tạo ra các mẫu "giả"!

Sự bối rối tối ưu dường như ở đâu đó khoảng 80 cho tập dữ liệu này; nhưng tôi không nghĩ rằng tham số này sẽ hoạt động cho mọi tập dữ liệu khác.

t-SNE p = 80

Bây giờ điều này là trực quan dễ chịu, nhưng không tốt hơn để phân tích . Một chú thích con người có thể có khả năng chọn một vết cắt và nhận được một kết quả tốt; k-mean tuy nhiên sẽ thất bại ngay cả trong kịch bản rất rất dễ dàng này ! Bạn có thể thấy rằng thông tin mật độ bị mất , tất cả dữ liệu dường như sống trong khu vực có mật độ gần như nhau. Thay vào đó, nếu chúng ta tăng thêm sự bối rối, tính đồng nhất sẽ tăng lên và sự phân tách sẽ giảm trở lại.

Để kết luận, hãy sử dụng t-SNE để trực quan hóa (và thử các tham số khác nhau để có được thứ gì đó trực quan dễ chịu!), Nhưng không chạy phân cụm sau đó , đặc biệt không sử dụng thuật toán dựa trên khoảng cách hoặc mật độ, vì thông tin này là cố ý (!) mất đi. Các cách tiếp cận dựa trên biểu đồ lân cận có thể tốt, nhưng trước tiên bạn không cần chạy t-SNE trước, chỉ cần sử dụng hàng xóm ngay lập tức (vì t-SNE cố gắng giữ nguyên biểu đồ nn này).

Thêm ví dụ

Những ví dụ này đã được chuẩn bị cho việc trình bày bài báo (nhưng chưa thể tìm thấy trong bài báo, như tôi đã làm thí nghiệm này sau)

Erich Schubert và Michael Gertz.
Sự xâm nhập của hàng xóm t-Stochastic nhúng để hình dung và phát hiện ngoại lệ - Một biện pháp chống lại lời nguyền của chiều không?
Trong: Thủ tục tố tụng của Hội nghị quốc tế lần thứ 10 về Tìm kiếm và Ứng dụng Tương tự (SISAP), Munich, Đức. 2017

Đầu tiên, chúng tôi có dữ liệu đầu vào này:

Cá

Như bạn có thể đoán, điều này được bắt nguồn từ một hình ảnh "tô màu tôi" cho trẻ em.

Nếu chúng tôi chạy nó thông qua SNE ( KHÔNG phải t-SNE , mà là người tiền nhiệm):

Cá SNE

Wow, cá của chúng tôi đã trở thành một con quái vật biển! Bởi vì kích thước hạt nhân được chọn cục bộ, chúng tôi mất nhiều thông tin mật độ.

Nhưng bạn sẽ thực sự ngạc nhiên bởi đầu ra của t-SNE:

cá t-SNE

Tôi thực sự đã thử hai triển khai (ELKI và triển khai sklearn) và cả hai đều tạo ra kết quả như vậy. Một số đoạn bị ngắt kết nối, nhưng mỗi đoạn trông có vẻ phù hợp với dữ liệu gốc.

Hai điểm quan trọng để giải thích điều này:

  1. SGD dựa vào một quy trình sàng lọc lặp lại, và có thể bị mắc kẹt trong tối ưu cục bộ. Đặc biệt, điều này làm cho thuật toán khó có thể "lật" một phần dữ liệu mà nó đã nhân đôi, vì điều này sẽ yêu cầu các điểm di chuyển qua các phần khác được cho là tách biệt. Vì vậy, nếu một số bộ phận của cá được nhân đôi và các bộ phận khác không được nhân đôi, nó có thể không thể khắc phục điều này.

  2. t-SNE sử dụng phân phối t trong không gian chiếu. Trái ngược với phân phối Gaussian được sử dụng bởi SNE thông thường, điều này có nghĩa là hầu hết các điểm sẽ đẩy nhau , bởi vì chúng có 0 ái lực trong miền đầu vào (Gaussian nhanh chóng bằng 0), nhưng> 0 ái lực trong miền đầu ra. Đôi khi (như trong MNIST) điều này làm cho trực quan đẹp hơn. Cụ thể, nó có thể giúp "phân tách" dữ liệu được đặt nhiều hơn một chút so với trong miền đầu vào. Sự đẩy lùi bổ sung này cũng thường khiến các điểm sử dụng đồng đều hơn khu vực, điều này cũng có thể được mong muốn. Nhưng ở đây trong ví dụ này, các hiệu ứng đẩy lùi thực sự khiến các mảnh cá bị tách ra.

Chúng tôi có thể giúp (trên bộ dữ liệu đồ chơi này ) vấn đề đầu tiên bằng cách sử dụng tọa độ ban đầu làm vị trí ban đầu, thay vì tọa độ ngẫu nhiên (như thường được sử dụng với t-SNE). Lần này, hình ảnh là sklearn thay vì ELKI, vì phiên bản sklearn đã có một tham số để truyền tọa độ ban đầu:

Cá, t-SNE, với tọa độ ban đầu là khởi tạo

Như bạn có thể thấy, ngay cả với vị trí ban đầu "hoàn hảo", t-SNE sẽ "phá vỡ" cá ở một số nơi được kết nối ban đầu vì lực đẩy của Student-t trong miền đầu ra mạnh hơn ái lực Gaussian trong đầu vào không gian.

Như bạn có thể thấy, t-SNE (và SNE cũng vậy!) Là những kỹ thuật trực quan thú vị , nhưng chúng cần được xử lý cẩn thận. Tôi thà không áp dụng phương tiện k trên kết quả! bởi vì kết quả sẽ bị biến dạng nặng nề, và cả khoảng cách và mật độ đều không được bảo tồn tốt. Thay vào đó, thay vì sử dụng nó để trực quan hóa.


1
Cảm ơn câu trả lời. Tôi có thể tưởng tượng các phương pháp phân cụm thích ứng dựa trên vùng lân cận, nhưng có bất kỳ phương pháp phát triển tốt cụ thể nào mà bạn có thể đề xuất không?
generic_user

1
CHAMAELEON có lẽ được trích dẫn nhiều nhất, nhưng dường như chỉ có một nhị phân có sẵn cho bước cốt lõi. Ý tưởng nghe có vẻ hay, nhưng bạn sẽ nhanh chóng trải nghiệm những hiệu ứng tương tự mà t-SNE có thể nhìn thấy. Chẳng hạn như xu hướng "đổ xô" như đã thấy với p = 20, các vấn đề với hub và chống hub, v.v.
Erich Schubert

2
@AlexR: Perplexity được sử dụng để tính toán các điểm tương đồng trong không gian chiều cao mà t-sne sau đó đang cố gắng khớp trong 2D. Thay đổi sự bối rối có nghĩa là thay đổi sự tương đồng, vì vậy tôi không thấy việc so sánh các phân kỳ KL có thể có ý nghĩa như thế nào.
amip

1
@AlexR. "Chỉ xác suất có điều kiện của không gian chiều thấp hơn phụ thuộc vào sự bối rối" - tuyên bố này là sai. Perplexity được sử dụng để chọn sigmas cần thiết cho eq (1), vì vậy nó ảnh hưởng đến cond. probs. trong không gian đầy đủ
amip

1
Đối với một số cảnh báo và hình ảnh đẹp trên t-SNE cũng có một cái nhìn tại distill.pub/2016/misread-tsne
Tom Wenseleers 19/03/18

34

Tôi muốn cung cấp một ý kiến ​​không đồng tình với câu trả lời được tranh luận tốt (+1) và được đánh giá cao bởi @ErichSchubert. Erich không khuyến nghị phân cụm trên đầu ra t-SNE và hiển thị một số ví dụ về đồ chơi trong đó có thể gây hiểu nhầm. Thay vào đó, đề xuất của ông là áp dụng phân cụm cho dữ liệu gốc.

sử dụng t-SNE để trực quan hóa (và thử các tham số khác nhau để có được thứ gì đó trực quan dễ chịu!), nhưng không chạy phân cụm sau đó, đặc biệt không sử dụng thuật toán dựa trên khoảng cách hoặc mật độ, vì thông tin này đã bị mất (!).

Tôi nhận thức rõ về các cách thức mà đầu ra t-SNE có thể gây hiểu nhầm (xem https://distill.pub/2016/misread-tsne/ ) và tôi đồng ý rằng nó có thể tạo ra kết quả kỳ lạ trong một số tình huống.

Nhưng chúng ta hãy xem xét một số dữ liệu chiều cao thực sự.

Lấy dữ liệu MNIST : 70000 hình ảnh một chữ số. Chúng tôi biết rằng có 10 lớp trong dữ liệu. Các lớp này xuất hiện tách biệt với một người quan sát. Tuy nhiên, phân cụm dữ liệu MNIST thành 10 cụm là một vấn đề rất khó khăn. Tôi không biết bất kỳ thuật toán phân cụm nào sẽ phân cụm chính xác dữ liệu thành 10 cụm; quan trọng hơn, tôi không nhận thức được bất kỳ heuristic phân cụm nào sẽ chỉ ra rằng có 10 cụm (không nhiều hơn và không ít hơn) trong dữ liệu. Tôi chắc chắn rằng hầu hết các phương pháp phổ biến sẽ không thể chỉ ra điều đó.

Nhưng thay vào đó hãy làm t-SNE. (Người ta có thể tìm thấy nhiều số liệu của t-SNE được áp dụng cho MNIST trực tuyến, nhưng chúng thường không tối ưu. Theo kinh nghiệm của tôi, cần phải chạy phóng đại sớm trong một thời gian để có kết quả tốt. Dưới đây tôi đang sử dụng perplexity=50, max_iter=2000, early_exag_coeff=12, stop_lying_iter=1000). Đây là những gì tôi nhận được, ở bên trái không nhãn và bên phải được tô màu theo sự thật mặt đất:

T-SNE

Tôi sẽ lập luận rằng đại diện t-SNE không có nhãn không đề xuất 10 cụm. Áp dụng thuật toán phân cụm dựa trên mật độ tốt như HDBSCAN với các tham số được chọn cẩn thận sẽ cho phép phân cụm các dữ liệu 2D này thành 10 cụm.

Trong trường hợp ai đó sẽ nghi ngờ rằng cốt truyện bên trái ở trên thực sự gợi ý 10 cụm, đây là những gì tôi nhận được với thủ thuật "cường điệu muộn" trong đó tôi cũng chạy max_iter=200lặp lại với exaggeration=4(mẹo này được đề xuất trong bài báo tuyệt vời này: https://arxiv.org /abs/1712.09005 ):

MNIST t-SNE với cường điệu muộn

Bây giờ cần phải rất rõ ràng rằng có 10 cụm.

Tôi khuyến khích tất cả những người nghĩ rằng phân cụm sau t-SNE là một ý tưởng tồi để hiển thị thuật toán phân cụm sẽ đạt được kết quả tương đối tốt.

Và bây giờ thậm chí nhiều dữ liệu thực tế hơn.

Trong trường hợp MNIST chúng ta biết sự thật mặt đất. Xem xét bây giờ một số dữ liệu với sự thật mặt đất chưa biết. Phân cụm và t-SNE thường được sử dụng để mô tả sự biến đổi của tế bào trong dữ liệu RNA-seq của một tế bào. Ví dụ Shekhar et al. Năm 2016 đã cố gắng xác định các cụm trong số 27000 tế bào võng mạc (có khoảng 20k gen trong bộ gen của chuột nên về nguyên tắc của dữ liệu là khoảng 20k; tuy nhiên, người ta thường bắt đầu bằng việc giảm kích thước với PCA xuống còn 50 hoặc hơn). Họ thực hiện t-SNE và họ thực hiện phân cụm một cách riêng biệt (một đường ống phân cụm phức tạp theo sau là một số hợp nhất cụm, v.v.). Kết quả cuối cùng có vẻ hài lòng:

nhập mô tả hình ảnh ở đây

Lý do có vẻ rất dễ chịu là vì t-SNE tạo ra các cụm rõ ràng và thuật toán phân cụm mang lại chính xác các cụm tương tự. Đẹp.

Tuy nhiên, nếu bạn nhìn vào phần bổ sung, bạn sẽ thấy rằng các tác giả đã thử nhiều cách tiếp cận phân cụm khác nhau. Nhiều người trong số họ trông khủng khiếp trên cốt truyện t-SNE vì ví dụ: cụm trung tâm lớn bị chia thành nhiều cụm phụ:

nhập mô tả hình ảnh ở đây

Vậy bạn tin điều gì: đầu ra của thuật toán phân cụm yêu thích của bạn cùng với heuristic yêu thích của bạn để xác định số lượng cụm hoặc những gì bạn thấy trên biểu đồ t-SNE? Thành thật mà nói, mặc dù tất cả những thiếu sót của t-SNE, tôi có xu hướng tin tưởng vào t-SNE hơn. Hoặc trong mọi trường hợp, tôi không thấy lý do tại sao tôi nên tin ít hơn .


2
Và đối với ví dụ cuối cùng, đó không phải là điều mà về cơ bản @ErichSchubert đã quan sát ở trên: bạn có thể nhận được kết quả "vừa lòng" trực quan - điều đó rõ ràng là sai? Như với sự bối rối 20? Đó là tSNE thích tách các bộ phận (như trong cá) mà không tách rời? Vì vậy, bạn có biết các cụm bạn thấy thực sự là các cụm riêng biệt? Tôi không thích "hộp đen" này ở đó. Vâng, chúng ta có xu hướng tin những âm mưu như vậy nhiều hơn, nhưng nếu chúng sai thì sao?
Anony-Mousse

1
Vâng, tSNE là dựa trên NN. Một thỏa thuận với điều này sẽ được dự kiến. tSNE là một lựa chọn tốt để hình dung NN. Mặc dù vậy, nó không bảo tồn sự tương đồng tốt, vì vậy tôi phải giải thích cẩn thận. Một khoảng cách trong tSNE không ngụ ý một khoảng cách lớn.
Anony-Mousse

1
+1 Tò mò về cách UMAP hoạt động so với t-SNE.
Paul

1
@Paul: tác giả khẳng định tính ưu việt của UMAP, về mặt thời gian tính toán, đó là. Trên tập dữ liệu của MNIST, tôi thấy UMAP tạo ra sự nhúng tốt hơn t-SNE, nhưng không chắc chắn về các bộ dữ liệu khác. Theo như tôi biết, gần đây có một phiên bản CUDA của t-SNE, nhanh hơn nhiều so với t-SNE nhanh nhất trước đó, nhưng tôi không thể cài đặt và thử nghiệm.
SiXUlm

1
@SiXUlm github.com/KlugerLab/FIt-SNE hoạt động nhanh hơn nhiều so với Barnes-Hut t-SNE và thường nhanh hơn UMAP. Ngoài ra, trong nhiều trường hợp, người ta có thể đạt được sự nhúng tương tự với t-SNE bằng cách sử dụng một số điều chỉnh bổ sung, ví dụ như trên MNIST, t-SNE với cường điệu nhỏ mang lại kết quả gần giống như UMAP, xem ví dụ về máy tính xách tay Python trong kho lưu trữ FIt-SNE.
amip

6

Tôi nghĩ rằng với sự bối rối lớn t-SNE có thể tái cấu trúc cấu trúc liên kết toàn cầu, như được chỉ ra trong https://distill.pub/2016/misread-tsne/ .

Từ hình ảnh cá, tôi đã lấy mẫu 4000 điểm cho t-SNE. Với một sự bối rối lớn (2000), hình ảnh cá hầu như được tái tạo lại.

Đây là hình ảnh gốc. Ảnh gốc

Dưới đây là hình ảnh được dựng lại bởi t-SNE với độ bối rối = 2000. Hình ảnh được tái tạo t-SNE (perplexity = 2000)


8
Nếu bạn chọn những rắc rối cao như vậy, nó không thực sự là TNE nữa. Mỗi điểm là khoảng hàng xóm hàng ngày. Nó không còn là địa phương. Có, hình ảnh 2d sau đó có thể được tái tạo lại, bởi vì đó là hình ảnh 2d. Nhưng không làm tất cả mọi thứ là dễ dàng hơn.
Anony-Mousse

1
Ý kiến ​​của tôi là tSNE với sự bối rối lớn có thể tái cấu trúc cấu trúc liên kết toàn cầu. Hình ảnh 2d là một ví dụ bởi vì kích thước nội tại của nó là 2. Ứng dụng thực sự của tSNE nên chọn sự bối rối phù hợp theo mục đích để nắm bắt các đặc điểm địa phương hoặc toàn cầu.
đổi tên vào

1
Khó khăn cao này có nghĩa là bạn sử dụng một "hạt nhân" quá lớn, và thực sự chỉ cần sử dụng khoảng cách. Sau đó nó có khả năng thoái hóa thành một MDS gần đúng và rất đắt. Chỉ cần sử dụng MDS rồi. SNE / tSNE thực sự nên được sử dụng với những rắc rối nhỏ và các khu vực địa phương.
Erich Schubert

3
Chính xác. Khi độ lúng túng đủ lớn, tSNE thực sự gần đúng với MDS, điều này minh họa rằng tSNE cũng có thể nắm bắt cấu trúc toàn cầu. Do đó, các tuyên bố rằng tSNE chỉ có thể chụp các cấu trúc cục bộ là không chính xác. Khác với MDS, tSNE có thể cân bằng giữa các cấu trúc địa phương và toàn cầu thông qua việc lựa chọn sự bối rối. Rõ ràng, việc lựa chọn sự bối rối phụ thuộc vào dữ liệu.
đổi tên vào

Có bất kỳ quy tắc của ngón tay cái để lựa chọn bối rối hợp lý?
Catbuilts

5

Dựa trên bằng chứng toán học mà chúng tôi có, phương pháp này có thể bảo toàn khoảng cách về mặt kỹ thuật! Tại sao tất cả các bạn bỏ qua tính năng này! t -SNE đang chuyển đổi khoảng cách Euclide chiều cao giữa các mẫu thành xác suất có điều kiện thể hiện sự tương đồng. Tôi đã thử t -SNE với hơn 11.000 mẫu (trong bối cảnh genomics) song song với các thuật toán phân cụm đồng thuận khác nhau bao gồm phân cụm Spectral, ái lực và quan trọng là phân cụm GMM (là thuật toán phân cụm dựa trên mật độ!). Kết quả là, tôi thấy kết quả rất phù hợp giữa hai cách tiếp cận ( t-SNE so với thuật toán phân cụm đồng thuận). Tôi tin rằng việc tích hợp t-SNE với các thuật toán phân cụm đồng thuận có thể cung cấp bằng chứng tốt nhất về cấu trúc dữ liệu địa phương và toàn cầu hiện có.


Có thông số nào ảnh hưởng đến khả năng giữ khoảng cách của t-SNE không?
Keith Hughitt

Đó không phải là thuật toán phân cụm đồng thuận. Phân cụm đồng thuận là một kiểu học tập kết hợp, tổng hợp các kết quả của việc lặp lại thuật toán phân cụm với một số biến thể trong các tham số hoặc dữ liệu đầu vào, để có được kết quả phân cụm cuối cùng. Bạn có thể sử dụng các phương pháp phân cụm đồng thuận với phân cụm phổ hoặc GMM hoặc thực sự là bất kỳ thuật toán phân cụm nào, nhưng quan điểm của tôi trong thuật ngữ của bạn là một chút, đó là tất cả :)
Christopher John

1

Bạn có thể thử thuật toán phân cụm DBSCAN. Ngoài ra, sự bối rối của tsne nên có cùng kích thước với cụm dự kiến ​​nhỏ nhất.


0

Cá nhân tôi đã trải nghiệm điều này một lần, nhưng không phải với t-SNE hay PCA. Dữ liệu gốc của tôi là trong không gian 15 chiều. Sử dụng UMAP để giảm nó thành các nhúng 2D và 3D, tôi đã nhận được 2 cụm hoàn toàn tách biệt và trực quan trên cả hai lô 2D và 3D. Quá tốt là đúng Nhưng khi tôi "nhìn" vào dữ liệu ban đầu từ sơ đồ kiên trì, tôi nhận ra rằng có nhiều cụm "đáng kể" hơn, không chỉ 2.

Việc phân cụm trên đầu ra của kỹ thuật giảm kích thước phải được thực hiện rất thận trọng, nếu không, bất kỳ cách giải thích nào cũng có thể gây hiểu nhầm hoặc sai vì giảm kích thước chắc chắn sẽ dẫn đến mất tính năng (có thể là nhiễu hoặc các tính năng thực, nhưng chúng tôi không ' t biết cái nào). Theo tôi, bạn có thể tin tưởng / giải thích các cụm, nếu:

  • Các cụm trong dữ liệu được chiếu tương ứng / xác nhận với một số phân loại đã xác định một ưu tiên (nghĩ về bộ dữ liệu MNIST, trong đó các cụm dữ liệu được chiếu rất khớp với phân loại chữ số) và / hoặc,

  • Bạn có thể xác nhận sự hiện diện của các cụm này trong dữ liệu gốc bằng các phương pháp khác, như sơ đồ kiên trì. Chỉ đếm số lượng các thành phần được kết nối có thể được thực hiện trong một khoảng thời gian khá hợp lý.


Tại sao (bạn) tin tưởng "sơ đồ kiên trì" hơn UMAP? Tôi không nghĩ rằng việc nhìn vào biểu đồ bền bỉ có thể được mô tả là "nhìn vào dữ liệu gốc" ...
amip

Bạn nói đúng. Biểu đồ tính bền vững chỉ hiển thị một số đặc điểm của dữ liệu gốc, thường xuyên nhất là các thành phần được kết nối, lỗ 1 chiều và hiếm hơn nhiều, lỗ 2 chiều trở lên do tính toán đắt tiền. Vì vậy, tôi nên nói rằng tôi chỉ có thể "nhìn" một phần dữ liệu gốc bằng cách nhìn vào sơ đồ kiên trì tương ứng. Nhưng tôi có thể tin tưởng vào những gì tôi quan sát được từ sơ đồ kiên trì này bởi vì nó được xây dựng trực tiếp từ dữ liệu gốc.
SiXUlm

Ngược lại, bằng cách sử dụng UMAP hoặc bất kỳ kỹ thuật giảm kích thước nào khác, chúng tôi chỉ làm việc với phiên bản dự kiến ​​/ sửa đổi của dữ liệu gốc. Như câu trả lời được bình chọn nhiều nhất đã chỉ ra, việc phân cụm có thể khác nhau đối với các lựa chọn tham số khác nhau.
SiXUlm
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.