Phân cụm giám sát hay phân loại?


22

Câu hỏi thứ hai là tôi đã tìm thấy trong một cuộc thảo luận ở đâu đó trên web nói về "phân cụm có giám sát", theo như tôi biết, phân cụm không được giám sát, vậy ý ​​nghĩa chính xác của "phân cụm có giám sát" là gì? Sự khác biệt liên quan đến "phân loại" là gì?

Có nhiều liên kết nói về điều đó:

http://www.cs.uh.edu/docs/cosc/technical-reports/2005/05_10.pdf

http://books.nips.cc/ con / files / nips23 / NIPS2010_0427.pdf

http://engr.case.edu/ray_soumya/mlrg/supervised_clustering_finley_joachims_icml05.pdf

http://www.public.asu.edu/~kvanlehn/Stringent/PDF/05CICL_UP_DB_PWJ_KVL.pdf

http://www.machinelearning.org/proceedings/icml2007/ con / 3/66.pdf

http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf

http://jmlr.csail.mit.edu/ con/volume6/daume05a/daume05a.pdf

v.v ...


vui lòng cung cấp liên kết "thảo luận ở đâu đó trên web"
Atilla Ozgur


1
"Phân cụm" đồng nghĩa với "phân loại không giám sát", do đó, "phân cụm có giám sát" là một oxymoron. Người ta có thể lập luận rằng Bản đồ tự tổ chức là một kỹ thuật được giám sát được sử dụng để phân loại không giám sát, đây sẽ là điều gần gũi nhất với "phân cụm có giám sát".
Digio

Theo như tôi đã hiểu là "Chúng tôi sử dụng phân cụm để sắp xếp dữ liệu để sẵn sàng xử lý thêm hoặc ít nhất là để sẵn sàng phân tích thêm", vì vậy, những gì chúng tôi làm trong phân cụm là chia dữ liệu thành Lớp A, B, C và vân vân ... Vì vậy, bây giờ dữ liệu này được giám sát theo một cách nào đó. Bây giờ nó phụ thuộc vào yêu cầu bạn muốn làm gì với dữ liệu này hoặc làm thế nào dữ liệu này có thể hữu ích cho bạn cho dù là hoạt động Phân loại hay Hồi quy. Đúng nếu tôi đã sai lầm.
sak

Câu trả lời:


2

Sự hiểu biết ngây thơ của tôi là phân loại được thực hiện khi bạn có một tập hợp các lớp được chỉ định và bạn muốn phân loại một thứ / tập dữ liệu mới vào một trong những lớp được chỉ định đó.

Ngoài ra, phân cụm không có gì để bắt đầu và bạn sử dụng tất cả dữ liệu (bao gồm cả dữ liệu mới) để phân tách thành các cụm.

Cả hai đều sử dụng số liệu khoảng cách để quyết định cách phân cụm / phân loại. Sự khác biệt là phân loại dựa trên một tập hợp các lớp được xác định trước đó trong khi phân cụm quyết định các cụm dựa trên toàn bộ dữ liệu.

Một lần nữa, sự hiểu biết ngây thơ của tôi là phân cụm được giám sát vẫn phân cụm dựa trên toàn bộ dữ liệu và do đó sẽ phân cụm thay vì phân loại.

Trong thực tế, tôi chắc chắn rằng lý thuyết đằng sau cả phân cụm và phân loại là đan xen.


Tôi khiêm tốn không đồng ý. Bạn đang đề xuất rằng "phân loại" theo định nghĩa và theo mặc định là một quy trình được giám sát, điều này không đúng. Phân loại được chia thành các trường hợp được giám sát và không giám sát, trường hợp sau được đồng nghĩa với phân cụm.
Digio

15

Tôi không nghĩ rằng tôi biết nhiều hơn bạn, nhưng các liên kết bạn đăng lên gợi ý câu trả lời. Tôi sẽ lấy http://www.cs.cornell.edu/~tomf/publications/supervised_kmeans-08.pdf làm ví dụ. Về cơ bản họ nêu: 1) phân cụm phụ thuộc vào khoảng cách. 2) sử dụng thành công phương tiện k đòi hỏi một khoảng cách được lựa chọn cẩn thận. 3) Đưa ra dữ liệu huấn luyện dưới dạng tập hợp các mục với phân vùng mong muốn của chúng, chúng tôi cung cấp phương pháp SVM cấu trúc để tìm hiểu một thước đo khoảng cách để phương tiện k tạo ra các cụm mong muốn.Trong trường hợp này, có một giai đoạn được giám sát để phân cụm, với cả dữ liệu đào tạo và học tập. Mục đích của giai đoạn này là tìm hiểu một hàm khoảng cách để áp dụng phân cụm k-mean với khoảng cách này sẽ hy vọng tối ưu, tùy thuộc vào mức độ dữ liệu đào tạo giống với miền ứng dụng. Tất cả các cảnh báo thông thường phù hợp với máy học và phân cụm vẫn được áp dụng.

Trích dẫn thêm từ bài viết: Phân cụm giám sát là nhiệm vụ tự động điều chỉnh thuật toán phân cụm với sự trợ giúp của một bộ huấn luyện bao gồm các bộ vật phẩm và phân vùng hoàn chỉnh của các bộ vật phẩm này. . Đó có vẻ là một định nghĩa hợp lý.


Vấn đề chỉ đơn giản là: tại sao bạn muốn học một thước đo khoảng cách từ một tập hợp dữ liệu huấn luyện được dán nhãn, và sau đó áp dụng thước đo khoảng cách này với một phương pháp phân cụm; tại sao bạn không chỉ sử dụng một phương pháp được giám sát. Nói cách khác, bạn muốn thực hiện phân cụm (tức là phân vùng tập dữ liệu của bạn thành các cụm), nhưng bạn cho rằng bạn đã có phân vùng mong muốn hoàn chỉnh và bạn sẽ sử dụng nó để tìm hiểu một thước đo khoảng cách, sau đó áp dụng phân cụm trên tập dữ liệu này bằng cách sử dụng khoảng cách. Tốt nhất, bạn sẽ có được các phân vùng giống như bạn đã sử dụng để tìm hiểu thước đo khoảng cách! Bạn đã có
SHN

Nơi bạn viết "sau đó áp dụng phân cụm trên cơ sở dữ liệu này" thay thế ", sau đó áp dụng phân cụm trên các bộ dữ liệu tương tự". Đây là kịch bản: trong thí nghiệm X, chúng tôi có dữ liệu A và B. A là để phân cụm, B giúp tìm hiểu khoảng cách. B đặt ra một tiêu chuẩn vàng và có lẽ là đắt tiền để có được. Trong các thí nghiệm tiếp theo X2, X3 .. chúng tôi thu được A nhưng không đủ khả năng để có được B.
micans

Ok, bây giờ khi bạn nói "học một khoảng cách" từ tập dữ liệu B: bạn có nghĩa là "học một số giá trị ngưỡng khoảng cách" hay "học một hàm số liệu khoảng cách" (một loại thước đo độ khác nhau được tham số hóa)?
shn

1
Ý tôi là thứ hai, "học một hàm số liệu khoảng cách". Bằng cách đọc nhiều hơn, công thức A và B đơn giản của tôi ở trên có thể được tìm thấy trong bản thảo được trích dẫn: "Đưa ra các ví dụ huấn luyện về các bộ vật phẩm với các cụm chính xác của chúng, mục tiêu là tìm hiểu một thước đo tương tự để các nhóm vật phẩm trong tương lai được phân cụm theo cách tương tự. "
micans

1
Chà, có vẻ như sau đó "phân cụm có giám sát" rất giống với cái được gọi là "phân cụm bán giám sát". Cho đến bây giờ, tôi không thực sự thấy bất kỳ sự khác biệt. Nhân tiện, trong một số bài báo khác, "phân cụm được giám sát (bán)" không đề cập đến "tạo một hàm khoảng cách đã sửa đổi" được sử dụng để phân cụm các bộ dữ liệu trong tương lai theo cách tương tự; nó đúng hơn là "tự sửa đổi thuật toán phân cụm" mà không thay đổi hàm khoảng cách!
SHN

3

Một số định nghĩa:

Phân cụm giám sát được áp dụng trên các ví dụ được phân loại với mục tiêu xác định các cụm có mật độ xác suất cao cho một lớp.

Phân cụm không giám sát là một khung học tập sử dụng các hàm đối tượng cụ thể, ví dụ như một hàm thu nhỏ khoảng cách bên trong một cụm để giữ cho cụm chặt chẽ.

Phân cụm bán giám sát là để tăng cường thuật toán phân cụm bằng cách sử dụng thông tin bên trong quá trình phân cụm.

Những tiến bộ trong Mạng lưới thần kinh - ISNN 2010

Không sử dụng quá nhiều biệt ngữ vì tôi là người mới trong lĩnh vực này, cách tôi hiểu phân cụm được giám sát sẽ ít giống như thế này:

Trong phân cụm có giám sát, bạn bắt đầu từ trên xuốngvới một số lớp được xác định trước và sau đó sử dụng cách tiếp cận từ dưới lên, bạn thấy đối tượng nào phù hợp hơn với các lớp của mình.

Ví dụ, bạn đã thực hiện một nghiên cứu về loại cam yêu thích trong dân số.
Từ nhiều loại cam bạn đã thấy rằng một loại 'cam' đặc biệt là loại cam được ưa thích.
Tuy nhiên, loại cam đó rất tinh tế và dễ bị nhiễm trùng, biến đổi khí hậu và các tác nhân môi trường khác.
Vì vậy, bạn muốn vượt qua nó với các loài khác có khả năng chống lại những lời lăng mạ đó.
Sau đó, bạn đi đến phòng thí nghiệm và tìm thấy một số gen chịu trách nhiệm cho hương vị ngọt ngào và ngọt ngào của một loại, và cho khả năng kháng thuốc của loại khác.
Bạn thực hiện một số thí nghiệm và bạn kết thúc bằng giả sử hàng trăm loại cam khác nhau.
Bây giờ bạn chỉ quan tâm đến các kiểu con phù hợp hoàn hảo với các thuộc tính được mô tả.
Bạn không muốn thực hiện nghiên cứu tương tự trong dân số của mình một lần nữa ...
Bạn biết các tính chất bạn đang tìm kiếm trong màu cam hoàn hảo của bạn.
Vì vậy, bạn chạy phân tích cụm của bạn và chọn những người phù hợp nhất với mong đợi của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.