Sự khác biệt giữa phân loại và phân cụm trong khai thác dữ liệu? [đóng cửa]


195

Ai đó có thể giải thích sự khác biệt giữa phân loại và phân cụm trong khai thác dữ liệu?

Nếu bạn có thể, xin vui lòng cho ví dụ của cả hai để hiểu ý chính.

Câu trả lời:


242

Nói chung, trong phân loại, bạn có một tập hợp các lớp được xác định trước và muốn biết một đối tượng mới thuộc về lớp nào.

Phân cụm cố gắng nhóm một nhóm các đối tượng và tìm xem liệu có một số mối quan hệ giữa các đối tượng.

Trong bối cảnh học máy, phân loại là học có giám sát và phân cụm là học không giám sát .

Cũng có một cái nhìn về Phân loạiPhân cụm tại Wikipedia.


3
Cảm ơn đã trả lời. Vì vậy, như tôi hiểu. Trong phân loại tôi có các ví dụ và tôi tập hợp các ví dụ này vào một hoặc một lớp khác. Nhưng trong phân cụm tôi có các ví dụ nhưng không có các lớp để nhóm các ví dụ. Vì vậy, trong phân cụm dựa trên các ví dụ tôi cần tìm claces? Tôi có đúng hay có điều gì quan trọng cần ghi nhớ không? Và lời cầu xin bạn có thể đưa ra ví dụ? Trân trọng, Kristaps
Kristaps

4
@Kristaps: Tôi nghĩ bạn đã đúng cho đến nay. Nhưng bạn không nhất thiết phải tìm các lớp có phân cụm. Nhiều hơn là bạn muốn xem liệu một số bộ vật phẩm hình thành một loại mối quan hệ nào đó (bằng cách gần nhau hơn trong một số mô hình). Bạn thường không tìm thấy các lớp (nếu bạn nghĩ rằng bạn sử dụng phân cụm để tìm các lớp để phân loại). Đó không phải là tình huống. Thay vào đó, bạn có một bộ huấn luyện ngay từ đầu bao gồm các vật phẩm được dán nhãn (để bạn biết chúng thuộc về lớp nào). Sau đó, bạn huấn luyện một thuật toán phân loại để gán các mục cho đúng các lớp và bạn xác minh
Felix Kling

4
tính chính xác (mà bạn có thể làm, vì dữ liệu được dán nhãn). Một ví dụ hàng ngày về phân loại sẽ là lọc thư rác. Bộ lọc thư rác phải quyết định xem thư có phải là thư rác hay không. Bạn cũng có thể nói với bộ lọc nếu một thư bị phân loại sai. Để phân cụm, tôi không thực sự biết một ví dụ. Nhưng bạn có thể lấy ví dụ 1000 tin nhắn Twitter, cố gắng phân cụm và sau đó kiểm tra những gì (và nếu) liên quan đến các cụm.
Felix Kling

Tôi nghĩ cả Phân loạiPhân cụm đều là phương pháp Phân loại , đúng không?
WoooHaaaa

@MrROY Nếu theo Phân loại, bạn có nghĩa là: "sắp xếp (một nhóm người hoặc vật) trong các lớp hoặc danh mục theo các phẩm chất hoặc đặc điểm chung." , vậy thì được.
cắn

76

Vui lòng đọc các thông tin sau:

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây nhập mô tả hình ảnh ở đây


Phân cụm không yêu cầu phải biết số lượng các lớp.
D1X

5
@ D1X Đúng. Đó là những gì câu trả lời này nói .. (số lượng lớp chưa biết)
Sayali Sonawane

57

Nếu bạn đã hỏi câu hỏi này cho bất kỳ người khai thác dữ liệu hoặc người học máy nào, họ sẽ sử dụng thuật ngữ học có giám sát và học không giám sát để giải thích cho bạn sự khác biệt giữa phân cụm và phân loại. Vì vậy, hãy để tôi giải thích cho bạn về từ khóa được giám sát và không giám sát.

Học có giám sát: giả sử bạn có một giỏ và nó chứa đầy một số trái cây tươi và nhiệm vụ của bạn là sắp xếp các loại trái cây cùng loại ở một nơi. giả sử các loại trái cây là táo, chuối, anh đào và nho. Vì vậy, bạn đã biết từ công việc trước đây của bạn rằng, hình dạng của mỗi loại trái cây để dễ dàng sắp xếp cùng loại trái cây ở một nơi. ở đây công việc trước đây của bạn được gọi là dữ liệu được đào tạo về khai thác dữ liệu. vì vậy bạn đã học được những điều từ dữ liệu được đào tạo của mình

Loại dữ liệu này bạn sẽ nhận được từ dữ liệu được đào tạo. Loại hình học tập này được gọi là học tập có giám sát. Vấn đề giải quyết loại này thuộc Phân loại. Vì vậy, bạn đã học được những điều để bạn có thể làm việc một cách tự tin.

không giám sát: giả sử bạn có một giỏ và nó chứa đầy một số trái cây tươi và nhiệm vụ của bạn là sắp xếp các loại trái cây cùng loại ở một nơi.

Lần này bạn không biết gì về loại trái cây đó, lần đầu tiên bạn nhìn thấy những loại trái cây này, vậy bạn sẽ sắp xếp cùng loại trái cây như thế nào.

Những gì bạn sẽ làm đầu tiên là bạn lấy trái cây và bạn sẽ chọn bất kỳ đặc tính vật lý của loại trái cây cụ thể đó. giả sử bạn lấy màu

Sau đó, bạn sẽ sắp xếp chúng dựa trên màu sắc, sau đó các nhóm sẽ là một số thứ như thế này. NHÓM MÀU ĐỎ: táo & trái cây anh đào. NHÓM MÀU XANH: chuối & nho. Vì vậy, bây giờ bạn sẽ lấy một nhân vật vật lý khác làm kích thước, vì vậy bây giờ các nhóm sẽ là một cái gì đó như thế này. MÀU ĐỎ VÀ KÍCH THƯỚC LỚN: táo. MÀU ĐỎ VÀ KÍCH THƯỚC NHỎ: quả anh đào. MÀU XANH VÀ KÍCH THƯỚC LỚN: chuối. MÀU XANH VÀ KÍCH THƯỚC NHỎ : nho. công việc kết thúc có hậu.

Ở đây bạn không học được điều gì trước đây, có nghĩa là không có dữ liệu về tàu và không có biến phản hồi. Kiểu học này được biết là học không giám sát. phân cụm đến dưới học tập không giám sát.


18

+ Phân loại: bạn được cung cấp một số dữ liệu mới, bạn phải đặt nhãn mới cho chúng.

Ví dụ, một công ty muốn phân loại khách hàng tiềm năng của họ. Khi một khách hàng mới đến, họ phải xác định xem đây có phải là khách hàng sẽ mua sản phẩm của họ hay không.

+ Phân cụm: bạn được cung cấp một tập hợp các giao dịch lịch sử ghi lại ai đã mua những gì.

Bằng cách sử dụng các kỹ thuật phân cụm, bạn có thể cho biết phân khúc khách hàng của mình.


3
Tôi sẽ lập luận rằng "Khi một khách hàng mới đến, họ phải xác định xem đây có phải là khách hàng sẽ mua sản phẩm của họ hay không." là một ứng cử viên tốt hơn cho hồi quy logistic. Một ví dụ về phân loại sẽ là dự đoán liệu khách hàng sẽ mua mô hình "cao cấp", "tiêu chuẩn" hay "kinh tế". Ví dụ về hãng hàng không: huấn luyện viên, huấn luyện viên với nội trú sớm, huấn luyện viên có thêm phòng chân.
GDB

16

Tôi chắc chắn một số bạn đã nghe nói về học máy. Một tá bạn thậm chí có thể biết nó là gì. Và một vài bạn cũng có thể đã làm việc với các thuật toán học máy. Bạn thấy nơi này sẽ đi đâu? Không có nhiều người quen thuộc với công nghệ sẽ hoàn toàn cần thiết trong 5 năm kể từ bây giờ. Siri là máy học. Alexa của Amazon là máy học. Hệ thống đề xuất quảng cáo và mua sắm mặt hàng là máy học. Chúng ta hãy cố gắng học máy với một sự tương tự đơn giản của một cậu bé 2 tuổi. Để cho vui, hãy gọi anh ta là Kylo Ren

Nguồn: blog.printkeg.com

Giả sử Kylo Ren nhìn thấy một con voi. Bộ não của anh ta sẽ nói gì với anh ta? (Hãy nhớ rằng anh ta có năng lực tư duy tối thiểu, ngay cả khi anh ta là người kế thừa Vader). Não anh ta sẽ nói với anh ta rằng anh ta nhìn thấy một sinh vật chuyển động lớn có màu xám. Anh ta nhìn thấy một con mèo bên cạnh, và bộ não của anh ta nói với anh ta rằng đó là một sinh vật di chuyển nhỏ có màu vàng. Cuối cùng, anh ta nhìn thấy một thanh kiếm ánh sáng bên cạnh và bộ não của anh ta nói với anh ta rằng đó là một vật thể không sống mà anh ta có thể chơi với!

Bộ não của anh ta vào thời điểm này biết rằng thanh kiếm khác với con voi và con mèo, bởi vì thanh kiếm là thứ để chơi và không tự di chuyển. Bộ não của anh ta có thể tìm ra điều này rất nhiều ngay cả khi Kylo không biết di chuyển có nghĩa là gì. Hiện tượng đơn giản này được gọi là Clustering.

Nguồn: jeffcarpenterblog.tumblr.com

Máy học không là gì ngoài phiên bản toán học của quá trình này. Rất nhiều người nghiên cứu thống kê nhận ra rằng họ có thể làm cho một số phương trình hoạt động theo cách tương tự như bộ não hoạt động. Não có thể nhóm các đối tượng tương tự, não có thể học hỏi từ những sai lầm và não có thể học cách xác định sự vật.

Tất cả những điều này có thể được biểu diễn bằng số liệu thống kê và mô phỏng dựa trên máy tính của quá trình này được gọi là Machine Learning. Tại sao chúng ta cần mô phỏng dựa trên máy tính? bởi vì máy tính có thể làm toán nặng nhanh hơn não người. Tôi rất thích đi sâu vào phần toán học / thống kê của học máy nhưng bạn không muốn nhảy vào đó mà không xóa một số khái niệm trước.

Hãy quay lại với Kylo Ren. Hãy nói rằng Kylo nhặt thanh kiếm và bắt đầu chơi với nó. Anh ta vô tình đụng phải một người lính bão và người lính bão bị thương. Anh ta không hiểu chuyện gì đang xảy ra và tiếp tục chơi. Tiếp theo anh ta đánh một con mèo và con mèo bị thương. Lần này Kylo chắc chắn rằng anh ta đã làm điều gì đó tồi tệ, và cố gắng cẩn thận. Nhưng với kỹ năng kiếm thuật tồi của mình, anh ta đánh con voi và hoàn toàn chắc chắn rằng mình đang gặp rắc rối. Anh ta trở nên cực kỳ cẩn thận sau đó, và chỉ cố tình đánh cha mình như chúng ta đã thấy trong Force Awakens !!

Nguồn: joyreactor.com

Toàn bộ quá trình học hỏi từ sai lầm của bạn có thể được bắt chước với các phương trình, trong đó cảm giác làm điều gì đó sai được biểu thị bằng một lỗi hoặc chi phí. Quá trình xác định những gì không nên làm với một thanh kiếm được gọi là Phân loại. Phân cụm và phân loại là những điều cơ bản tuyệt đối của học máy. Hãy nhìn vào sự khác biệt giữa chúng.

Kylo phân biệt giữa động vật và kiếm ánh sáng vì não của anh ta quyết định rằng những kẻ phá hoại ánh sáng không thể tự di chuyển và do đó, là khác nhau. Quyết định chỉ dựa trên các đối tượng có mặt (dữ liệu) và không có trợ giúp hay lời khuyên nào được cung cấp. Trái ngược với điều này, Kylo phân biệt tầm quan trọng của việc cẩn thận với thanh kiếm ánh sáng bằng cách trước tiên quan sát những gì đánh vào một vật thể có thể làm. Quyết định không hoàn toàn dựa trên thanh kiếm, mà dựa trên những gì nó có thể làm với các đối tượng khác nhau. Trong ngắn hạn, đã có một số trợ giúp ở đây.

Nguồn: pintrest

Do sự khác biệt trong học tập này, Clustering được gọi là phương pháp học tập không giám sát và Phân loại được gọi là phương pháp học có giám sát. Chúng rất khác nhau trong thế giới máy học, và thường được quyết định bởi loại dữ liệu hiện tại. Có được dữ liệu được dán nhãn (hoặc những thứ giúp chúng ta tìm hiểu, như Stormtrooper, voi và mèo trong trường hợp của Kylo) thường không dễ dàng và trở nên rất phức tạp khi dữ liệu được phân biệt lớn. Mặt khác, học mà không có nhãn có thể có nhược điểm riêng, như không biết tiêu đề nhãn là gì. Nếu Kylo học cách cẩn thận với kẻ phá hoại mà không có bất kỳ ví dụ hay sự giúp đỡ nào, anh ta sẽ không biết nó sẽ làm gì. Anh ta sẽ chỉ biết rằng nó không phải là giả định được thực hiện. Đó là một sự tương tự khập khiễng nhưng bạn có được điểm!

Chúng tôi chỉ mới bắt đầu với Machine Learning. Phân loại chính nó có thể được phân loại số liên tục hoặc phân loại nhãn. Chẳng hạn, nếu Kylo phải phân loại chiều cao của mỗi cơn bão là gì, sẽ có rất nhiều câu trả lời vì độ cao có thể là 5.0, 5,01, 5.011, v.v. Nhưng một cách phân loại đơn giản như các loại kiếm ánh sáng (đỏ, xanh lam. sẽ có câu trả lời rất hạn chế. Nguyên vẹn họ có thể được đại diện với số đơn giản. Màu đỏ có thể là 0, màu xanh có thể là 1 và màu xanh lá cây có thể là 2.

Nếu bạn biết toán cơ bản, bạn biết rằng 0,1,2 và 5,1,5,01,5.011 khác nhau và được gọi là các số rời rạc và liên tục tương ứng. Việc phân loại các số rời rạc được gọi là Hồi quy logistic và phân loại các số liên tục được gọi là Hồi quy. Hồi quy logistic còn được gọi là phân loại phân loại, vì vậy đừng nhầm lẫn khi bạn đọc thuật ngữ này ở nơi khác

Đây là một giới thiệu rất cơ bản về Machine Learning. Tôi sẽ đi vào phía thống kê trong bài tiếp theo của tôi. Xin vui lòng cho tôi biết nếu tôi cần bất kỳ sửa chữa :)

Phần thứ hai được đăng ở đây . nhập mô tả hình ảnh ở đây


2
Xin chào Amit, tại sao bạn không thêm bài đăng trên blog của mình vào câu trả lời thay vì chỉ một liên kết. Liên kết chỉ có câu trả lời được tán thành vì các trang web đi xuống và với nó là câu trả lời.
Mathemats

3
Cảm ơn. Tôi sẽ làm điều đó :)
Amit Juneja

2
"Việc phân loại các số rời rạc được gọi là hồi quy logistic" là sự đơn giản hóa lớn; LR chỉ là một trong nhiều kỹ thuật khả thi có thể được sử dụng để phân loại (các kỹ thuật khác là dựa trên cây (RF, GBT / XGB), dựa trên NN, v.v. "Việc phân loại các số liên tục được gọi là Hồi quy" là tự mâu thuẫn; bạn có nghĩa là "Dự đoán về số liên tục" .
smci

7

Tôi là người mới tham gia Khai thác dữ liệu, nhưng như sách giáo khoa của tôi đã nói, PHÂN LOẠI được cho là được giám sát việc học và CLUSTERING việc học không giám sát. Sự khác biệt giữa học tập có giám sát và học tập không giám sát có thể được tìm thấy ở đây .


6

Phân loại

Là sự phân công của các lớp được xác định trước cho các quan sát mới , dựa trên việc học hỏi từ các ví dụ.

Đây là một trong những nhiệm vụ chính trong học máy.

Phân cụm (hoặc Phân tích cụm)

Mặc dù phổ biến bị coi là "phân loại không giám sát", nó hoàn toàn khác.

Trái ngược với những gì nhiều người học máy sẽ dạy cho bạn, nó không phải là việc gán "các lớp" cho các đối tượng, mà không có chúng được xác định trước. Đây là quan điểm rất hạn chế của những người đã phân loại quá nhiều; một ví dụ điển hình về việc nếu bạn có một cái búa (phân loại), mọi thứ trông giống như một cái đinh (vấn đề phân loại) đối với bạn . Nhưng đó cũng là lý do tại sao mọi người phân loại không nhận được một cụm.

Thay vào đó, hãy coi nó như khám phá cấu trúc . Nhiệm vụ của phân cụm là tìm cấu trúc (ví dụ: các nhóm) trong dữ liệu của bạn mà trước đây bạn không biết . Phân cụm đã thành công nếu bạn học được điều gì đó mới. Nó thất bại, nếu bạn chỉ có cấu trúc bạn đã biết.

Phân tích cụm là một nhiệm vụ chính của khai thác dữ liệu (và vịt con xấu xí trong học máy, vì vậy đừng nghe người học máy bỏ phân cụm).

"Học tập không giám sát" có phần là một Oxymoron

Điều này đã được lặp đi lặp lại trong tài liệu, nhưng học tập không giám sát là b llsh t. Nó không tồn tại, nhưng nó là một oxymoron như "tình báo quân sự".

Thuật toán học từ các ví dụ (sau đó là "học có giám sát") hoặc không học. Nếu tất cả các phương pháp phân cụm là "học", thì tính toán mức tối thiểu, tối đa và trung bình của một tập dữ liệu cũng là "học không giám sát". Sau đó, bất kỳ tính toán "học" đầu ra của nó. Do đó , thuật ngữ 'học tập không giám sát' là hoàn toàn vô nghĩa , nó có nghĩa là tất cả mọi thứ và không có gì.

Tuy nhiên, một số thuật toán "học tập không giám sát" làm rơi vào loại tối ưu hóa . Ví dụ: k-mean tối ưu hóa bình phương nhỏ nhất. Các phương pháp như vậy là trên tất cả các số liệu thống kê, vì vậy tôi nghĩ rằng chúng ta cần phải gắn nhãn cho chúng là "học tập không giám sát", nhưng thay vào đó nên tiếp tục gọi chúng là "các vấn đề tối ưu hóa". Nó chính xác hơn, và có ý nghĩa hơn. Có rất nhiều thuật toán phân cụm không liên quan đến tối ưu hóa và không phù hợp với mô hình học máy. Vì vậy, hãy ngừng ép chúng trong đó dưới cái ô "học tập không giám sát".

Có một số "học" liên quan đến phân cụm, nhưng nó không phải là chương trình học. Đó là người dùng có nghĩa vụ phải tìm hiểu những điều mới về tập dữ liệu của mình.


Câu trả lời này khiến tôi nhận ra rằng tôi là một người phân loại. Nó thực sự giúp tôi.
Kta

Mỗi thuật toán phân cụm giả định một mô hình meta chung. Btw, điều tương tự cũng xảy ra đối với việc học có giám sát, ví dụ mạng lưới thần kinh (NN). Trong cả hai trường hợp (được giám sát và không giám sát), chúng tôi tối ưu hóa các tham số của mô hình meta chung để phù hợp với dữ liệu theo hàm chi phí (đôi khi bị ẩn). (Phần này được gọi là "học tập".) Điều này áp dụng cho cả hai, phân cụm và phân loại. Trong cả hai trường hợp, chúng tôi tìm hiểu một mô hình cụ thể (dựa trên mô hình meta chung giả định) thông qua tối ưu hóa theo dữ liệu được trình bày. Sử dụng mô hình phân cụm được tối ưu hóa cụ thể, chúng tôi có thể phân cụm dữ liệu thành các nhóm.
Make42

TL; DR: Bạn đã đúng rằng phân cụm không phải là " phân loại không giám sát", nhưng học tập có thẩm quyền không phải là một oxymoron - việc học đang diễn ra !
Make42

Trường hợp "học" trong DBSCAN chẳng hạn?
Có QUIT - Anony-Mousse

4

Bằng cách phân cụm, bạn có thể nhóm dữ liệu với các thuộc tính mong muốn của mình, chẳng hạn như số lượng, hình dạng và các thuộc tính khác của cụm được trích xuất. Trong khi, trong phân loại, số lượng và hình dạng của các nhóm là cố định. Hầu hết các thuật toán phân cụm đưa ra số lượng cụm làm tham số. Tuy nhiên, có một số cách tiếp cận để tìm ra số lượng cụm thích hợp.


4

Trước hết, giống như nhiều câu trả lời ở đây: phân loại được giám sát việc học và phân cụm không được giám sát. Điều này có nghĩa là:

  1. Phân loại cần dữ liệu được dán nhãn để phân loại có thể được đào tạo về dữ liệu này và sau đó bắt đầu phân loại dữ liệu mới chưa thấy dựa trên những gì anh ta biết. Học tập không giám sát như phân cụm không sử dụng dữ liệu được dán nhãn và những gì nó thực sự làm là khám phá các cấu trúc nội tại trong dữ liệu như các nhóm.

  2. Một điểm khác biệt giữa cả hai kỹ thuật (liên quan đến kỹ thuật trước), đó là thực tế rằng phân loại là một dạng của vấn đề hồi quy rời rạc trong đó đầu ra là một biến phụ thuộc phân loại. Trong khi đó, đầu ra của phân cụm mang lại một tập hợp các tập hợp con được gọi là các nhóm. Cách đánh giá hai mô hình này cũng khác nhau vì cùng một lý do: trong phân loại bạn thường phải kiểm tra độ chính xác và thu hồi, những thứ như thừa và thiếu, v.v. Những điều đó sẽ cho bạn biết mô hình đó tốt như thế nào. Nhưng trong việc phân cụm, bạn thường cần có tầm nhìn và chuyên gia để diễn giải những gì bạn tìm thấy, bởi vì bạn không biết loại cấu trúc nào bạn có (loại nhóm hoặc cụm). Đó là lý do tại sao phân cụm thuộc về phân tích dữ liệu thăm dò.

  3. Cuối cùng, tôi sẽ nói rằng các ứng dụng là sự khác biệt chính giữa cả hai. Phân loại như từ đã nói, được sử dụng để phân biệt các trường hợp thuộc về lớp này hay lớp khác, ví dụ như đàn ông hay phụ nữ, mèo hay chó, v.v. Phân cụm thường được sử dụng trong chẩn đoán bệnh y tế, khám phá các mẫu, Vân vân.


3

Phân loại : Dự đoán kết quả trong một đầu ra riêng biệt => ánh xạ các biến đầu vào thành các danh mục riêng biệt

nhập mô tả hình ảnh ở đây

Các trường hợp sử dụng phổ biến:

  1. Phân loại email: Spam hoặc không phải Spam

  2. Cho vay xử phạt đối với khách hàng: Có nếu anh ta có khả năng trả EMI cho số tiền cho vay bị xử phạt. Không, nếu anh ta không thể

  3. Xác định tế bào khối u ung thư: Nó quan trọng hay không quan trọng?

  4. Phân tích tình cảm của tweet: Là tweet tích cực hay tiêu cực hoặc trung tính

  5. Phân loại tin tức: Phân loại tin tức thành một trong các lớp được xác định trước - Chính trị, Thể thao, Sức khỏe, v.v.

Phân cụm : là nhiệm vụ nhóm một nhóm các đối tượng theo cách các đối tượng trong cùng một nhóm (được gọi là một cụm) giống nhau hơn (theo một nghĩa nào đó) với nhau so với các đối tượng trong các nhóm khác (các cụm)

nhập mô tả hình ảnh ở đây

nhập mô tả hình ảnh ở đây

Các trường hợp sử dụng phổ biến:

  1. Tiếp thị: Khám phá phân khúc khách hàng cho mục đích tiếp thị

  2. Sinh học: Phân loại giữa các loài thực vật và động vật khác nhau

  3. Thư viện: Phân cụm các sách khác nhau trên cơ sở chủ đề và thông tin

  4. Bảo hiểm: Công nhận khách hàng, chính sách của họ và xác định các gian lận

  5. Quy hoạch thành phố: Tạo các nhóm nhà và nghiên cứu các giá trị của chúng dựa trên vị trí địa lý của chúng và các yếu tố khác.

  6. Nghiên cứu động đất: Xác định vùng nguy hiểm

  7. Hệ thống khuyến nghị :

Người giới thiệu:

geekforgeek

dữ liệu

3 lá


2

Phân loại - Dự đoán nhãn lớp phân loại - Phân loại dữ liệu (xây dựng mô hình) dựa trên tập huấn luyện và các giá trị (nhãn lớp) trong thuộc tính nhãn lớp - Sử dụng mô hình trong phân loại dữ liệu mới

Cụm: một tập hợp các đối tượng dữ liệu - Tương tự nhau trong cùng một cụm - Khác với các đối tượng trong các cụm khác


2

Phân cụm nhằm mục đích tìm các nhóm trong dữ liệu. Cụm Cluster là một khái niệm trực quan và không có định nghĩa chặt chẽ về mặt toán học. Các thành viên của một cụm nên tương tự nhau và khác với các thành viên của các cụm khác. Một thuật toán phân cụm hoạt động trên tập dữ liệu Z chưa được gắn nhãn và tạo một phân vùng trên đó.

Đối với Lớp và Nhãn lớp, lớp chứa các đối tượng tương tự, trong khi các đối tượng từ các lớp khác nhau không giống nhau. Một số lớp có ý nghĩa rõ ràng và trong trường hợp đơn giản nhất là loại trừ lẫn nhau. Ví dụ: trong xác minh chữ ký, chữ ký là chính hãng hoặc giả mạo. Lớp thực sự là một trong hai, cho dù chúng ta có thể không đoán được chính xác từ việc quan sát một chữ ký cụ thể.


2

Phân cụm là một phương pháp nhóm các đối tượng theo cách các đối tượng có các tính năng tương tự kết hợp với nhau và các đối tượng có các tính năng không giống nhau bị tách rời. Đây là một kỹ thuật phổ biến để phân tích dữ liệu thống kê được sử dụng trong học máy và khai thác dữ liệu ..

Phân loại là một quá trình phân loại trong đó các đối tượng được công nhận, phân biệt và hiểu trên cơ sở tập dữ liệu huấn luyện. Phân loại là một kỹ thuật học tập có giám sát trong đó có một tập huấn luyện và quan sát được xác định chính xác có sẵn.


2

Từ cuốn sách Mahout in Action, và tôi nghĩ nó giải thích rất rõ sự khác biệt:

Các thuật toán phân loại có liên quan đến, nhưng vẫn hoàn toàn khác với các thuật toán phân cụm như thuật toán k-mean.

Các thuật toán phân loại là một hình thức học tập có giám sát, trái ngược với học tập không giám sát, xảy ra với các thuật toán phân cụm.

Thuật toán học có giám sát là một ví dụ được đưa ra có chứa giá trị mong muốn của biến mục tiêu. Các thuật toán không được giám sát không đưa ra câu trả lời mong muốn, mà thay vào đó phải tự mình tìm ra thứ gì đó hợp lý.


2

Một lớp lót để phân loại:

Phân loại dữ liệu thành các danh mục được xác định trước

Một lớp lót cho cụm:

Nhóm dữ liệu thành một nhóm các danh mục

Sự khác biệt chính:

Phân loại là lấy dữ liệu và đưa nó vào các danh mục được xác định trước và trong Phân cụm tập hợp các danh mục mà bạn muốn nhóm dữ liệu vào, không được biết trước.

Phần kết luận:

  • Phân loại gán danh mục cho 1 mục mới, dựa trên các mục đã được gắn nhãn trong khi Phân cụm sẽ lấy một loạt các mục không được gắn nhãn và chia chúng thành các mục
  • Trong Phân loại, các danh mục \ nhóm được chia sẽ được biết trước trong khi Phân cụm, các danh mục \ nhóm được phân chia không xác định trước
  • Trong Phân loại, có 2 giai đoạn - Giai đoạn huấn luyện và sau đó là giai đoạn thử nghiệm trong khi Phân cụm, chỉ có 1 giai đoạn - phân chia dữ liệu đào tạo theo cụm
  • Phân loại là học tập có giám sát trong khi phân cụm là học tập không giám sát

Tôi đã viết một bài viết dài về cùng một chủ đề mà bạn có thể tìm thấy ở đây:

https://neelbhatt40.wordpress.com/2017/11/21/ classification /


1

Nếu bạn đang cố gắng gửi một số lượng lớn các tờ lên kệ của bạn (dựa trên ngày hoặc một số đặc điểm kỹ thuật khác của tệp), bạn đang PHÂN LOẠI.

Nếu bạn đã tạo các cụm từ tập hợp các trang tính, điều đó có nghĩa là có một cái gì đó tương tự giữa các trang tính.


1

Có hai định nghĩa trong khai thác dữ liệu "Giám sát" và "Không giám sát". Khi ai đó nói với máy tính, thuật toán, mã, ... rằng thứ này giống như một quả táo và thứ đó giống như một quả cam, đây là việc học có giám sát và sử dụng học có giám sát (như thẻ cho mỗi mẫu trong tập dữ liệu) để phân loại dữ liệu, bạn sẽ nhận được phân loại. Nhưng mặt khác, nếu bạn để máy tính tìm ra cái gì và sự khác biệt giữa các tính năng của tập dữ liệu đã cho, thì thực tế việc học không được giám sát, để phân loại tập dữ liệu này sẽ được gọi là phân cụm. Trong trường hợp này, dữ liệu được cung cấp cho thuật toán không có thẻ và thuật toán sẽ tìm ra các lớp khác nhau.


1

Machine Learning hoặc AI chủ yếu được cảm nhận bởi nhiệm vụ mà nó thực hiện / đạt được.

Theo tôi, bằng cách suy nghĩ về Phân cụm và Phân loại theo khái niệm nhiệm vụ họ đạt được thực sự có thể giúp hiểu được sự khác biệt giữa hai.

Phân cụm là để nhóm các thứ và Phân loại là, loại, nhãn các thứ.

Giả sử bạn đang ở trong phòng tiệc nơi tất cả đàn ông đều mặc Suit và phụ nữ mặc áo choàng.

Bây giờ, bạn hỏi bạn của bạn vài câu hỏi:

Q1: Heyy, bạn có thể giúp tôi nhóm người?

Câu trả lời có thể có mà bạn của bạn có thể đưa ra là:

1: Anh ta có thể nhóm người dựa trên Giới tính, Nam hay Nữ

2: Anh ta có thể nhóm người dựa trên quần áo của họ, 1 người mặc bộ đồ khác mặc áo choàng

3: Anh ta có thể nhóm người dựa trên màu tóc của họ

4: Anh ta có thể nhóm người dựa trên nhóm tuổi của họ, v.v.

Họ có rất nhiều cách để bạn của bạn có thể hoàn thành nhiệm vụ này.

Tất nhiên, bạn có thể ảnh hưởng đến quá trình ra quyết định của anh ấy bằng cách cung cấp thêm đầu vào như:

Bạn có thể giúp tôi nhóm những người này dựa trên giới tính (hoặc nhóm tuổi, hoặc màu tóc hoặc trang phục, v.v.)

Quý 2:

Trước quý 2, bạn cần làm một số công việc trước.

Bạn phải dạy hoặc thông báo cho bạn của bạn để anh ấy có thể đưa ra quyết định sáng suốt. Vì vậy, hãy nói rằng bạn đã nói với bạn của bạn rằng:

  • Người có mái tóc dài là Phụ nữ.

  • Người có mái tóc ngắn là đàn ông.

Quý 2 Bây giờ, bạn chỉ ra một Người có mái tóc dài và hỏi bạn của bạn - Đó là Đàn ông hay Phụ nữ?

Câu trả lời duy nhất mà bạn có thể mong đợi là: Phụ nữ.

Tất nhiên, có thể có những người đàn ông có mái tóc dài và phụ nữ có mái tóc ngắn trong bữa tiệc. Nhưng, câu trả lời là chính xác dựa trên việc học bạn cung cấp cho bạn của bạn. Bạn có thể cải thiện hơn nữa quá trình bằng cách dạy thêm cho bạn bè về cách phân biệt giữa hai người.

Trong ví dụ trên,

Q1 đại diện cho nhiệm vụ những gì Clustering đạt được.

Trong Clustering, bạn cung cấp dữ liệu (người) cho thuật toán (bạn của bạn) và yêu cầu nó phân nhóm dữ liệu.

Bây giờ, tùy thuộc vào thuật toán để quyết định cách tốt nhất để nhóm là gì? (Giới tính, màu sắc hoặc nhóm tuổi).

Một lần nữa, bạn chắc chắn có thể ảnh hưởng đến quyết định của thuật toán bằng cách cung cấp thêm đầu vào.

Q2 đại diện cho nhiệm vụ Phân loại đạt được.

Ở đó, bạn cung cấp cho thuật toán của bạn (bạn của bạn) một số dữ liệu (Mọi người), được gọi là dữ liệu Đào tạo và khiến anh ấy tìm hiểu dữ liệu nào tương ứng với nhãn nào (Nam hoặc Nữ). Sau đó, bạn trỏ thuật toán của mình vào một số dữ liệu nhất định, được gọi là dữ liệu Kiểm tra và yêu cầu nó xác định xem đó là Nam hay Nữ. Việc giảng dạy của bạn càng tốt thì dự đoán càng tốt.

Và Pre-work trong Q2 hoặc Classifying không gì khác ngoài việc chỉ đào tạo mô hình của bạn để nó có thể học cách phân biệt. Trong Clustering hoặc Q1, pre-work này là một phần của nhóm.

Hy vọng điều này sẽ giúp được ai đó.

Cảm ơn


1

nhập mô tả hình ảnh ở đây

Phân loại - Một tập dữ liệu có thể có các nhóm / lớp khác nhau. đỏ, xanh lá cây và đen. Phân loại sẽ cố gắng tìm các quy tắc phân chia chúng trong các lớp khác nhau.

Custering- nếu một tập dữ liệu không có bất kỳ lớp nào và bạn muốn đặt chúng vào một số lớp / nhóm, bạn thực hiện phân cụm. Các vòng tròn màu tím ở trên.

Nếu quy tắc phân loại không tốt, bạn sẽ phân loại sai trong kiểm tra hoặc quy tắc ur không đủ chính xác.
nếu phân cụm không tốt, bạn sẽ có nhiều ngoại lệ tức là. điểm dữ liệu không thể rơi trong bất kỳ cụm.


1

Sự khác biệt chính giữa Phân loại và Phân cụm là: Phân loại là quá trình phân loại dữ liệu với sự trợ giúp của các nhãn lớp. Mặt khác, Clustering tương tự như phân loại nhưng không có nhãn lớp được xác định trước. Phân loại là hướng đến việc học có giám sát. Chống lại, phân cụm còn được gọi là học tập không giám sát. Mẫu đào tạo được cung cấp trong phương pháp phân loại trong khi trong trường hợp phân cụm dữ liệu đào tạo không được cung cấp.

Hy vọng điều này sẽ giúp!


-1

Tôi tin rằng phân loại là phân loại các bản ghi trong một dữ liệu được đặt thành các lớp được xác định trước hoặc thậm chí xác định các lớp khi đang di chuyển. Tôi xem nó là điều kiện tiên quyết cho bất kỳ hoạt động khai thác dữ liệu có giá trị nào, tôi thích nghĩ về việc học tập không giám sát, tức là người ta không biết mình đang tìm kiếm gì trong khi khai thác dữ liệu và phân loại đóng vai trò là điểm khởi đầu tốt

Phân cụm ở đầu bên kia thuộc về học tập có giám sát, tức là người ta biết những thông số cần tìm, mối tương quan giữa chúng cùng với các mức quan trọng. Tôi tin rằng nó đòi hỏi một số hiểu biết về thống kê và toán học


3
Nó thực sự là cách khác. Phân loại thường được giám sát và phân cụm thường không được giám sát.
AlexK
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.