Có sự khác biệt nào giữa việc phân loại trên đường phố của người Viking và việc dán nhãn của Google không?


7

Cho đến gần đây, tôi nghĩ rằng "ghi nhãn" và "phân loại" là từ đồng nghĩa. Nhưng khi tôi bắt đầu một câu hỏi khác về thuật ngữ trong tầm nhìn máy tính, tôi đã nghĩ về nó: Có sự khác biệt nào giữa "ghi nhãn" và "phân loại" không?

Tôi nghĩ rằng "lớp" là khái niệm bạn muốn phát hiện và "nhãn" là thứ bạn gán cho dữ liệu. Vì vậy, "lớp" là một khái niệm dẫn đến dữ liệu và "nhãn" chỉ là tên. Do đó "ghi nhãn" sẽ giống như "phân loại" vì cả hai đều muốn đưa ra tuyên bố về lớp bên dưới dẫn đến dữ liệu.

Bài viết

Một tìm kiếm nhanh thông qua Google Scholar đã tiết lộ rằng một số bài viết sử dụng cả hai thuật ngữ trong tiêu đề:

  • Markus Eich, Malgorzata Dabrowska và Frank Kirchner: "Ghi nhãn ngữ nghĩa: Phân loại các thực thể 3D dựa trên các mô tả tính năng không gian"
  • Chunlin Li, Dmitry B. Goldgof và Lawrence 0. Hall: "Phân loại dựa trên kiến ​​thức và ghi nhãn mô của hình ảnh MR của não người"
  • Ray Blanchard: "Việc phân loại và dán nhãn của chứng khó đọc giới tính không có giới tính" - một lĩnh vực nghiên cứu khác nhưng có lẽ đó là sự khác biệt giống nhau giữa hai từ?

Vì vậy, tôi đoán có một sự khác biệt giữa "ghi nhãn" và "phân loại". Sự khác biệt là gì?

Google N-Gram

nhập mô tả hình ảnh ở đây

phân loại dường như là một thuật ngữ nội trú nhiều.


Câu trả lời:


2

Hoàn toàn không đồng ý với @Derek Janni. Hãy cẩn thận về ký hiệu tuy nhiên bạn không nên bị lạc trong thuật ngữ. Những bài báo mà bạn đề cập đã sử dụng thuật ngữ "ghi nhãn" theo nghĩa đen nhưng trong cộng đồng Machine Learning / Data Mining, ghi nhãn là quá trình chuẩn bị dữ liệu cho việc học có giám sát (phân loại)! Nó không có gì để làm với nhiệm vụ ML!

Những bài báo đã sử dụng thuật ngữ này để chỉ ra rằng sau khi học có giám sát, họ có thể nhận ra các nhãn khác nhau của các đối tượng khác nhau nên họ đã sử dụng thuật ngữ ghi nhãn nhưng bạn có thể không tìm thấy trong bất kỳ tài liệu nào họ sử dụng hai thuật ngữ này làm từ đồng nghĩa.


1

Cách tôi xem: 'Phân loại' (trong ngữ cảnh học máy) là một loại vấn đề trong đó bạn gán 'nhãn' cho một đối tượng. Chính thức, 'Phân loại' là một loại vấn đề trong khi ghi nhãn là một chức năng từ một đối tượng đến một bộ nhãn (có thể là vô hạn).

Cũng giống như cách Regression là một loại vấn đề trong đó bạn, một lần nữa, gán nhãn cho một đối tượng chỉ lần này nhãn là một số thực.

Cả trong Phân loại và Hồi quy, bạn đang cố gắng tìm chức năng ghi nhãn 'tốt nhất' đối với một số chức năng số liệu / mất.


1

Sau khi đọc nhiều bài báo hơn và nói chuyện với nhiều người về các chủ đề học máy, đây là cách tôi định nghĩa các từ:

Một lớp học như một khái niệm trừu tượng tồn tại. Mỗi lớp có các thuộc tính và có thể có rất nhiều nhãn khác nhau. Ví dụ: mèo lớp có thuộc tính "feet" (với giá trị 4), thuộc tính "Genus" với giá trị "Felis". Có nhiều cách các thành viên của lớp có thể trông như thế nào. Ngoài ra nhiều nhãn: mèo, Katze, Felis silvestris, 🐱,.

Một nhãn chỉ là một nhãn dán bạn đặt trên khái niệm. Một cái tên. Chúng ta cần một từ để có thể nói về khái niệm này.

Tôi sử dụng ghi nhãn cho quy trình thủ công xác định phần nào của tập dữ liệu thuộc về lớp nào. Và tôi sử dụng phân loại cho quá trình phân loại tự động quyết định phần nào của dữ liệu thuộc về lớp nào. Vì vậy, thông thường, ghi nhãn được thực hiện bởi một con người và tiến hành phân loại được thực hiện bởi máy.


0

Câu trả lời ngắn:

Không, không có sự khác biệt giữa ghi nhãn và phân loại.

Lớp - một tập hợp hoặc danh mục của những thứ có một số thuộc tính hoặc thuộc tính chung và phân biệt với các loại khác theo loại, loại hoặc chất lượng. Xem 'danh mục'.

Nhãn - từ hoặc cụm từ chỉ ra rằng những gì tiếp theo thuộc về một loại hoặc lớp cụ thể.

Để phân loại một cái gì đó là gắn nhãn nó, chúng nhất thiết phải giống nhau. Thuật ngữ ghi nhãn có thể phát triển vì "nhãn" cho phép bạn tránh nói "lớp" có ý nghĩa khác trong Khoa học máy tính.

Nhãn đơn giản hơn nhiều và trong mọi trường hợp, phân loại chỉ là hành động đặt nhãn lên các đối tượng (hoặc học cách làm đúng).

Sự khác biệt bạn thấy trong việc sử dụng nhãn / phân loại xuất phát từ thực tế đơn giản là một tiêu đề như:

"Phân loại ngữ nghĩa: Phân loại các thực thể 3D dựa trên các mô tả tính năng không gian" hoặc "Phân loại dựa trên kiến ​​thức và phân loại mô của hình ảnh MR của não người"

Âm thanh thực sự khó xử.

Giống như hầu hết các tiêu đề giấy học thuật, đây chỉ là những mô tả quá phức tạp về những gì trong bài viết giải thích chính xác những gì đang diễn ra mà không có vẻ dư thừa.

TL; DR - Đừng gác máy về thuật ngữ!


Lập luận của bạn rằng nó sẽ nghe có vẻ khó xử là lạ. Tất nhiên, tôi thà viết "Phân loại ngữ nghĩa của các thực thể 3D dựa trên các mô tả tính năng không gian" thay vì "Phân loại ngữ nghĩa: Phân loại các thực thể 3D dựa trên các mô tả tính năng không gian". Viết một bài báo thường là rất nhiều công việc. Tôi chắc chắn rằng mọi người dành khá nhiều công việc trong tiêu đề. Nhưng tôi đoán tôi chỉ nên cố gắng để có được một tác giả của một trong những bài báo đó để trả lời câu hỏi của tôi.
Martin Thoma

Quan điểm của tôi là thường bị coi là lúng túng khi lặp lại cùng một từ nhiều lần trong một tiêu đề / câu - do đó việc sử dụng từ "ghi nhãn" thay vì lặp lại "phân loại". Thực sự là một điểm nhỏ, tôi đoán. Có lẽ các tác giả đã sử dụng "Dán nhãn" như một chuyến đi của công cụ tìm kiếm để hiển thị cho các truy vấn về chủ đề đó, mặc dù thực tế rằng phân loại là điều tương tự. Cá nhân tôi thích tiêu đề mà họ quyết định là tốt nhất :) Ngoài ra, bằng chứng là trong pudding, tôi cho rằng bạn đã đọc các bài báo và nhận thấy rằng những gì họ đang làm là phân loại cốt lõi.
Derek Janni

0

Các nhãn xuất hiện cùng với phân loại khi đối tượng không thuộc về một lớp duy nhất mà là một tập hợp rộng hơn, do đó thuật ngữ "học tập đa nhãn" hoặc "phân loại đa nhãn". Vì chúng đề cập đến các lớp rời rạc, chúng có thể được sử dụng đồng nghĩa, nhưng tôi khuyên bạn nên sử dụng thuật ngữ truyền thống ( phân loại khi một lớp duy nhất được chỉ định) để tránh nhầm lẫn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.