Các câu trả lời trước đây thực sự tuyệt vời, tôi muốn chỉ ra thêm một số bổ sung:
Phân đoạn đối tượng
một trong những lý do mà điều này không được ưa chuộng trong cộng đồng nghiên cứu là vì nó mơ hồ về mặt vấn đề. Phân đoạn đối tượng được sử dụng chỉ có nghĩa là tìm một hoặc một số lượng nhỏ các đối tượng trong một hình ảnh và vẽ ranh giới xung quanh chúng, và đối với hầu hết các mục đích, bạn vẫn có thể cho rằng nó có nghĩa là như vậy. Tuy nhiên, nó cũng bắt đầu được sử dụng với nghĩa là phân đoạn các đốm màu có thể là các đối tượng, phân đoạn các đối tượng từ nền (ngày nay phổ biến hơn được gọi là trừ nền hoặc phân đoạn nền hoặc phát hiện nền trước) và thậm chí trong một số trường hợp được sử dụng thay thế cho nhận dạng đối tượng bằng cách sử dụng các hộp giới hạn (điều này nhanh chóng dừng lại với sự ra đời của các phương pháp tiếp cận mạng nơ ron sâu để nhận dạng đối tượng, nhưng nhận dạng đối tượng trước đó cũng có thể nghĩa là chỉ cần dán nhãn toàn bộ hình ảnh với đối tượng trong đó).
Điều gì làm cho "phân đoạn" "ngữ nghĩa"?
Đơn giản, mỗi phân đoạn, hoặc trong trường hợp các phương thức sâu, mỗi pixel, được cấp một nhãn lớp dựa trên một danh mục. Sự phân đoạn nói chung chỉ là sự phân chia hình ảnh theo một quy luật nào đó. Ví dụ, phân đoạn Meanshift từ mức rất cao phân chia dữ liệu theo sự thay đổi năng lượng của hình ảnh. Đồ thị cắtphân đoạn dựa trên tương tự không được học nhưng bắt nguồn trực tiếp từ các thuộc tính của mỗi hình ảnh tách biệt với phần còn lại. Các phương pháp gần đây hơn (dựa trên mạng nơron) sử dụng các pixel được gắn nhãn để tìm hiểu cách xác định các đặc điểm cục bộ được liên kết với các lớp cụ thể, sau đó phân loại từng pixel dựa trên lớp nào có độ tin cậy cao nhất cho pixel đó. Theo cách này, "pixel-labeling" thực sự là tên trung thực hơn cho tác vụ và thành phần "phân đoạn" là xuất hiện.
Phân đoạn phiên bản
Có thể cho là khó nhất, có liên quan và ý nghĩa ban đầu của Phân đoạn đối tượng, "phân đoạn đối tượng" có nghĩa là phân đoạn của các đối tượng riêng lẻ trong một cảnh, bất kể chúng có cùng loại hay không. Tuy nhiên, một trong những lý do khiến việc này trở nên khó khăn như vậy là bởi vì từ góc độ tầm nhìn (và theo một cách nào đó là một khía cạnh triết học), điều tạo nên một thể hiện "đối tượng" không hoàn toàn rõ ràng. Các bộ phận cơ thể có phải là đối tượng không? Các "phần đối tượng" như vậy có nên được phân đoạn hoàn toàn bằng một thuật toán phân đoạn phiên bản không? Chúng có nên được phân đoạn nếu chúng được nhìn thấy tách biệt với tổng thể không? Còn đối với các vật thể ghép nên hai thứ liền kề rõ ràng nhưng có thể tách rời thành một hoặc hai vật thể (là một tảng đá được dán vào đầu gậy một cái rìu, một cái búa, hay chỉ một cây gậy và một tảng đá trừ khi được làm đúng cách?). Ngoài ra, nó không phải là ' t rõ ràng làm thế nào để phân biệt các trường hợp. Di chúc có phải là một trường hợp riêng biệt với các bức tường khác mà nó được gắn vào không? Các trường hợp nên được tính theo thứ tự nào? Khi chúng xuất hiện? Gần điểm quan sát? Bất chấp những khó khăn này, việc phân đoạn các đối tượng vẫn là một vấn đề lớn bởi vì con người, chúng ta tương tác với các đối tượng mọi lúc bất kể "nhãn lớp" của chúng (sử dụng các đối tượng ngẫu nhiên xung quanh bạn làm trọng lượng giấy, ngồi trên những thứ không phải là ghế), và do đó, một số tập dữ liệu cố gắng giải quyết vấn đề này, nhưng lý do chính mà vấn đề chưa được chú ý nhiều là do nó chưa được xác định đầy đủ.
Phân tích cú pháp cảnh / Gắn nhãn cảnh
Phân tích cảnh là phương pháp phân đoạn nghiêm ngặt để ghi nhãn cảnh, cũng có một số vấn đề về độ mơ hồ của riêng nó. Về mặt lịch sử, ghi nhãn cảnh có nghĩa là chia toàn bộ "cảnh" (hình ảnh) thành các phân đoạn và gán cho tất cả chúng một nhãn lớp. Tuy nhiên, nó cũng được dùng để chỉ các nhãn lớp cho các vùng của hình ảnh mà không phân đoạn chúng một cách rõ ràng. Đối với phân đoạn, "phân đoạn ngữ nghĩa" không có nghĩa là phân chia toàn bộ cảnh. Đối với phân đoạn ngữ nghĩa, thuật toán chỉ nhằm mục đích phân đoạn các đối tượng mà nó biết và sẽ bị phạt bởi hàm mất của nó vì gắn nhãn các pixel không có bất kỳ nhãn nào. Ví dụ, tập dữ liệu MS-COCO là một tập dữ liệu để phân đoạn ngữ nghĩa trong đó chỉ một số đối tượng được phân đoạn.