“Phân đoạn ngữ nghĩa” so với “phân đoạn” và “ghi nhãn cảnh” là gì?

97

Phân đoạn ngữ nghĩa chỉ là một Pleonasm hay có sự khác biệt giữa "phân đoạn ngữ nghĩa" và "phân đoạn"? Có sự khác biệt nào đối với "gắn nhãn cảnh" hoặc "phân tích cú pháp cảnh" không?

Sự khác biệt giữa phân đoạn theo cấp pixel và phân đoạn theo pixel là gì?

(Câu hỏi phụ: Khi bạn có loại chú thích pixel khôn ngoan này, bạn có nhận được tính năng phát hiện đối tượng miễn phí hay vẫn còn điều gì đó phải làm?)

Vui lòng cung cấp một nguồn cho các định nghĩa của bạn.

Các nguồn sử dụng "phân đoạn ngữ nghĩa"

Jonathan Long, Evan Shelhamer, Trevor Darrell: Các mạng hoàn toàn phù hợp để phân đoạn ngữ nghĩa . CVPR, 2015 và PAMI, 2016
Hong, Seunghoon, Hyeonwoo Noh và Bohyung Han: "Mạng thần kinh sâu tách rời để phân đoạn ngữ nghĩa bán giám sát." arXiv bản in trước arXiv: 1506.04924 , năm 2015.
V. Lempitsky, A. Vedaldi, và A. Zisserman: Một mô hình cột để phân đoạn ngữ nghĩa. Trong những tiến bộ trong hệ thống xử lý thông tin thần kinh, 2011.

Các nguồn sử dụng "nhãn cảnh"

Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun: Học các tính năng phân cấp để ghi nhãn cảnh . Trong Phân tích Mẫu và Trí tuệ Máy móc, 2013.

Nguồn sử dụng "cấp pixel"

Pinheiro, Pedro O. và Ronan Collobert: "Từ Cấp hình ảnh đến Dán nhãn cấp Pixel với Mạng phù hợp." Kỷ yếu Hội nghị IEEE về Thị giác Máy tính và Nhận dạng Mẫu, 2015. (xem http://arxiv.org/abs/1411.6228 )

Nguồn sử dụng "pixelwise"

Li, Hongsheng, Rui Zhao và Xiaogang Wang: "Truyền tải tới và lùi hiệu quả cao của các mạng nơ-ron tích tụ để phân loại pixelwise." arXiv bản in trước arXiv: 1412.4526 , năm 2014.

Google Ngrams

Gần đây, "phân đoạn ngữ nghĩa" dường như được sử dụng nhiều hơn "gắn nhãn cảnh"

— Martin Thoma
nguồn

Các thuật ngữ khác có vẻ rất giống nhau: (per-) pixel phân loại / ghi nhãn

— Martin Thoma

12

Thực sự thú vị là @MartinThoma có một bản phân đoạn ngữ nghĩa khảo sát trước arXiv, được xuất bản gần 6 tháng sau khi đặt câu hỏi [link] ( arxiv.org/pdf/1602.06541.pdf ). Làm tốt lắm!

— Mohamed Hasan

92

"phân đoạn" là một phân vùng của hình ảnh thành nhiều phần "nhất quán", nhưng không có bất kỳ nỗ lực nào để hiểu những phần này đại diện cho cái gì. Một trong những tác phẩm nổi tiếng nhất (nhưng chắc chắn không phải là tác phẩm đầu tiên) là "Normalized Cuts and Image Segmentation" PAMI 2000 của Shi và Malik . Những tác phẩm này cố gắng xác định "tính liên kết" theo các tín hiệu cấp thấp như màu sắc, kết cấu và độ mịn của ranh giới. Bạn có thể truy ngược lại những tác phẩm này với lý thuyết Gestalt .

Mặt khác, "phân đoạn ngữ nghĩa" cố gắng phân vùng hình ảnh thành các phần có ý nghĩa ngữ nghĩa, và phân loại mỗi phần thành một trong các lớp được xác định trước. Bạn cũng có thể đạt được mục tiêu tương tự bằng cách phân loại từng pixel (thay vì toàn bộ hình ảnh / phân đoạn). Trong trường hợp đó, bạn đang thực hiện phân loại theo pixel, dẫn đến kết quả cuối cùng giống nhau nhưng theo một con đường hơi khác ...

Vì vậy, tôi cho rằng bạn có thể nói rằng "phân đoạn ngữ nghĩa", "ghi nhãn cảnh" và "phân loại theo từng pixel" về cơ bản đang cố gắng đạt được cùng một mục tiêu: hiểu về mặt ngữ nghĩa vai trò của từng pixel trong hình ảnh. Bạn có thể thực hiện nhiều con đường để đạt được mục tiêu đó, và những con đường này dẫn đến các sắc thái nhỏ trong thuật ngữ.

— Shai
nguồn

2

Con đường nào dẫn đến phân đoạn ngữ nghĩa và con đường nào dẫn đến gắn nhãn cảnh hoặc phân loại theo pixel?

— Martin Thoma

3

@moose nói chung, nếu bạn sử dụng các công cụ và thuật toán có nguồn gốc từ lĩnh vực nghiên cứu "phân đoạn" (ví dụ: CRF, các thuật ngữ tạo độ mượt mà, v.v.) thì bạn đang thực hiện "phân đoạn ngữ nghĩa". Mặt khác, nếu bạn đang sử dụng các công cụ và thuật toán được sử dụng để phân loại hình ảnh dựa trên chúng cục bộ, bạn có nhiều khả năng mô tả công việc của mình là "ghi nhãn pixelwise". Tuy nhiên, tôi không nghĩ rằng thực sự có bất kỳ sự khác biệt thực tế nào, chỉ về ngữ nghĩa: đây là những từ đồng nghĩa của cùng một mục tiêu cuối cùng.

— Shai

63

Tôi đã đọc rất nhiều bài báo về Phát hiện Đối tượng, Nhận dạng Đối tượng, Phân đoạn Đối tượng, Phân đoạn Hình ảnh và Phân đoạn Hình ảnh Ngữ nghĩa và đây là kết luận của tôi có thể không đúng:

Nhận dạng đối tượng: Trong một hình ảnh nhất định, bạn phải phát hiện tất cả các đối tượng (một lớp đối tượng bị hạn chế phụ thuộc vào tập dữ liệu của bạn), Bản địa hóa chúng bằng một hộp giới hạn và gắn nhãn hộp giới hạn đó bằng một nhãn. Trong hình ảnh dưới đây, bạn sẽ thấy một đầu ra đơn giản của nhận dạng đối tượng hiện đại.

Nhận dạng đối tượng

Phát hiện đối tượng: nó giống như nhận dạng đối tượng nhưng trong tác vụ này bạn chỉ có hai lớp phân loại đối tượng có nghĩa là hộp giới hạn đối tượng và hộp giới hạn không đối tượng. Ví dụ: Phát hiện ô tô: bạn phải Phát hiện tất cả ô tô trong một hình ảnh nhất định với các hộp giới hạn của chúng.

Phát hiện đối tượng

Phân đoạn đối tượng: Giống như nhận dạng đối tượng, bạn sẽ nhận ra tất cả các đối tượng trong một hình ảnh nhưng đầu ra của bạn phải hiển thị đối tượng này phân loại pixel của hình ảnh.

phân đoạn đối tượng

Phân đoạn ảnh: Trong phân đoạn ảnh, bạn sẽ phân đoạn các vùng của ảnh. đầu ra của bạn sẽ không gắn nhãn các phân đoạn và vùng của một hình ảnh nhất quán với nhau phải nằm trong cùng một phân đoạn. Trích xuất siêu pixel từ một hình ảnh là một ví dụ của tác vụ này hoặc phân đoạn nền trước-nền.

phân đoạn hình ảnh

Phân đoạn ngữ nghĩa: Trong phân đoạn ngữ nghĩa, bạn phải gắn nhãn mỗi pixel với một lớp đối tượng (Xe, Người, Chó, ...) và không phải đối tượng (Nước, Bầu trời, Đường, ...). Nói cách khác trong Phân đoạn ngữ nghĩa bạn sẽ gắn nhãn cho từng vùng của hình ảnh.

phân biệt ngữ nghĩa

Tôi nghĩ rằng việc dán nhãn ở cấp độ pixel và pixelwise về cơ bản giống nhau có thể là phân đoạn hình ảnh hoặc phân đoạn ngữ nghĩa. Tôi cũng đã trả lời câu hỏi của bạn trong liên kết này như nhau.

— e_soroush
nguồn

8

Tôi cũng xin thêm dụ phân khúc, delienation tức là giữa các trường của cùng một đối tượng

— Alex

1

Tôi cho rằng "Nhận dạng Hình ảnh" là một từ đồng nghĩa với "Phân loại Hình ảnh" chứ không phải "Phát hiện Hình ảnh". Đó là về việc nhận ra một hoặc nhiều đối tượng trong một hình ảnh và có thể biết nó có hiện diện hay không. Nếu chúng ta cũng muốn biết nó ở đâu, chúng ta sẽ cần phát hiện các đối tượng bằng cách sử dụng các hộp giới hạn. Ngoài ra, tôi không thấy lý do tại sao một bộ phát hiện đối tượng chỉ có thể phát hiện một lớp duy nhất.

— pietz 12/1217

Tôi đồng ý một phần với bạn. Tôi đã không đề cập đến nhận dạng hình ảnh là gì, vì vậy nhận dạng và phân loại hình ảnh có thể có nghĩa giống nhau. Tuy nhiên, phát hiện đối tượng chủ yếu được sử dụng cho hai bài toán lớp và nhận dạng đối tượng cho đa lớp. Dù sao đi nữa, tôi không bảo vệ câu trả lời của mình, đó chỉ là ý tưởng của tôi khi đọc một số bài báo khoảng ba năm trước! Chúc mừng!

— e_soroush

Bạn có thể giải thích thêm về một số nơi mà bạn tìm thấy các bài đọc của mình không?

— qarthandso

36

Các câu trả lời trước đây thực sự tuyệt vời, tôi muốn chỉ ra thêm một số bổ sung:

Phân đoạn đối tượng

một trong những lý do mà điều này không được ưa chuộng trong cộng đồng nghiên cứu là vì nó mơ hồ về mặt vấn đề. Phân đoạn đối tượng được sử dụng chỉ có nghĩa là tìm một hoặc một số lượng nhỏ các đối tượng trong một hình ảnh và vẽ ranh giới xung quanh chúng, và đối với hầu hết các mục đích, bạn vẫn có thể cho rằng nó có nghĩa là như vậy. Tuy nhiên, nó cũng bắt đầu được sử dụng với nghĩa là phân đoạn các đốm màu có thể là các đối tượng, phân đoạn các đối tượng từ nền (ngày nay phổ biến hơn được gọi là trừ nền hoặc phân đoạn nền hoặc phát hiện nền trước) và thậm chí trong một số trường hợp được sử dụng thay thế cho nhận dạng đối tượng bằng cách sử dụng các hộp giới hạn (điều này nhanh chóng dừng lại với sự ra đời của các phương pháp tiếp cận mạng nơ ron sâu để nhận dạng đối tượng, nhưng nhận dạng đối tượng trước đó cũng có thể nghĩa là chỉ cần dán nhãn toàn bộ hình ảnh với đối tượng trong đó).

Điều gì làm cho "phân đoạn" "ngữ nghĩa"?

Đơn giản, mỗi phân đoạn, hoặc trong trường hợp các phương thức sâu, mỗi pixel, được cấp một nhãn lớp dựa trên một danh mục. Sự phân đoạn nói chung chỉ là sự phân chia hình ảnh theo một quy luật nào đó. Ví dụ, phân đoạn Meanshift từ mức rất cao phân chia dữ liệu theo sự thay đổi năng lượng của hình ảnh. Đồ thị cắtphân đoạn dựa trên tương tự không được học nhưng bắt nguồn trực tiếp từ các thuộc tính của mỗi hình ảnh tách biệt với phần còn lại. Các phương pháp gần đây hơn (dựa trên mạng nơron) sử dụng các pixel được gắn nhãn để tìm hiểu cách xác định các đặc điểm cục bộ được liên kết với các lớp cụ thể, sau đó phân loại từng pixel dựa trên lớp nào có độ tin cậy cao nhất cho pixel đó. Theo cách này, "pixel-labeling" thực sự là tên trung thực hơn cho tác vụ và thành phần "phân đoạn" là xuất hiện.

Phân đoạn phiên bản

Có thể cho là khó nhất, có liên quan và ý nghĩa ban đầu của Phân đoạn đối tượng, "phân đoạn đối tượng" có nghĩa là phân đoạn của các đối tượng riêng lẻ trong một cảnh, bất kể chúng có cùng loại hay không. Tuy nhiên, một trong những lý do khiến việc này trở nên khó khăn như vậy là bởi vì từ góc độ tầm nhìn (và theo một cách nào đó là một khía cạnh triết học), điều tạo nên một thể hiện "đối tượng" không hoàn toàn rõ ràng. Các bộ phận cơ thể có phải là đối tượng không? Các "phần đối tượng" như vậy có nên được phân đoạn hoàn toàn bằng một thuật toán phân đoạn phiên bản không? Chúng có nên được phân đoạn nếu chúng được nhìn thấy tách biệt với tổng thể không? Còn đối với các vật thể ghép nên hai thứ liền kề rõ ràng nhưng có thể tách rời thành một hoặc hai vật thể (là một tảng đá được dán vào đầu gậy một cái rìu, một cái búa, hay chỉ một cây gậy và một tảng đá trừ khi được làm đúng cách?). Ngoài ra, nó không phải là ' t rõ ràng làm thế nào để phân biệt các trường hợp. Di chúc có phải là một trường hợp riêng biệt với các bức tường khác mà nó được gắn vào không? Các trường hợp nên được tính theo thứ tự nào? Khi chúng xuất hiện? Gần điểm quan sát? Bất chấp những khó khăn này, việc phân đoạn các đối tượng vẫn là một vấn đề lớn bởi vì con người, chúng ta tương tác với các đối tượng mọi lúc bất kể "nhãn lớp" của chúng (sử dụng các đối tượng ngẫu nhiên xung quanh bạn làm trọng lượng giấy, ngồi trên những thứ không phải là ghế), và do đó, một số tập dữ liệu cố gắng giải quyết vấn đề này, nhưng lý do chính mà vấn đề chưa được chú ý nhiều là do nó chưa được xác định đầy đủ.

Phân tích cú pháp cảnh / Gắn nhãn cảnh

Phân tích cảnh là phương pháp phân đoạn nghiêm ngặt để ghi nhãn cảnh, cũng có một số vấn đề về độ mơ hồ của riêng nó. Về mặt lịch sử, ghi nhãn cảnh có nghĩa là chia toàn bộ "cảnh" (hình ảnh) thành các phân đoạn và gán cho tất cả chúng một nhãn lớp. Tuy nhiên, nó cũng được dùng để chỉ các nhãn lớp cho các vùng của hình ảnh mà không phân đoạn chúng một cách rõ ràng. Đối với phân đoạn, "phân đoạn ngữ nghĩa" không có nghĩa là phân chia toàn bộ cảnh. Đối với phân đoạn ngữ nghĩa, thuật toán chỉ nhằm mục đích phân đoạn các đối tượng mà nó biết và sẽ bị phạt bởi hàm mất của nó vì gắn nhãn các pixel không có bất kỳ nhãn nào. Ví dụ, tập dữ liệu MS-COCO là một tập dữ liệu để phân đoạn ngữ nghĩa trong đó chỉ một số đối tượng được phân đoạn.

— thể chất
nguồn