Sự khác biệt giữa phát hiện đối tượng, phân đoạn ngữ nghĩa và nội địa hóa là gì?

23

Tôi đã đọc những từ đó trong khá nhiều ấn phẩm và tôi muốn có một số định nghĩa hay cho những thuật ngữ đó cho thấy rõ sự khác biệt giữa phát hiện đối tượng và phân đoạn ngữ nghĩa so với nội địa hóa là gì. Sẽ thật tuyệt nếu bạn có thể cung cấp nguồn cho định nghĩa của mình.

terminology computer-vision

— Martin Thoma
nguồn

1

Kiểm tra các slide tại đây: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

— Shatu

18

Tôi đã đọc rất nhiều bài báo về, Phát hiện đối tượng, Nhận dạng đối tượng, Phân đoạn đối tượng, Phân đoạn hình ảnh và Phân đoạn hình ảnh ngữ nghĩa và đây là kết luận của tôi không thể đúng:

Nhận dạng đối tượng: Trong một hình ảnh nhất định, bạn phải phát hiện tất cả các đối tượng (một lớp đối tượng bị hạn chế phụ thuộc vào tập dữ liệu của bạn), Định vị chúng bằng hộp giới hạn và nhãn gắn hộp giới hạn với nhãn. Trong hình ảnh dưới đây, bạn sẽ thấy một đầu ra đơn giản của trạng thái nhận dạng đối tượng nghệ thuật.

Nhận dạng đối tượng

Phát hiện đối tượng: nó giống như nhận dạng đối tượng nhưng trong tác vụ này, bạn chỉ có hai lớp phân loại đối tượng, có nghĩa là hộp giới hạn đối tượng và hộp không giới hạn đối tượng. Ví dụ: Phát hiện xe hơi: bạn phải Phát hiện tất cả các xe trong một hình ảnh nhất định với các hộp giới hạn của chúng.

Phát hiện đối tượng

Phân đoạn đối tượng: Giống như nhận dạng đối tượng, bạn sẽ nhận ra tất cả các đối tượng trong một hình ảnh nhưng đầu ra của bạn sẽ hiển thị đối tượng này phân loại pixel của hình ảnh.

phân khúc đối tượng

Phân đoạn hình ảnh: Trong phân đoạn hình ảnh, bạn sẽ phân đoạn các khu vực của hình ảnh. đầu ra của bạn sẽ không gắn nhãn các phân đoạn và khu vực của một hình ảnh phù hợp với nhau phải ở cùng một phân khúc. Trích xuất siêu pixel từ một hình ảnh là một ví dụ về tác vụ này hoặc phân đoạn nền trước.

phân đoạn hình ảnh

Phân đoạn ngữ nghĩa: Trong phân đoạn ngữ nghĩa, bạn phải gắn nhãn cho từng pixel bằng một lớp đối tượng (Xe, Người, Chó, ...) và phi đối tượng (Nước, Bầu trời, Đường, ...). Tôi nói các từ khác trong Phân đoạn ngữ nghĩa, bạn sẽ gắn nhãn cho từng vùng của hình ảnh.

phân biệt ngữ nghĩa

— e_soroush
nguồn

câu trả lời tốt đẹp Tôi sẽ lưu ý rằng cs231n.stanford.edu/slides/winter1516_lecture8.pdf slide 8 sử dụng một định nghĩa khác về phát hiện đối tượng phát hiện nhiều lớp và nhiều trường hợp trong cùng một lớp (Tôi không biết liệu có một định nghĩa được chấp nhận hay không, vì vậy điều này có thể chỉ là do sự mơ hồ).

— Keith

1

phân đoạn cá thể, giống như phân đoạn ngữ nghĩa nhưng người ta phải gắn nhãn những con bò là riêng biệt

— Titus

2

Các slide từ bình luận đầu tiên hiện có tại đây: - cs231n.stanford.edu/slides/2017/cs231n_2017_lecture11.pdf

— Shatu

5

Vì vấn đề này vẫn chưa hoàn toàn rõ ràng ngay cả vào năm 2019 và nó có thể giúp những người học ML mới chọn, đây là một hình ảnh rất tốt cho thấy sự khác biệt:

(nội địa hóa là hộp giới hạn xung quanh lớp "cừu", sau khi phân loại hình ảnh đã được thực hiện) nguồn: Towardsdatascience.com

— sương mù
nguồn

3

Tôi tin rằng chỉ "nội địa hóa" có nghĩa là "phân loại đối tượng đơn lẻ + nội địa hóa bằng cách sử dụng hộp giới hạn 2D hoặc 3D".

"Phát hiện đối tượng" đang bản địa hóa + phân loại tất cả các phiên bản của các lớp đối tượng đã biết.

Phân đoạn ngữ nghĩa về cơ bản là phân loại theo pixel.

Ngoài ra wrt liên quan đến số liệu (nguồn: https://devbloss.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )

Độ chính xác là tỷ lệ của các đối tượng được xác định chính xác so với tổng số đối tượng dự đoán (tỷ lệ dương tính thật với dương tính thật cộng với dương tính giả).

Nhớ lại là tỷ lệ của các đối tượng được xác định chính xác so với tổng số đối tượng thực tế trong ảnh (tỷ lệ dương tính thật với dương tính thật cộng với âm tính thực).

mAP: điểm trung bình Độ chính xác trung bình được đơn giản hóa dựa trên sản phẩm của độ chính xác và thu hồi cho DetectNet. Đây là một biện pháp kết hợp tốt cho mức độ nhạy cảm của mạng đối với các đối tượng quan tâm và mức độ tránh báo động sai.

— Andrei Pokrovsky
nguồn

2

Thuật ngữ nội địa hóa không rõ ràng. Do đó tôi sẽ thảo luận về các thuật ngữ phát hiện đối tượng và phân đoạn ngữ nghĩa.

Trong phát hiện đối tượng, mỗi pixel hình ảnh được phân loại cho dù nó thuộc về một lớp cụ thể (ví dụ: khuôn mặt) hay không. Trong thực tế, điều này được đơn giản hóa bằng cách nhóm các pixel lại với nhau để tạo thành các khung giới hạn, do đó giảm vấn đề để quyết định xem hộp giới hạn có phù hợp chặt chẽ xung quanh đối tượng hay không. Vì pixel có thể thuộc về nhiều đối tượng (ví dụ: mặt, mắt), chúng có thể giữ nhiều nhãn cùng một lúc.

Mặt khác, phân đoạn ngữ nghĩa liên quan đến việc gán nhãn lớp cho từng pixel hình ảnh. Mặc dù chúng cho phép độ chính xác nội địa hóa tốt hơn vì chúng không kết hợp đơn giản hóa hộp giới hạn, nhưng chúng thực thi nghiêm ngặt một nhãn trên mỗi pixel.

— phải đối mặt
nguồn

-2

Phân đoạn ngữ nghĩa: Nhiệm vụ phân cụm các phần của hình ảnh lại với nhau thuộc cùng một lớp đối tượng. ví dụ: phát hiện biển báo đường bộ

— Gan
nguồn

2

Nhưng phát hiện biển báo đường là phát hiện đối tượng. Bạn có thể giải thích sự khác biệt?

— Revierpost