Tôi đã đọc rất nhiều bài báo về, Phát hiện đối tượng, Nhận dạng đối tượng, Phân đoạn đối tượng, Phân đoạn hình ảnh và Phân đoạn hình ảnh ngữ nghĩa và đây là kết luận của tôi không thể đúng:
Nhận dạng đối tượng: Trong một hình ảnh nhất định, bạn phải phát hiện tất cả các đối tượng (một lớp đối tượng bị hạn chế phụ thuộc vào tập dữ liệu của bạn), Định vị chúng bằng hộp giới hạn và nhãn gắn hộp giới hạn với nhãn. Trong hình ảnh dưới đây, bạn sẽ thấy một đầu ra đơn giản của trạng thái nhận dạng đối tượng nghệ thuật.
Phát hiện đối tượng: nó giống như nhận dạng đối tượng nhưng trong tác vụ này, bạn chỉ có hai lớp phân loại đối tượng, có nghĩa là hộp giới hạn đối tượng và hộp không giới hạn đối tượng. Ví dụ: Phát hiện xe hơi: bạn phải Phát hiện tất cả các xe trong một hình ảnh nhất định với các hộp giới hạn của chúng.
Phân đoạn đối tượng: Giống như nhận dạng đối tượng, bạn sẽ nhận ra tất cả các đối tượng trong một hình ảnh nhưng đầu ra của bạn sẽ hiển thị đối tượng này phân loại pixel của hình ảnh.
Phân đoạn hình ảnh: Trong phân đoạn hình ảnh, bạn sẽ phân đoạn các khu vực của hình ảnh. đầu ra của bạn sẽ không gắn nhãn các phân đoạn và khu vực của một hình ảnh phù hợp với nhau phải ở cùng một phân khúc. Trích xuất siêu pixel từ một hình ảnh là một ví dụ về tác vụ này hoặc phân đoạn nền trước.
Phân đoạn ngữ nghĩa: Trong phân đoạn ngữ nghĩa, bạn phải gắn nhãn cho từng pixel bằng một lớp đối tượng (Xe, Người, Chó, ...) và phi đối tượng (Nước, Bầu trời, Đường, ...). Tôi nói các từ khác trong Phân đoạn ngữ nghĩa, bạn sẽ gắn nhãn cho từng vùng của hình ảnh.