Kỹ thuật phân đoạn hình ảnh hiện đại phổ biến nhất hiện nay


11

Tôi đã đọc một số kỹ thuật phân đoạn hình ảnh và tôi đã tự hỏi về các thuật toán phân đoạn hiện đại, hiện đại.

Những kỹ thuật phân khúc hiện tại nào là 'phải đọc', tức là hiện đang được sử dụng phổ biến nhất trong cộng đồng? Những kỹ thuật nào bạn đã tiếp xúc và thấy hiệu quả và hữu ích nhất (và cho ứng dụng nào)?


Bạn đã nhìn ở đâu cho đến nay?
Phonon

1
Tôi đã thực hiện một số bài đọc về Cắt giảm bình thường, Cắt đồ thị, Cắt tối thiểu ngoài các phương pháp Tập cấp độ và Phương pháp diễu hành nhanh.
GamingX

3
Đẹp và ngắn, từ tháng 11 năm 2012: Phân đoạn hình ảnh: Đánh giá .
Emre

(chỉnh sửa lấy cảm hứng từ câu hỏi này trên nền tảng, có lẽ câu hỏi này có thể trở thành một tài liệu tham khảo tương tự với các phương pháp phân khúc)
Penelope

Câu trả lời:


7

Tôi không biết về nhiều kỹ thuật phân đoạn, nhưng tôi đã xử lý các cấu trúc cung cấp "sự lựa chọn" các mảnh phân đoạn có thể được kiểm tra thêm để tạo ra một phân đoạn thỏa mãn.

Hy vọng rằng ai đó khác có thể viết về một số phương pháp phân khúc hiện đại khác nhau mà tôi không biết nhiều.

Một giới thiệu nhỏ về lý do tại sao thật tốt khi có các lựa chọn hoặc cấp độ phân đoạn cho một hình ảnh khác: phân khúc là một vấn đề không xác định . Sự thật cơ bản không tồn tại: kết quả mong muốn luôn phụ thuộc vào yêu cầu và thông số kỹ thuật của người dùng. Một câu nói hay:

Ngay cả đối với một hình ảnh cố định, có thể có nhiều phân đoạn "tốt nhất" vì các tiêu chí xác định chất lượng của phân khúc phụ thuộc vào ứng dụng. Điều này thúc đẩy chúng tôi tập trung nghiên cứu về các kỹ thuật phân vùng hình ảnh cung cấp các "mảnh ghép" có thể được sử dụng (...) để tạo ra một phân đoạn đáp ứng các yêu cầu cụ thể của người dùng

( P. Soille: Kết nối bị ràng buộc để phân vùng và đơn giản hóa hình ảnh phân cấp (2008) )

cấu trúc phân cấp , phân rã hình ảnh phân cấp đề xuất phân vùng hình ảnh với độ phức tạp khác nhau. Các cấu trúc này được biểu diễn đơn giản nhất là các cấu trúc cây, trong đó mỗi nút đại diện cho một vùng trong ảnh. Ý tưởng với các cấu trúc:

  • các lá của cấu trúc là các vùng của một phân vùng tốt hoặc phân đoạn quá mức của một hình ảnh (ví dụ: pixel, các vùng phẳng - các vùng được kết nối có cùng cường độ, đầu nguồn )
  • các liên kết trong cây đại diện cho sự hợp nhất hoặc liên kết của các khu vực (lân cận) và tạo thành một khu vực phức tạp hơn và được xây dựng theo cách có khả năng tạo ra các khu vực tương ứng với các đối tượng (hy vọng :))
  • độ phức tạp của các vùng tăng dọc theo mỗi nhánh từ các nút đến gốc của cây
  • mỗi cấp độ của cây (cũng vậy, mỗi lần cắt) là một phân vùng / phân đoạn của một hình ảnh (thô hơn càng gần gốc)
  • gốc của cây bao gồm toàn bộ miền hình ảnh

Việc phân chia hơn bao gồm kiểm tra các vùng và các hiệp hội được đề xuất của chúng, để xác định các vùng trong cây hoặc vết cắt của cây tương ứng với độ chính xác cần thiết hoặc một số thuộc tính đã biết về đối tượng quan tâm hoặc thông số kỹ thuật người dùng được xác định trước khác.

Cây (nghĩa là phân rã hình ảnh phân cấp) với các thuộc tính như vậy là:

Ngoài các liên kết đến các giấy tờ đã được cung cấp, một số giấy tờ hiện tại cụ thể và ít cụ thể hơn về các loại kỹ thuật phân khúc này:

(thực tế hơn):


1
Đối với các gia đình thuật toán phân khúc "hiện đại" (và hợp thời trang), tôi sẽ thêm các siêu phẩm. Googling cho thuật ngữ này thực sự ấn tượng.
sansuiso

@sansuiso Vâng, thêm nó vào như một câu trả lời :) Hy vọng chúng ta có thể thu thập một số cách tiếp cận phân khúc hiện đại thú vị trong câu hỏi này
Penelope

6

Là một phụ lục cho câu trả lời của Penelope , hai gia đình phổ biến (và hợp thời trang) về thuật toán.

Siêu phẩm

Một họ thuật toán rất phổ biến được gọi là Superpixels hiện đang rất hợp thời (thậm chí có một số phiên Superpixel trong các hội nghị CV). Superpixels rất giống như phân đoạn quá mức (như những gì đầu nguồn mang lại cho bạn), vì vậy một số xử lý hậu kỳ là bắt buộc.

Superpixels có thể được xem là vùng hình ảnh đồng nhất nhỏ . Khoảng cách giữa các pixel được đánh giá là trong lọc song phương, nghĩa là, đó là sự pha trộn giữa khoảng cách không gian của chúng và độ tương tự hình ảnh của chúng bằng 0 khi chúng gần và giống nhau và với một số giá trị lớn hơn.
Sau đó, các phương pháp superpixels thử các tiêu chí khác nhau để tạo thành các vùng đồng nhất nhỏ đối với biện pháp này. Có rất nhiều trong số chúng (dựa trên biểu đồ, tìm kiếm chế độ / phân cụm dựa trên ...), vì vậy tôi đoán rằng tốt nhất nên giới thiệu bạn đến báo cáo công nghệ này .

(chỉnh sửa :) Trong trường hợp ai đó đang tìm kiếm một tác phẩm được đánh giá ngang hàng được xuất bản, bài viết này là của cùng các tác giả và bao gồm cùng một tài liệu như báo cáo công nghệ: R. Achanta, A. Shaji, K. Smith, A. Lucchi, P. Fua, S. Susstrunk: SLIC Superpixels So với các phương pháp Superpixel hiện đại

Lưu ý khi tôi viết phiên bản đầu tiên của câu trả lời rằng trực quan các kết quả rất giống với những gì phân khúc đầu nguồn cung cấp cho bạn. Điều này được xác nhận bởi các tác giả của báo cáo công nghệ bao gồm các lưu vực sông trong phần công việc liên quan. Do đó, bạn cũng cần thực hiện xử lý hậu kỳ tương tự: trong khi superpixels có thể là các tính năng tiện dụng để sử dụng thay vì pixel, chúng vẫn cần được nhóm lại để tạo thành các khu vực cấp cao hơn nếu bạn cần theo dõi / phát hiện đối tượng.

Phương pháp phân đoạn dựa trên đồ thị

Một họ thuật toán phổ biến khác đến từ việc phân tích mối quan hệ pixel, tức là cách các pixel gần nhau xuất hiện. Điều này mang lại một họ các phương pháp phân đoạn dựa trên lý thuyết đồ thị như cắt bình thường hóa (J. Shi, J. Malik: Cắt bình thường hóa và Phân đoạn hình ảnh ) .

Đây là trực giác cho phương pháp này: giả sử các pixel của bạn bây giờ là các điểm (đỉnh) của đồ thị chiều cao.
Trong biểu đồ, hai đỉnh có thể được kết nối bởi một cạnh , có trọng lượng tỷ lệ nghịch với một khoảng cách giữa các đỉnh. Thông thường, hàm trọng số sẽ là một số đối ứng của sự pha trộn giữa khoảng cách không gian của chúng và độ tương tự thị giác của chúng 8as trong lọc song phương).
Sau đó, được đưa ra biểu đồ này, các thuật toán phân đoạn có thể tìm kiếm các cụm tốt nhất của đỉnh, tức là, nhóm các đỉnh có một nhỏ trong nội bộ nhóm khoảng cách và một lớn thêm nhóm khoảng cách.

Trong phương pháp Cắt chuẩn hóa, một số chăm sóc bổ sung được thực hiện để tránh mọi sai lệch được đưa ra bởi các kích thước dân số khác nhau của các cụm. Hơn nữa, thăm dò đồ thị có thể tránh được bằng cách tính toán SVD của ma trận trọng số, còn được gọi là ma trận kết nối trong lý thuyết đồ thị.


Này, tôi phải mất một lúc, cảm ơn vì câu trả lời, nhưng ... bạn có thể mở rộng ít nhất một chút về 2 kỹ thuật bạn đã đề cập không? Tôi không có nghĩa là giải thích chúng chi tiết ở đây, nhưng tôi thực sự sẽ đánh giá cao một hoặc hai câu mô tả về mỗi câu đó.
Penelope

Tôi mở rộng câu trả lời. Mặc dù có một chút khó hiểu, tốt nhất là tham khảo báo cáo công nghệ mà tôi liên kết trong câu trả lời (Tôi phải thừa nhận rằng tôi không phải là một anh chàng siêu nhân và tôi vẫn hơi nghi ngờ về sự quan tâm của họ, mặc dù họ là thực sự hợp thời trang).
sansuiso

Đối với các phương pháp phân đoạn dựa trên biểu đồ, tôi nghĩ rằng công việc này gợi ý một trong những trạng thái tốt nhất của kết quả nghệ thuật: Research.microsoft.com/pub/167600/jmiv_bnm_final.pdf Đây là một bài báo và mã trực quan có sẵn.
Birdga Tolga

3

Tôi đoán cho một cái nhìn tổng quan toàn cầu về tình trạng của các thuật toán nghệ thuật cho phân khúc người ta cần tìm kiếm các cuộc khảo sát mới nhất. Một tổng quan toàn cầu tốt với những thách thức được trình bày trong Sách của Szeliski .

nhập mô tả hình ảnh ở đây

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.