Phân đoạn hình ảnh không giám sát


10

Tôi đang cố gắng thực hiện một thuật toán trong đó đưa ra một hình ảnh với một số đối tượng trên một mặt phẳng, mong muốn là đầu ra của mặt nạ phân đoạn cho mỗi đối tượng. Không giống như trong CNN, mục tiêu ở đây là phát hiện các vật thể trong một môi trường xa lạ. Các phương pháp tốt nhất cho vấn đề này là gì? Ngoài ra, có bất kỳ ví dụ thực hiện có sẵn trực tuyến?

Chỉnh sửa: Tôi xin lỗi, câu hỏi có thể là một chút sai lệch. Điều tôi muốn nói là "môi trường xa lạ" là các đối tượng có thể chưa biết đến thuật toán. Thuật toán không cần phải hiểu đối tượng là gì, mà chỉ nên phát hiện đối tượng. Làm thế nào tôi nên tiếp cận vấn đề này?


"không giống như trong CNN" không có ý nghĩa; CNN là một loại mô hình, không phải là một loại nhiệm vụ với mục tiêu. Phân đoạn hình ảnh không được giám sát cũng có thể được thực hiện bằng cách sử dụng CNN
Nathan

Câu trả lời:


4

Trả lời nhanh

LSH dịch chuyển trung bình là một bản nâng cấp trong O(n) của thuật toán Shift trung bình nổi tiếng trong cũng biết về khả năng phân đoạn hình ảnh của nóO(n2)

Một số giải thích

KO(n)K-Có nghĩa là thất bại vì nó được thiết kế để tìm các cụm hình elip và KHÔNG phải là hình dạng ngẫu nhiên.

Ngược lại, chúng ta có Shift trung bình có thể tự động tìm số cụm - rất hữu ích khi bạn không biết bạn đang tìm kiếm điều gì - với hình dạng ngẫu nhiên .

KK

Một lời khuyên cho phân cụm hình ảnh

Chuyển đổi không gian màu của bạn từ RGB sang LUV, tốt hơn cho khoảng cách euclide.

K

  • O(α.n)
  • O(β.n)
  • α>β

Có nghĩa là Shift LSH chậm hơn nhưng phù hợp hơn với nhu cầu của bạn. Nó vẫn đứng tuyến tính và cũng có thể mở rộng với việc thực hiện được đề cập.

Tái bút: Ảnh hồ sơ của tôi là một ứng dụng của LSH Shift trung bình trên bản thân tôi nếu nó có thể giúp tìm ra cách thức hoạt động của nó.


3

Bạn có thể cần xem qua tác phẩm này được gửi và chấp nhận cho CVPR 2018: Học cách phân khúc mọi thứ

Trong công việc này, họ cố gắng phân đoạn mọi thứ, thậm chí cả các đối tượng không biết đến mạng. Mặt nạ R-CNN đã được sử dụng, kết hợp với mạng con học chuyển, họ nhận được kết quả rất tốt trong việc phân đoạn hầu hết mọi thứ.


2

Công nghệ tiên tiến (SOTA) cho phân đoạn hình ảnh sẽ là Mặt nạ-RCNN của Facebook .

Mặc dù nó thường được đào tạo về các tập dữ liệu như COCO hoặc Pascal có các đối tượng trong đời thực, bạn có thể đào tạo lại nó trên một tập dữ liệu bạn chọn, có thật hay không.

Facebook cung cấp một triển khai ( Detectron ) theo giấy phép Apache2. Hãy thử một lần!


Thật ra tôi nghĩ tôi đã hỏi câu hỏi một cách sai lệch, xấu của tôi. Tôi vừa đăng một bản chỉnh sửa, bạn có thể xem lại không?
MuhsinFatih

2

Trên thực tế, nhiệm vụ của bạn được giám sát. Segnetcó thể là kiến ​​trúc tốt cho mục đích của bạn mà một trong những triển khai của nó có thể được truy cập ở đây . SegNet học cách dự đoán nhãn lớp thông minh pixel từ việc học có giám sát. Do đó, chúng tôi yêu cầu một bộ dữ liệu hình ảnh đầu vào với nhãn sự thật mặt đất tương ứng. Nhãn hình ảnh phải có kênh đơn, với mỗi điểm ảnh được dán nhãn với các lớp học ... .

Ngoài ra, hãy xem Mạng đầy đủ kết hợp rất phù hợp với nhiệm vụ của bạn.


Dựa trên các chỉnh sửa trong câu hỏi, tôi thêm thông tin bổ sung. Có rất nhiều phương pháp có thể được áp dụng cho nhiệm vụ này. Về cơ bản, cách dễ nhất là sử dụng nhãn nền và phân loại các lớp mà bạn không biết làm nền bằng cách sử dụng các kiến ​​trúc được đề cập. Bằng cách làm như vậy, bạn sẽ có các nhãn có thể trùng lặp với lớp nền, đó là nhược điểm có thể xảy ra của phương pháp này nhưng ưu điểm của nó là trong trường hợp các nhãn được đào tạo của bạn thường được sử dụng trong các đầu vào, bạn có thể có một phiên bản kiến ​​trúc tương đối nhẹ công nhận các lớp chưa biết.


Thật ra tôi nghĩ tôi đã hỏi câu hỏi một cách sai lệch, xấu của tôi. Tôi vừa đăng một bản chỉnh sửa, bạn có thể xem lại không?
MuhsinFatih

@MuhsinFatih chỉnh sửa.
Truyền thông

Nó chắc chắn sẽ dễ dàng hơn và đạt được hiệu suất tốt hơn, nếu đây là một nhiệm vụ được giám sát, nhưng phân đoạn hình ảnh không giám sát cũng có thể.
Nathan

@Nathan Tôi đã đề xuất ý kiến ​​của riêng tôi tại thời điểm đó. Chắc chắn, nó là có thể.
Truyền thông

1

Đây có thể là một cái gì đó mà bạn đang tìm kiếm. Vì bạn yêu cầu phân đoạn hình ảnh và không semantic / instancephân khúc, tôi cho rằng bạn không yêu cầu ghi nhãn cho từng phân đoạn trong hình ảnh.

Phương pháp này được gọi là scene-cutphân đoạn một hình ảnh thành các khu vực bất khả tri theo kiểu không giám sát. Điều này hoạt động rất tốt trong trường hợp môi trường lộn xộn trong nhà.

Liên kết giấy: arxiv

Mã:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.