Phân biệt giữa phân loại dựa trên pixel và dựa trên đối tượng?


14

Tôi đang đấu tranh để hiểu rõ sự khác biệt giữa phân loại dựa trên pixel và dựa trên đối tượng trong miền viễn thám và hy vọng ai đó từ cộng đồng này có thể cung cấp cái nhìn sâu sắc.

Dựa trên thông tin tôi có cho đến nay, sự hiểu biết hiện tại của tôi là dọc theo những dòng này:

Phân loại dựa trên pixel: Phân loại được thực hiện theo cấp độ pixel, chỉ sử dụng thông tin phổ có sẵn cho từng pixel đó (nghĩa là các giá trị pixel trong địa phương bị bỏ qua). Theo nghĩa này, mỗi pixel sẽ đại diện cho một ví dụ đào tạo cho thuật toán phân loại và ví dụ đào tạo này sẽ ở dạng vectơ n chiều, trong đó n là số lượng dải quang phổ trong dữ liệu hình ảnh. Theo đó, thuật toán phân loại được đào tạo sẽ đưa ra dự đoán lớp cho từng pixel riêng lẻ trong một hình ảnh.

Phân loại dựa trên đối tượng: Phân loại được thực hiện trên một nhóm pixel được bản địa hóa, có tính đến các thuộc tính không gian của từng pixel khi chúng liên quan với nhau. Theo nghĩa này, một ví dụ đào tạo cho thuật toán phân loại sẽ bao gồm một nhóm các pixel và thuật toán phân loại được đào tạo theo đó sẽ đưa ra dự đoán lớp cho các pixel trên cơ sở nhóm. Đối với một ví dụ thô, một hình ảnh có thể được phân chia thành n phân đoạn có kích thước bằng nhau và mỗi phân đoạn sau đó sẽ được cung cấp một lớp (tức là chứa đối tượng / không chứa đối tượng).

Là suy nghĩ này chính xác liên quan đến ý nghĩa của các điều khoản này, hoặc có một cái gì đó mà tôi đã bỏ lỡ?

Câu trả lời:


9

Sự hiểu biết của bạn nói chung là chính xác, tuy nhiên, có những nguy hiểm trong mô tả của bạn về phân loại dựa trên đối tượng - thuật ngữ 'đối tượng' dùng để chỉ nhóm pixel, chứ không phải nó có chứa một đối tượng nhất định hay không.
Hơn nữa, mục tiêu trung tâm trong phân loại dựa trên đối tượng không phải là có các phân đoạn có kích thước bằng nhau, mà là "cắt nhỏ" / phân đoạn hình ảnh thành các khối đồng nhất bên trong kích thước khác nhau . Cuối cùng, ví dụ đào tạo cho phân loại dựa trên đối tượng thường sẽ là một hoặc nhiều khối được tạo trong phân đoạn hình ảnh.

Nói chung, trên đây chỉ là những biến thể nhỏ theo mô tả của bạn.

Bây giờ vào phần trung tâm - khi nào nên áp dụng từng phương pháp và cách kết hợp các điểm mạnh của chúng.


Cảm ơn bạn, điều đó đã thực sự giúp làm rõ. Tôi đã có một sự nghi ngờ rằng tôi đã không hiểu được sự tinh tế của phân loại dựa trên đối tượng! Thật thú vị khi bạn đề cập đến khả năng của các phương pháp lai, tôi chưa nghĩ đến điều đó. Tôi có thể hỏi, nếu tôi thực hiện một cách tiếp cận cửa sổ trượt để phát hiện và phân loại các đối tượng, có thuật ngữ kỹ thuật nào cho cách tiếp cận như vậy được áp dụng trong miền viễn thám không?
RDG

1
vâng, nó được gọi là kết luận. Xem câu trả lời của tôi.
John Powell

Theo tôi, không có sức mạnh trong phân loại dựa trên pixel. Có các quy trình công việc thú vị liên quan đến kết quả cộng với hồi quy để dự đoán các hộp và vị trí giới hạn, nhưng bản thân phân loại dựa trên pixel không có giá trị, imho.
John Powell

1
@ JohnPowellakaBarça - có một số cách tiếp cận dựa trên pixel, khi xem xét các ứng dụng đa ngành, trong đó việc phân loại tập trung nhiều hơn vào việc thay đổi các khu vực, thay vì dấu thời gian đơn truyền thống.
Mikkel Lydholm Rasmussen

1
Chắc chắn, vâng, đủ công bằng. Mặc dù, có thể nói, các cách tiếp cận dựa trên khu vực, được vector hóa, và sau đó được so sánh qua thời gian, có thể mang lại cái nhìn sâu sắc tiềm năng lớn hơn, nhưng quan điểm của bạn được thực hiện tốt.
John Powell

12

Theo như phân loại dựa trên pixel, bạn có thể thấy được. Mỗi pixel là một vectơ n chiều và sẽ được gán cho một số lớp theo một số liệu, cho dù sử dụng Support Vector Machines, MLE, một số loại phân loại knn, v.v.

Tuy nhiên, đối với các phân loại theo khu vực có liên quan, đã có những phát triển lớn trong vài năm qua, được thúc đẩy bởi sự kết hợp của GPU, lượng dữ liệu khổng lồ, đám mây và thuật toán có sẵn rộng rãi nhờ vào sự phát triển của nguồn mở (được tạo điều kiện bởi github). Một trong những phát triển lớn nhất trong tầm nhìn / phân loại máy tính là trong các mạng thần kinh tích chập (CNNs). Các tính năng "học" các lớp chập có thể dựa trên màu sắc, như với các trình phân loại dựa trên pixel truyền thống, nhưng cũng tạo ra các trình phát hiện cạnh và tất cả các loại trình trích xuất tính năng khác có thể tồn tại trong một vùng pixel (do đó là phần tích chập) mà bạn không bao giờ có thể trích xuất từ ​​một phân loại dựa trên pixel. Điều này có nghĩa là họ ít có khả năng phân loại sai một pixel ở giữa một khu vực pixel thuộc một số loại khác - nếu bạn đã từng chạy phân loại và bị đóng băng ở giữa Amazon, bạn sẽ hiểu vấn đề này.

Sau đó, bạn áp dụng một mạng lưới thần kinh được kết nối đầy đủ với các "tính năng" đã học thông qua các cấu trúc để thực sự phân loại. Một trong những lợi thế lớn khác của CNN là chúng bất biến tỷ lệ và xoay, vì thường có các lớp trung gian giữa các lớp chập và lớp phân loại tổng quát hóa các tính năng, sử dụng gộp và bỏ, để tránh quá mức và giúp giải quyết các vấn đề xung quanh quy mô và định hướng.

Có rất nhiều tài nguyên trên các mạng thần kinh tích chập, mặc dù tốt nhất phải là lớp Standord từ Andrei Karpathy , một trong những người tiên phong của lĩnh vực này, và toàn bộ loạt bài giảng có sẵn trên youtube .

Chắc chắn, có nhiều cách khác để xử lý pixel so với phân loại dựa trên khu vực, nhưng hiện tại đây là phương pháp tiếp cận hiện đại và có nhiều ứng dụng vượt ra ngoài phân loại viễn thám, như dịch máy và xe tự lái.

Dưới đây là một ví dụ khác về phân loại dựa trên khu vực , sử dụng Open Street Map cho dữ liệu đào tạo được gắn thẻ, bao gồm các hướng dẫn để thiết lập TensorFlow và chạy trên AWS.

Dưới đây là một ví dụ sử dụng Google Earth Engine của trình phân loại dựa trên phát hiện cạnh, trong trường hợp này để tưới trục - không sử dụng gì nhiều hơn hạt nhân Gaussian và kết quả, nhưng một lần nữa, cho thấy sức mạnh của các phương pháp tiếp cận dựa trên khu vực / cạnh.

nhập mô tả hình ảnh ở đây

Mặc dù tính ưu việt của đối tượng so với phân loại dựa trên pixel được chấp nhận khá rộng rãi, đây là một bài viết thú vị trong Remote Sensing Letters đánh giá hiệu suất của phân loại dựa trên đối tượng .

Cuối cùng, một ví dụ thú vị, chỉ ra rằng ngay cả với các phân loại dựa trên khu vực / tích chập, tầm nhìn máy tính vẫn rất khó khăn - may mắn thay, những người thông minh nhất tại Google, Facebook, v.v., đang nghiên cứu các thuật toán để có thể xác định sự khác biệt giữa chó, mèo, và các giống chó và mèo khác nhau. Vì vậy, những người sử dụng quan tâm đến viễn thám có thể ngủ dễ dàng vào ban đêm: D

nhập mô tả hình ảnh ở đây


0

Một câu trả lời rất đơn giản như sau:

Nếu bạn chỉ sử dụng thông tin phổ (cường độ pixel) làm tập huấn luyện, bạn sẽ phân loại cơ sở pixel.

Nếu bạn sử dụng cả thông tin không gian (pixel lân cận) và thông tin phổ làm tập huấn luyện, bạn thực hiện phân loại cơ sở đối tượng (sử dụng thuật toán dựa trên phân đoạn, ví dụ DBScan). Trong Computer Vision, DBScan này được sử dụng để trích xuất Superpixel.

Lưu ý: bạn có thể sử dụng thông tin phổ theo bất kỳ ý nghĩa nào (kích thước, hình dạng, bối cảnh / kết cấu) để trích xuất tính năng.

Bạn có thể sử dụng các phương pháp khác nhau để thực hiện trích xuất tính năng bằng cách sử dụng thông tin phổ.

Câu hỏi chính là Làm thế nào người ta có thể tìm ra cách tiếp cận phù hợp nhất để trích xuất tính năng và áp dụng thuật toán hiệu quả (phát hiện cạnh, phân đoạn dựa trên quang phổ, Phân cụm) cho vấn đề đặt ra để đẩy thông tin ra khỏi thông tin phổ.

Người ta có thể nghĩ về ma trận tích chập để thực hiện một phân tích hay về cả thông tin phổ và không gian để tạo ra một tập huấn luyện.

Tham khảo: Kiến thức của tôi sau khi có hơn 3 năm làm việc trong lĩnh vực Viễn thám và Miền GIS.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.