Theo như phân loại dựa trên pixel, bạn có thể thấy được. Mỗi pixel là một vectơ n chiều và sẽ được gán cho một số lớp theo một số liệu, cho dù sử dụng Support Vector Machines, MLE, một số loại phân loại knn, v.v.
Tuy nhiên, đối với các phân loại theo khu vực có liên quan, đã có những phát triển lớn trong vài năm qua, được thúc đẩy bởi sự kết hợp của GPU, lượng dữ liệu khổng lồ, đám mây và thuật toán có sẵn rộng rãi nhờ vào sự phát triển của nguồn mở (được tạo điều kiện bởi github). Một trong những phát triển lớn nhất trong tầm nhìn / phân loại máy tính là trong các mạng thần kinh tích chập (CNNs). Các tính năng "học" các lớp chập có thể dựa trên màu sắc, như với các trình phân loại dựa trên pixel truyền thống, nhưng cũng tạo ra các trình phát hiện cạnh và tất cả các loại trình trích xuất tính năng khác có thể tồn tại trong một vùng pixel (do đó là phần tích chập) mà bạn không bao giờ có thể trích xuất từ một phân loại dựa trên pixel. Điều này có nghĩa là họ ít có khả năng phân loại sai một pixel ở giữa một khu vực pixel thuộc một số loại khác - nếu bạn đã từng chạy phân loại và bị đóng băng ở giữa Amazon, bạn sẽ hiểu vấn đề này.
Sau đó, bạn áp dụng một mạng lưới thần kinh được kết nối đầy đủ với các "tính năng" đã học thông qua các cấu trúc để thực sự phân loại. Một trong những lợi thế lớn khác của CNN là chúng bất biến tỷ lệ và xoay, vì thường có các lớp trung gian giữa các lớp chập và lớp phân loại tổng quát hóa các tính năng, sử dụng gộp và bỏ, để tránh quá mức và giúp giải quyết các vấn đề xung quanh quy mô và định hướng.
Có rất nhiều tài nguyên trên các mạng thần kinh tích chập, mặc dù tốt nhất phải là lớp Standord từ Andrei Karpathy , một trong những người tiên phong của lĩnh vực này, và toàn bộ loạt bài giảng có sẵn trên youtube .
Chắc chắn, có nhiều cách khác để xử lý pixel so với phân loại dựa trên khu vực, nhưng hiện tại đây là phương pháp tiếp cận hiện đại và có nhiều ứng dụng vượt ra ngoài phân loại viễn thám, như dịch máy và xe tự lái.
Dưới đây là một ví dụ khác về phân loại dựa trên khu vực , sử dụng Open Street Map cho dữ liệu đào tạo được gắn thẻ, bao gồm các hướng dẫn để thiết lập TensorFlow và chạy trên AWS.
Dưới đây là một ví dụ sử dụng Google Earth Engine của trình phân loại dựa trên phát hiện cạnh, trong trường hợp này để tưới trục - không sử dụng gì nhiều hơn hạt nhân Gaussian và kết quả, nhưng một lần nữa, cho thấy sức mạnh của các phương pháp tiếp cận dựa trên khu vực / cạnh.
Mặc dù tính ưu việt của đối tượng so với phân loại dựa trên pixel được chấp nhận khá rộng rãi, đây là một bài viết thú vị trong Remote Sensing Letters đánh giá hiệu suất của phân loại dựa trên đối tượng .
Cuối cùng, một ví dụ thú vị, chỉ ra rằng ngay cả với các phân loại dựa trên khu vực / tích chập, tầm nhìn máy tính vẫn rất khó khăn - may mắn thay, những người thông minh nhất tại Google, Facebook, v.v., đang nghiên cứu các thuật toán để có thể xác định sự khác biệt giữa chó, mèo, và các giống chó và mèo khác nhau. Vì vậy, những người sử dụng quan tâm đến viễn thám có thể ngủ dễ dàng vào ban đêm: D