Làm nhiều lớp đối tượng tăng hoặc giảm độ chính xác của phát hiện đối tượng


7

Giả sử bạn có bộ dữ liệu phát hiện đối tượng (ví dụ: MS COCO hoặc Pascal VOC) với hình ảnh N trong đó các lớp đối tượng k đã được dán nhãn. Bạn huấn luyện một mạng lưới thần kinh (ví dụ: Faster-RCNN hoặc YOLO) và đo lường độ chính xác (ví dụ: IOU@0.5).

Bây giờ bạn giới thiệu x các lớp đối tượng bổ sung và thêm các nhãn tương ứng vào tập dữ liệu ban đầu của bạn, cung cấp cho bạn một tập dữ liệu với hình ảnh N trong đó các lớp đối tượng k + x đã được labeld.

Độ chính xác của mạng được đào tạo sẽ tăng hay giảm?

Để cụ thể hơn, chúng tôi có một bộ dữ liệu ký hiệu giao thông với khoảng 20 lớp đối tượng. Bây giờ chúng tôi đang suy nghĩ về việc thêm các lớp ký hiệu lưu lượng truy cập bổ sung (gắn nhãn các lớp mới, mà không thêm hình ảnh mới hoặc thay đổi kiến ​​trúc mạng của chúng tôi) và chúng tôi tự hỏi liệu điều này sẽ làm tăng hiệu suất giảm.

Một mặt tôi nghĩ rằng nhiều lớp đối tượng sẽ làm cho sự phân biệt giữa các lớp khó hơn. Ngoài ra, một mạng lưới thần kinh chỉ có thể chứa một lượng thông tin hạn chế, có nghĩa là nếu số lượng lớp trở nên rất lớn thì có thể không đủ trọng lượng để đối phó với tất cả các lớp.

Mặt khác, nhiều lớp đối tượng hơn có nghĩa là nhiều nhãn hơn có thể giúp mạng lưới thần kinh. Ngoài ra, chuyển hiệu ứng học tập giữa các lớp có thể làm tăng độ chính xác của mạng.

Theo tôi nên có một số điểm ngọt ngào cho mỗi kiến ​​trúc mạng nhưng tôi không thể tìm thấy bất kỳ tài liệu, nghiên cứu hoặc thí nghiệm nào về chủ đề này.


Tôi không hiểu bạn đang cố làm gì. Theo hiểu biết của tôi, bạn có một mạng được đào tạo, sửa chữa tất cả các tham số có liên quan (đầu vào, đầu ra, trọng lượng, kiến ​​trúc). Bạn đang cố gắng thay đổi điều gì? Nếu bạn thay đổi dữ liệu đầu vào, không có cách nào để biết điều gì sẽ xảy ra. Nếu bạn thay đổi hình dạng của đầu vào, kiến ​​trúc hoặc đầu ra, mạng không thể được sử dụng nữa, vì nó không còn được xác định.
cherub

@cherub xin lỗi nếu điều này không rõ ràng, các tham số đầu vào, đầu ra và trọng lượng được thay đổi trong quá trình đào tạo các bộ dữ liệu lớn hơn (có nhãn lớp bổ sung). Nhưng kiến ​​trúc tổng thể của mạng nên vẫn còn.
SaiBot

Câu trả lời:


3

Hành vi phân loại cụ thể sẽ phụ thuộc vào hình thức mô hình cụ thể theo phương pháp phân loại. Đáp ứng chính xác của một mô hình cho các lớp đối tượng bổ sung có thể được suy ra bằng toán học trong các trường hợp cụ thể, mặc dù điều này có thể phức tạp. Vì bạn chưa đưa ra chi tiết về một phương thức cụ thể, tôi sẽ giả định rằng bạn quan tâm nhiều hơn đến phản ứng chung của các mô hình phân loại để thêm hoặc xóa các lớp đối tượng. Để trả lời điều này, tôi sẽ cung cấp một lời giải thích trực quan về những gì bạn nên mong đợi trong một mô hình hợp lý của loại tình huống này. Trong phạm vi mà mô hình khởi hành từ kết quả trực quan này, trong điều kiện rộng, tôi coi đó là một thiếu sót. Do đó, tôi coi các phản ứng sau đây là một desideratum cho một hệ thống dự đoán đối tượng.


Dự đoán trong một mô hình với các lớp đối tượng tùy ý: Để giúp phân tích vấn đề này, giả sử bạn cóN hình ảnh của các biển báo đường phố (hoặc bất cứ thứ gì khác) mà mỗi cái là một mcác loại. Không mất tính tổng quát, hãy đểθ1,...,θNM{1,2,...,m}là loại thực sự của các đối tượng mà bạn đang cố gắng phân loại, vớiMlà các loại đối tượng thực sự. Giả sử bạn áp đặt một hệ thống phát hiện phân loại từng hình ảnh thành các loại trong tập hữu hạnSN, nơi chúng tôi lưu ý rằng S có thể bao gồm các nhãn trong M, nhưng nó cũng có thể bao gồm các giá trị không có trong bộ này (nghĩa là có thể hệ thống phát hiện của bạn có thể đang cố gắng tìm các loại đối tượng không có ở đó).

Một hệ thống phát hiện loại này xem xét dữ liệu hình ảnh từ mỗi hình ảnh và sử dụng dữ liệu này để phân loại từng hình ảnh thành một loại ước tính, dựa trên các loại cho phép trong mô hình. Nói chung, điều này có thể được mô tả bởi các thành phần sau:

Dữ liệuCác kiểu mẫuƯớc tínhx1,...,xNSθ^1,...,θ^NS

Xác suất phân loại hình ảnh chính xác Tôi cho một mô hình với các loại S Là:

pTôi(S)P(θ^Tôi= =θTôi|x,S)= =ΣSM  SP(θ^Tôi= =S|x,S)Tôi(θTôi= =S).

Các yếu tố của tổng kết sau phải tuân theo ràng buộc xác suất:

ΣSM  SP(θ^Tôi= =S|x,S)= =1.

Bây giờ, rõ ràng nếu θTôiS sau đó chúng tôi có pTôi(S)= =0, vì loại đối tượng thực sự không được bao gồm trong mô hình. Do đó, nếu có các yếu tố củaM không có trong S, điều này sẽ dẫn đến việc không thể xác định chính xác các loại phần tử bị thiếu này. Mặt khác, nếu chúng ta loại trừ một yếu tố khỏi tập hợpSsau đó, ceteris paribus , điều này sẽ tăng xác suất dự đoán của các loại đối tượng còn lại, vì xác suất dự đoán phải tổng hợp thành một. Do đó, việc loại trừ một loại đối tượng sẽ có xu hướng nâng cao xác suất dự đoán cho các loại đối tượng khác, điều này làm tăng xác suất dự đoán chính xác cho các loại đối tượng thực sự nằm trongS.

Phân tích chi tiết hơn sẽ cần thiết lập kết nối giữa dữ liệu xvà các dự đoán đối tượng. Chúng tôi sẽ không đi vào chi tiết về chủ đề đó ở đây, vì mô hình cụ thể là không xác định. Tuy nhiên, chúng ta có thể coi nó như một đặc tính chung của các mô hình dự đoán rằng chúng sẽ có xu hướng khó khăn hơn trong việc phân biệt các loại đối tượng trông giống nhau và sẽ có xu hướng ít khác biệt hơn so với các loại đối tượng trông giống nhau . Do đó, loại trừ một loại đối tượng khỏi tập hợpS sẽ có xu hướng tăng xác suất dự đoán các loại đối tượng khác trong tập hợp này trông giống với đối tượng bị loại trừ này, trong trường hợp dữ liệu có lợi cho một trong các loại này.


Giải trình trên được thiết kế để đưa ra một số hướng dẫn chung, nhấn mạnh ràng buộc xác suất trong dự đoán và cách điều này tác động đến xác suất dự đoán chính xác. Điều này dẫn đến các nguyên tắc chung sau đây của mô hình phân loại được xây dựng hợp lý. Ceteris paribus , sau đây nên giữ (ít nhất là khoảng):

  • Nếu một loại đối tượng thực sự bị loại khỏi mô hình phân loại, điều này sẽ làm giảm xác suất dự đoán đúng của loại đối tượng đó về 0, nhưng nó sẽ có xu hướng tăng xác suất dự đoán đúng cho các loại đối tượng khác (đặc biệt là các loại đối tượng trông như thế này loại trừ);

  • Nếu một loại đối tượng thực sự được thêm vào mô hình phân loại, điều này sẽ cho phép mô hình có xác suất dự đoán chính xác của loại đối tượng đó, nhưng nó sẽ có xu hướng giảm xác suất dự đoán đúng cho các loại đối tượng khác (đặc biệt là đối tượng loại trông giống như loại được thêm vào);

  • Nếu một loại đối tượng sai được loại trừ khỏi mô hình phân loại, điều này sẽ có xu hướng tăng xác suất dự đoán đúng cho tất cả các loại đối tượng thực (đặc biệt là các loại đối tượng trông giống như loại bị loại trừ này); và

  • Nếu một loại đối tượng sai được thêm vào mô hình phân loại, điều này sẽ có xu hướng giảm xác suất dự đoán đúng cho tất cả các loại đối tượng thực (đặc biệt là các loại đối tượng trông giống như loại được thêm vào).

Những nguyên tắc chung này có thể có một số ngoại lệ bệnh lý trong các mô hình cụ thể, trong trường hợp có đa cộng tuyến phức tạp giữa các hình ảnh. Tuy nhiên, họ nên giữ các quy tắc chung sẽ xuất hiện trong các mô hình hoạt động tốt trong các điều kiện rộng.


Cảm ơn bạn đã trả lời công phu của bạn, nó đã cho tôi một số hiểu biết quan trọng. Câu trả lời tập trung vào giả định của tôi rằng "nhiều lớp đối tượng hơn sẽ khiến việc phân biệt giữa các lớp trở nên khó khăn hơn". Bạn có nghĩ về bốn hiệu ứng tôi đã đề cập trong câu hỏi của tôi đây là yếu tố quan trọng nhất? Tôi vẫn có cảm giác rằng nhiều nhãn hơn có thể bù lại hiệu ứng này (ít nhất là đến một số điểm). Cụ thể, phần đề xuất khu vực của mạng chắc chắn sẽ được hưởng lợi từ nhiều dữ liệu hơn.
SaiBot

1
Thật sự rất khó để nói. Các loại vấn đề đa biến này có xu hướng bị ảnh hưởng bởi các thành phần chính (hàm riêng và giá trị riêng) trong ma trận dữ liệu bạn sử dụng. Thêm hình ảnh mới có tác dụng không hề nhỏ đối với điều này, điều này rất phức tạp về mặt toán học. Tôi đồng ý rằng có sự bù đắp cho các hiệu ứng nếu bạn thêm vào hai hiệu ứng trái ngược nhau, nhưng rất khó để nói hiệu ứng tổng thể.
Ben - Tái lập Monica

Cảm ơn bạn @Ben, tôi nghĩ rằng đây là một câu trả lời rất tốt nhưng một phần. Tôi sẽ thưởng tiền thưởng nhưng không chấp nhận vì lý do này và hy vọng điều đó ổn.
SaiBot

Không có vấn đề gì (và cảm ơn vì tiền thưởng), nhưng tôi nghĩ có lẽ bạn sẽ thấy rằng một câu trả lời chi tiết hơn sẽ yêu cầu đặc điểm kỹ thuật của mẫu mô hình cụ thể mà bạn đang sử dụng, để mọi người có thể điều tra các thuộc tính toán học của nó. Chúc may mắn với vấn đề của bạn.
Ben - Tái lập Monica

1

Dưới đây là một phân tích lý thuyết chi tiết về chủ đề này. https://arxiv.org/pdf/1506.01567.pdf .

Tôi nghĩ rằng điều đó phụ thuộc vào vấn đề cụ thể và mô hình. Các đề xuất toán học của câu trả lời ở trên chỉ có thể được nói về các mô hình thống kê chung. Trong một dữ liệu hình ảnh, chúng tôi đang xem xét các kích thước rất cao và toán học ở cấp độ đó (tính phi tuyến tính cực cao của các mô hình sâu cũng được thêm vào) sẽ rất phức tạp. Điều chúng ta có thể nghĩ theo trực giác (sử dụng cách tiếp cận hàm phân biệt đối xử), là càng nhiều lớp (Cho biến thể giữa các lớp là đủ), mô hình tốt hơn sẽ có thể vẽ hàm phân biệt giữa các lớp. Vì vậy, nếu chức năng phân biệt chi tiết hơn, khả năng khái quát hóa của mô hình sẽ lớn hơn khi dự đoán một hình ảnh / ví dụ không nhìn thấy.

Hãy nghĩ về nó như là chia tay giữa các cụm dữ liệu trong một chiều rất cao. Nếu bạn có thể tách rời các cụm chính xác hơn, nhiều khả năng bạn sẽ phân loại một ví dụ / hình ảnh chưa thấy đến.

BTW, có thông báo cho chúng tôi về thử nghiệm và có tăng hay không. TIA.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.