Nhầm lẫn về hộp neo trong YOLO


8

Tôi đang trải qua khóa học của Andrew NG nói về YOLO nhưng anh ấy không đi sâu vào chi tiết triển khai các hộp neo.

Nhìn qua mã, mỗi hộp neo được biểu thị bằng hai giá trị, nhưng chính xác những giá trị này đại diện cho cái gì ??

Đối với nhu cầu của hộp Neo, tôi cũng hơi bối rối về điều đó - Theo tôi hiểu, nhãn sự thật mặt đất có khoảng 6 biến:

1) P_o kiểm tra xem đó là đối tượng hay nền,

2,3) Bx, By (là tọa độ trung tâm)

4,5) Bh, Bw là (Chiều cao và chiều rộng của hộp)

6) C (Lớp đối tượng, phụ thuộc vào số lượng nhãn lớp bạn có, do đó bạn có thể có nhiều C)

Đối với việc tạo hộp giới hạn,

Bh được chia cho 2, với một nửa từ các điểm trung tâm (Bx, By) đến đỉnh và nửa còn lại ở phía dưới.

Nếu chúng tôi đào tạo trình phân loại của mình, các hộp dự đoán sẽ gần với nhãn sự thật mặt đất khi quá trình đào tạo tiến triển? Vì vậy, nếu nhãn sự thật mặt đất của chúng tôi có chiều cao cao, chiều rộng nhỏ làm hộp cho một số hình ảnh và chiều cao thấp và chiều rộng lớn cho các hình ảnh khác, thì phân loại của chúng tôi sẽ không tự động học cách phân biệt khi nào nên sử dụng cái này với nhau, vì nó là được đào tạo? Nếu vậy thì việc sử dụng hộp neo là gì? Và những con số đại diện cho hộp neo đại diện là gì?

Cảm ơn bạn.

Câu trả lời:


1

Không phải là một pro nhưng tôi nghĩ rằng tôi biết một số câu trả lời cho câu hỏi của bạn.

Nếu chúng tôi đào tạo trình phân loại của mình, các hộp dự đoán sẽ gần với nhãn sự thật mặt đất khi quá trình đào tạo tiến triển

Tôi nghĩ đó là những gì YOLO v1 đã làm. Theo video của Andrew NG, các hộp giới hạn được giới thiệu để giải quyết nhiều đối tượng bên trong cùng một ô lưới. Và theo bài tập hộp neo này, đảm bảo rằng hộp neo dự đoán sự thật mặt đất cho một đối tượng tập trung tại trung tâm lưới của chính nó chứ không phải là một ô lưới ở xa (như YOLO có thể)

những con số đại diện cho hộp neo đại diện là gì?

Chúng chỉ là chiều rộng và chiều cao (hình dạng). Trong YOLO v2, nó được sử dụng để tính IOU giả sử tất cả các hộp được đặt tại cùng một vị trí (bỏ qua vị trí), bạn có thể nghĩ rằng nó chỉ cố gắng khớp với hình dạng. Và nó sử dụng (1-IOU) làm khoảng cách khi áp dụng phân cụm K-nghĩa.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.