Tôi đang trải qua khóa học của Andrew NG nói về YOLO nhưng anh ấy không đi sâu vào chi tiết triển khai các hộp neo.
Nhìn qua mã, mỗi hộp neo được biểu thị bằng hai giá trị, nhưng chính xác những giá trị này đại diện cho cái gì ??
Đối với nhu cầu của hộp Neo, tôi cũng hơi bối rối về điều đó - Theo tôi hiểu, nhãn sự thật mặt đất có khoảng 6 biến:
1) P_o kiểm tra xem đó là đối tượng hay nền,
2,3) Bx, By (là tọa độ trung tâm)
4,5) Bh, Bw là (Chiều cao và chiều rộng của hộp)
6) C (Lớp đối tượng, phụ thuộc vào số lượng nhãn lớp bạn có, do đó bạn có thể có nhiều C)
Đối với việc tạo hộp giới hạn,
Bh được chia cho 2, với một nửa từ các điểm trung tâm (Bx, By) đến đỉnh và nửa còn lại ở phía dưới.
Nếu chúng tôi đào tạo trình phân loại của mình, các hộp dự đoán sẽ gần với nhãn sự thật mặt đất khi quá trình đào tạo tiến triển? Vì vậy, nếu nhãn sự thật mặt đất của chúng tôi có chiều cao cao, chiều rộng nhỏ làm hộp cho một số hình ảnh và chiều cao thấp và chiều rộng lớn cho các hình ảnh khác, thì phân loại của chúng tôi sẽ không tự động học cách phân biệt khi nào nên sử dụng cái này với nhau, vì nó là được đào tạo? Nếu vậy thì việc sử dụng hộp neo là gì? Và những con số đại diện cho hộp neo đại diện là gì?
Cảm ơn bạn.