Đầu tiên, cảm ơn bạn đã đăng một câu hỏi rất thú vị.
Để trả lời ngắn gọn, một mạng lưới vanilla được đào tạo từ đầu 2 đến cuối để dự đoán tuổi từ một bức ảnh thường có xu hướng phân loại sai các hình ảnh như ảnh bạn đã đăng . Thứ hai, lưu ý rằng ước tính chính xác tuổi của một người là một nhiệm vụ gần như không thể 1 .
Sự khác biệt chính so với phương pháp đề xuất của bạn bằng cách sử dụng một số trình phát hiện đối tượng (có thể là RCNN, RCNN nhanh hơn, YOLO hoặc SSD) là bạn đang sử dụng thông tin khác nhau để huấn luyện các mô hình. CNN chỉ được đào tạo về hình ảnh và cần tự tìm ra tất cả các tính năng cần thiết. Rất có thể sẽ tìm thấy các đặc điểm khác nhau trên khuôn mặt, nhưng nó cũng sẽ dựa vào quần áo và có lẽ là các đặc điểm của cảnh (trẻ em có thể thường xuyên trong hình với một số đồ chơi, người lớn sẽ có nhiều khả năng trong môi trường văn phòng, v.v.). Các tính năng này sẽ không mạnh mẽ cho ví dụ mẫu của bạn.
Mặt khác, nếu bạn huấn luyện mạng để phát hiện rõ ràng các đối tượng là "thân" và "đầu", bạn đang cung cấp thêm thông tin rằng các đối tượng này rất quan trọng cho nhiệm vụ và do đó đơn giản hóa vấn đề 2 .
Trong khi cách tiếp cận phát hiện đầu và thân và sau đó đánh giá tỷ lệ kích thước của các hộp giới hạn nghe có vẻ thú vị, tôi có thể thấy một số trở ngại:
- Lấy dữ liệu: Tôi không biết về sự sẵn có của bộ dữ liệu lớn trong đó cả hai hộp tuổi và giới hạn sẽ có mặt.
- FOV không hoàn hảo: Trong hầu hết các hình ảnh (ví dụ cả hai ví dụ của bạn), mọi người không được hiển thị toàn bộ. Bạn sẽ phải đối phó với thực tế là các hộp giới hạn thân sẽ không luôn luôn hoàn hảo chỉ vì một phần của người không có trong hình ảnh và mạng sẽ phải đoán phần lớn bị thiếu (và các hộp giới hạn sự thật mặt đất sẽ hầu hết có khả năng không nắm bắt thông tin này). Ngoài ra, các trình phát hiện đối tượng đã nói ở trên không phải lúc nào cũng xử lý các dự đoán của các đối tượng một phần đúng cách. Điều này có thể giới thiệu quá nhiều tiếng ồn trong mô hình.
- Nhiều tư thế khác nhau: Tỷ lệ thân trên đầu sẽ rất khác nhau đối với những người nhìn từ phía trước và từ phía bên.
- Người lớn: Có vẻ như tỷ lệ này hoạt động tốt để dự đoán độ tuổi từ 0-21, nhưng tôi không thấy nó giúp dự đoán độ tuổi của người lớn như thế nào (tôi cho rằng tỷ lệ này không thay đổi ở độ tuổi cao hơn).
Tất cả những vấn đề này cho thấy cách tiếp cận tỷ lệ từ đầu đến thân cũng sẽ không hoạt động hoàn hảo, mặc dù nó có thể mạnh hơn đối với ví dụ cụ thể của bạn.
Tôi đoán cách tốt nhất để thực hiện nhiệm vụ này là 1) phát hiện khuôn mặt, 2) chỉ dự đoán tuổi từ cây trồng trên khuôn mặt (loại bỏ thông tin có khả năng gây hiểu lầm). Lưu ý rằng một số kiến trúc giống R-CNN sử dụng ROI-pooling có thể được đào tạo để thực hiện kết thúc 2 đầu này.
1 Ngay cả khi sử dụng các phương pháp y tế rất tinh vi (được cho là nhiều thông tin hơn nhiều so với ảnh của người đó), điều này là không thể thực hiện chính xác. Xem chủ đề Quora này để biết thêm thông tin .
2 Kiểm tra bài viết Các vấn đề kiến thức: Tầm quan trọng của thông tin trước để tối ưu hóa cho một ví dụ về cách cung cấp một số kiến thức trung gian về nhiệm vụ có thể đơn giản hóa rất nhiều việc học.