Tôi đang cố gắng xây dựng một hệ thống nhận dạng cử chỉ để phân loại các cử chỉ ASL (Ngôn ngữ ký hiệu của Mỹ) , do đó, đầu vào của tôi được cho là một chuỗi các khung hình từ máy ảnh hoặc tệp video sau đó phát hiện chuỗi và ánh xạ nó tới tương ứng lớp học (ngủ, giúp, ăn, chạy, v.v.)
Vấn đề là tôi đã xây dựng một hệ thống tương tự nhưng đối với hình ảnh tĩnh (không bao gồm chuyển động), nó chỉ hữu ích cho việc dịch bảng chữ cái trong đó xây dựng CNN là một nhiệm vụ thẳng, vì tay không di chuyển quá nhiều và dữ liệu thiết lập cấu trúc cũng là quản lý như tôi đã sử dụng keras và có lẽ vẫn còn có ý định làm như vậy (mỗi thư mục chứa một tập hợp các hình ảnh cho một dấu hiệu nói riêng và tên của thư mục là tên lớp của dấu hiệu này ví dụ: A, B, C , ..)
Câu hỏi của tôi ở đây, làm cách nào tôi có thể sắp xếp tập dữ liệu của mình để có thể nhập dữ liệu vào RNN trong máy ảnh và tôi nên sử dụng chức năng nào để đào tạo hiệu quả mô hình của mình và bất kỳ tham số cần thiết nào, một số người đề xuất sử dụng lớp TimeDistribution nhưng tôi không có một ý tưởng rõ ràng về cách sử dụng nó cho mục đích của tôi và tính đến hình dạng đầu vào của mỗi lớp trong mạng.
thậm chí còn nghĩ rằng bộ dữ liệu của tôi sẽ bao gồm các hình ảnh, tôi có lẽ sẽ cần một lớp xoắn, làm thế nào nó sẽ là khả thi để kết hợp các conv lớp vào LSTM một (Tôi có nghĩa là về code).
Ví dụ, tôi tưởng tượng dữ liệu của mình được đặt giống như thế này
Thư mục có tên 'Run' chứa 3 thư mục 1, 2 và 3, mỗi thư mục tương ứng với khung của nó trong chuỗi
Vì vậy, Run_1 sẽ chứa một số bộ ảnh cho khung đầu tiên, Run_2 cho khung thứ hai và Run_3 cho khung thứ ba, mục tiêu của mô hình của tôi là được đào tạo với chuỗi này để xuất ra từ Run .