Tập dữ liệu của tôi bao gồm các chuỗi vector. Mỗi vector có 50 kích thước có giá trị thực. Số lượng vectơ trong một phạm vi trình tự từ 3-5 đến 10-15. Nói cách khác, độ dài của một chuỗi không cố định.
Một số lượng hợp lý của các chuỗi (không phải vectơ!) Được chú thích bằng nhãn lớp. Nhiệm vụ của tôi là tìm hiểu một trình phân loại đưa ra một chuỗi các vectơ, nhãn lớp cho toàn bộ chuỗi được tính toán.
Tôi không thể nói chính xác bản chất của dữ liệu nhưng bản chất của các chuỗi không phải là tạm thời. Tuy nhiên, vectơ không thể được hoán đổi với vectơ mà không thay đổi nhãn ( ). Nói cách khác, thứ tự của vectơ là quan trọng. Các vectơ là tương đương nhau, ví dụ, nó có ý nghĩa để tính toán một sản phẩm chấm và sử dụng giá trị tương tự này.
Câu hỏi của tôi là: các công cụ / thuật toán có thể giúp phân loại dữ liệu đó là gì?
CẬP NHẬT: Dữ liệu có một thuộc tính mà một hoặc rất ít vectơ ảnh hưởng mạnh đến nhãn lớp.
GIẢI PHÁP KHẢ NĂNG: Sau một số nghiên cứu, có vẻ như Mạng thần kinh tái phát (RNN) phù hợp với dự luật khá tự nhiên. Ý tưởng bao trùm là chọn kích thước ngữ cảnh , ghép các vectơ từ, thực hiện gộp tối đa và cung cấp thông qua NN cổ điển. Tại mỗi vị trí cửa sổ ngữ cảnh có thể có trong một câu, một vectơ đặc trưng được xây dựng. Ví dụ, vectơ tính năng cuối cùng được xây dựng bằng cách sử dụng tổng hợp tối đa. Việc truyền ngược được thực hiện để điều chỉnh các tham số của mạng. Tôi đã có một số kết quả tích cực (GPU là phải).