Tôi đang xem xét sử dụng các mạng thần kinh nhân tạo (ANN) để dự đoán tốc độ phản ứng trong chất lỏng của tôi thay vì giải quyết toàn bộ hệ thống ODE cứng. Một số người từ phòng thí nghiệm của tôi đã thực hiện một số công việc về điều đó vì vậy tôi không bắt đầu lại từ đầu nhưng tôi gặp vấn đề với các ứng dụng của mình. Một trong số đó tôi nghĩ liên quan đến chất lượng dữ liệu của tôi để đào tạo. Chúng tôi thường trích xuất dữ liệu đào tạo từ các mô phỏng CFD là 1D / 2D / 3D. Không có vấn đề gì, chúng tôi kết thúc với một loạt dữ liệu đa chiều để cung cấp cho mạng thần kinh. Để cho bạn biết về quy mô của vấn đề, tôi đang xem xét đào tạo 8 lưới với 10 đầu vào và 1 đầu ra cho mỗi vấn đề. Tôi cảm thấy một tập huấn khoảng 100.000 điểm sẽ hợp lý nhưng vấn đề là 100.000 điểm này cần bao phủ một vùng cụ thể trong không gian đa chiều của tôi.
- Đối với mỗi ảnh chụp nhanh, chỉ một phần nhỏ các điểm nằm trong khu vực tôi cần lấy mẫu cao để đảm bảo việc đào tạo của tôi là chính xác
- Khi tôi biên dịch các ảnh chụp nhanh cùng nhau, tôi kết thúc với nhiều điểm gần trùng lặp (tôi tin) có tác động tiêu cực đến việc đào tạo ANN của tôi bằng cách a) thiên vị việc đào tạo bằng cách tăng thêm trọng lượng cho các khu vực này b) thêm các điểm không cần thiết.
Vì vậy, tôi đã cố gắng lọc các điểm tôi ghi lại trước khi đưa chúng vào tập huấn luyện của mình. Như tôi thấy, điều đó liên quan đến việc kiểm tra xem một điểm mới có nằm trong bán kính n chiều nhất định của mỗi điểm trong bộ dữ liệu của tôi hay không. Cách tiếp cận vũ phu này, với một vài thủ thuật có tỷ lệ như n ^ 2, hoạt động rất tốt để trích xuất 10.000 điểm trong số 100.000 (mất 30 phút nói) nhưng bị phá vỡ khi tôi tăng kích thước và số lượng ảnh chụp nhanh ... Rõ ràng , phải có một cách thông minh hơn để làm điều này, nhưng tôi không chắc chắn nên bắt đầu tìm hướng nào. Lần đầu tiên tôi thử với python và có thể chuyển sang FORTRAN để tăng tốc mọi thứ nhưng tôi cảm thấy nên tìm kiếm một chiến lược tốt hơn trước. Là hy vọng duy nhất của tôi một số loại cây kd? Tôi có ít hoặc không có kinh nghiệm với họ và vấn đề mà tôi thấy là cây của tôi sẽ phát triển khi tôi xây dựng tập dữ liệu của mình và điều này chỉ có thể làm tăng sự phức tạp. Một thư viện cây python kd phù hợp với nhu cầu của tôi? Tôi có nên chuyển sang FORTRAN với quy mô của vấn đề của mình không? Mọi lời khuyên đều được đánh giá cao, cảm ơn bạn!