Tôi đang làm việc trên một dự án trong Python để phát hiện và phân loại một số bài hát chim và tôi đã thấy mình ở một vị trí mà tôi cần chuyển đổi một tệp sóng thành tần số so với dữ liệu thời gian. Điều này không phải là quá nhiều vấn đề, nhưng để có thể phân loại các âm tiết khác nhau thành các nhóm, tôi cần phải viết một cái gì đó sẽ phát hiện khi cụm dữ liệu thành một hình dạng nhất định. Để cung cấp cho bạn ý tưởng về dữ liệu trông như thế nào, đây là hình ảnh về dữ liệu trông như thế nào khi được vẽ:
Tôi cần một số cách để có được từng âm tiết riêng lẻ (mỗi hình có một phân tách ở hai bên) và lưu chúng vào một biến hoặc vào các tệp riêng của chúng để tôi có thể chạy tương quan Pearson giữa chúng bằng SciPy.
Ngoài ra, tôi thích Python hơn, nhưng tôi sẵn sàng viết mã bằng các ngôn ngữ khác nếu bạn có cách khác để làm điều đó.
Cảm ơn!