Tôi đang làm việc với một tập hợp lớn dữ liệu gia tốc được thu thập với nhiều cảm biến được đeo bởi nhiều đối tượng. Thật không may, dường như không ai ở đây biết các thông số kỹ thuật của thiết bị và tôi không nghĩ rằng chúng đã từng được kiểm tra lại. Tôi không có nhiều thông tin về các thiết bị. Tôi đang làm việc trên luận án thạc sĩ của mình, gia tốc kế được mượn từ một trường đại học khác và hoàn toàn là tình huống có một chút không rõ ràng. Vì vậy, tiền xử lý trên thiết bị? Không có manh mối.
Những gì tôi biết là chúng là gia tốc kế ba trục với tốc độ lấy mẫu 20Hz; kỹ thuật số và có lẽ là MEMS. Tôi quan tâm đến hành vi và cử chỉ phi ngôn ngữ, mà theo các nguồn của tôi chủ yếu sẽ tạo ra hoạt động trong phạm vi 0,3-3,5Hz.
Bình thường hóa dữ liệu có vẻ khá cần thiết, nhưng tôi không chắc nên sử dụng cái gì. Một phần rất lớn của dữ liệu gần với các giá trị còn lại (giá trị thô ~ 1000, từ trọng lực), nhưng có một số cực trị như lên tới 8000 trong một số bản ghi, hoặc thậm chí 29000 trong các bản ghi khác. Xem hình ảnh dưới đây . Tôi nghĩ rằng điều này làm cho nó là một ý tưởng tồi để chia cho max hoặc stdev để bình thường hóa.
Cách tiếp cận thông thường trong trường hợp như thế này là gì? Chia theo trung vị? Một giá trị phần trăm? Thứ gì khác?
Là một vấn đề phụ, tôi cũng không chắc mình có nên cắt các giá trị cực đoan không ..
Cảm ơn vì lời khuyên!
Chỉnh sửa : Dưới đây là sơ đồ khoảng 16 phút dữ liệu (20000 mẫu), để cung cấp cho bạn ý tưởng về cách dữ liệu được phân phối điển hình.