Mô hình nào cho một tập dữ liệu đầy thách thức? (hàng trăm chuỗi thời gian với rất nhiều lồng nhau)


9

Tôi có một bộ dữ liệu khá phức tạp để phân tích và tôi không thể tìm ra giải pháp tốt cho nó.

Đây là điều:

1. dữ liệu thô về bản chất là bản ghi bài hát côn trùng. Mỗi bài hát được tạo thành từ nhiều cụm, và mỗi cụm được tạo thành từ các đơn vị phụ. Tất cả các cá nhân đã được ghi lại trong 5 phút. Số lượng cụm và vị trí của chúng trong bản ghi có thể rất khác nhau giữa các cá nhân, cũng như số lượng đơn vị phụ trên mỗi cụm.

2. Tôi có tần số sóng mang (tần số cơ bản) của từng đơn vị con và đó là những gì tôi muốn phân tích.

Vấn đề của tôi:

1. Các tần số trong một cụm rõ ràng không độc lập (mặc dù nó khá ổn định, nhưng tần số của đơn vị phụ n-1 sẽ có ảnh hưởng đến đơn vị phụ n).

2. Các vụ nổ cũng không độc lập, trong một bản ghi âm.

3. Chúng thậm chí còn ít độc lập hơn khi tần số giảm theo thời gian (cá nhân cảm thấy mệt mỏi khi hát nên tần số của bài hát ngày càng thấp hơn). Sự sụt giảm dường như là tuyến tính.

4. Nesting = Tôi có 3 quần thể nhân rộng cho hai địa điểm A và B. Vì vậy, tôi có A1, A2, A3 & B1, B2, B3.

Những gì tôi muốn làm:

1. Đặc trưng sự khác biệt về tần suất giữa hai địa điểm của tôi (kiểm tra thống kê)

2. Đặc trưng tần số giảm giữa hai vị trí (xem nếu nó giảm nhanh hơn ở một trong số chúng)

Làm thế nào để làm nó:

Vâng, đó là lý do tại sao tôi cần giúp đỡ: Tôi không biết. Có vẻ như trường hợp của tôi kết hợp các vấn đề thường không được nhìn thấy cùng nhau. Tôi đã đọc về các mô hình hỗn hợp, về GAM, về ARIMA, các hiệu ứng ngẫu nhiên và cố định, nhưng tôi không thể thực sự chắc chắn về cách tốt nhất để làm điều đó. Khi tôi vẽ biểu đồ mặc dù (tần số ~ đơn vị con số n ), sự khác biệt rất rõ ràng giữa hai vị trí. Tôi cũng phải tính đến các biến khác, như nhiệt độ (làm cho tần số cao hơn), v.v.

Tôi nghĩ về:

  • Lồng các cá thể trong bản sao của chúng là từ và lồng nhân bản trong vị trí (cá nhân / sao chép / vị trí).

  • Sử dụng hiệu ứng 'cụm' ngẫu nhiên, vì vậy tôi tính đến độ biến thiên trong mỗi cụm.

  • Sử dụng hiệu ứng 'vị trí nổ cố định trong ghi âm' để đo tần số giảm (hy vọng nó thực sự là tuyến tính).

Nó sẽ đúng chứ?

Có loại mô hình đặc biệt nào tôi có thể sử dụng cho loại kịch bản này không?


Chào mừng đến với trang web này, Joe. Không cần đăng nhập vào bài đăng của bạn, tên của bạn sẽ luôn xuất hiện dưới gravatar của bạn :)
chl

Ok, và cảm ơn! Đây là một trang web rất đẹp, được làm rất tốt.
Joe

Lồng nhau các cá thể trong bản sao của chúng là từ và lồng nhân bản trong vị trí (cá nhân / sao chép / vị trí) Nghe có vẻ như là một ý tưởng tốt, nếu so với các hình thức không lồng nhau. LOESS của sáu quần thể phụ của bạn trông như thế nào?
Cha

1
Cảm ơn bạn rất nhiều vì câu trả lời của bạn, thực sự đánh giá cao nó. Vâng, tôi đã mất một thời gian dài, nhưng tôi đã phân tích được bộ dữ liệu (đẫm máu) này. Tôi đã quá tham vọng tôi nghĩ, muốn làm mô hình mọi thứ cùng một lúc. Vì vậy, tôi chia công việc theo nhiều mô hình, cho từng vấn đề (chênh lệch tần số trung bình, tăng tần số, v.v.). Kết luận: đôi khi tốt hơn để phân chia công việc!
Joe

Câu trả lời:


2

Đây chỉ là một số gợi ý chung mà bạn có thể thấy hữu ích, nhiều lộ trình hơn là một công thức.

  • Bản năng của tôi sẽ là xây dựng một mô hình phân cấp Bayes, bởi vì nó cho vay để phát triển mô hình lặp - Tôi không nghĩ bạn sẽ tìm thấy một mô hình hiện có có tất cả chuông và còi bạn theo sau. Nhưng điều này làm cho việc kiểm tra giả thuyết khó hơn, tôi không biết kiểm tra giả thuyết cần thiết cho bạn như thế nào.
  • Có vẻ như bạn đã có một mô hình không chính thức trong đầu về cách côn trùng cư xử; bạn nói những điều như "mệt mỏi" và bạn biết rằng nhiệt độ làm cho tần số cao hơn, có lẽ là do động vật có nhiều năng lượng hơn. Có vẻ như bạn đã có một mô hình khái quát nhỏ trong tâm trí của bạn về cách côn trùng tạo ra các bài hát của họ.
  • Vấn đề nghe có vẻ quá phức tạp để mô hình hóa "trong một lần bắn". Tôi nghĩ bạn sẽ phải xây dựng một cái gì đó từng phần. Tôi sẽ bắt đầu với một số "giả định đơn giản mạnh mẽ" - nghĩa là loại bỏ hầu hết sự phức tạp của bộ dữ liệu, với kế hoạch thêm lại vào sau khi bạn có một mô hình đơn giản hoạt động.

Vì vậy, để bắt đầu, tôi sẽ làm một cái gì đó như tiền xử lý các tần số đơn vị phụ trên cơ sở từng đợt thành một cặp như (cặp tần số trung bình, xu hướng tần số) - thực hiện điều này với OLS, và chỉ mô hình trung bình tần số và xu hướng của Một vụ nổ thay vì các đơn vị phụ. Hoặc bạn có thể làm (có nghĩa là, xu hướng, # đơn vị phụ), nếu số lượng tiểu đơn vị liên quan đến mức độ mệt mỏi của côn trùng. Sau đó, xây dựng một mô hình phân cấp Bayes trong đó phân phối trung bình và xu hướng của một vụ nổ được xác định bởi giá trị trung bình, xu hướng của bản ghi và điều này lần lượt được xác định bởi giá trị trung bình, xu hướng của địa điểm.

Sau đó thêm nhiệt độ làm yếu tố cho giá trị trung bình / xu hướng ghi.

Mô hình đơn giản này sẽ cho phép bạn xem giá trị trung bình và xu hướng của các vụ nổ riêng lẻ trong bản ghi được xác định bởi nhiệt độ và vị trí. Hãy thử và làm điều này để làm việc.

Sau đó, tôi sẽ cố gắng ước tính sự khác biệt giữa tần số trung bình của các vụ nổ (hoặc xu hướng, bằng cách chia thời gian yên tĩnh giữa các đợt) bằng cách thêm đây là một biến được xác định bởi vị trí và ghi. Bước tiếp theo là một mô hình AR của cụm có nghĩa trong một bản ghi.

Đưa ra một số linh mục và một số giả định rất mạnh mẽ về bản chất của các vụ nổ (rằng tất cả thông tin được đưa ra bởi ý nghĩa và xu hướng), mô hình cơ bản này sẽ cho bạn biết:

  • tần số trung bình của một vụ nổ khác nhau theo vị trí và nhiệt độ theo nhiệt độ như thế nào
  • xu hướng bên trong bùng nổ khác nhau như thế nào theo vị trí và tạm thời theo temp
  • xu hướng bùng nổ bên ngoài khác nhau như thế nào theo vị trí và tạm thời theo temp

Khi bạn đã có một cái gì đó như thế này để hoạt động thì có lẽ đã đến lúc tự mô hình hóa các đơn vị con và loại bỏ ước tính OLS ban đầu. Tôi sẽ xem xét dữ liệu tại thời điểm này để có ý tưởng về loại mô hình chuỗi thời gian nào có thể phù hợp và mô hình hóa các tham số của mô hình chuỗi thời gian thay vì các cặp (trung bình, xu hướng).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.