Là loạt thời gian ngắn có giá trị mô hình?


14

Đây là một số bối cảnh. Tôi quan tâm đến việc xác định hai biến môi trường (nhiệt độ, mức dinh dưỡng) ảnh hưởng đến giá trị trung bình của biến phản ứng trong khoảng thời gian 11 năm. Trong mỗi năm, có dữ liệu từ hơn 100 nghìn địa điểm.

Mục tiêu là để xác định xem, trong khoảng thời gian 11 năm, giá trị trung bình của các biến phản ứng có phản ứng với những thay đổi của các biến môi trường hay không (ví dụ nhiệt độ ấm hơn + nhiều chất dinh dưỡng hơn = phản ứng lớn hơn).

Thật không may, vì đáp ứng là giá trị trung bình (không nhìn vào giá trị trung bình, chỉ cần biến đổi giữa các năm thông thường sẽ tràn vào tín hiệu), hồi quy sẽ là 11 điểm dữ liệu (1 giá trị trung bình mỗi năm), với 2 biến giải thích. Đối với tôi, ngay cả một hồi quy dương tuyến tính cũng khó có thể coi là có ý nghĩa khi bộ dữ liệu quá nhỏ (thậm chí không đáp ứng được 40 điểm / biến danh nghĩa trừ khi mối quan hệ là siêu mạnh).

Tôi có đúng không khi đưa ra giả định này? Bất cứ ai có thể đưa ra bất kỳ suy nghĩ / quan điểm khác mà tôi có thể bị mất?

PS: Một số cảnh báo: Không có cách nào để có được nhiều dữ liệu hơn mà không phải chờ thêm năm. Vì vậy, dữ liệu có sẵn là những gì chúng ta thực sự phải làm việc với.


Bạn đã thử vẽ đồ thị dữ liệu chưa? Tôi muốn nói rằng sức mạnh của mối tương quan giữa các biến môi trường và biến phản ứng của bạn sẽ ảnh hưởng đến câu trả lời.
rm999

" Trong vòng mỗi năm, có dữ liệu từ hơn 100 nghìn địa điểm. " Bạn có thực sự quan sát tất cả các địa điểm hoặc chỉ giá trị trung bình dựa trên chúng không? Nếu có thì yo có thể dùng mô hình dữ liệu bảng như @crayola đề xuất trong ngữ cảnh tuyến tính. Mặc dù một số mô hình sinh thái đặc biệt như @GaBorgulya đã đề cập có thể yêu cầu ít thông tin hơn cho các tham số để hiệu chỉnh thay vì ước tính.
Dmitrij Celov

Câu trả lời:


8

Số lượng điểm dữ liệu nhỏ sẽ giới hạn loại mô hình nào bạn có thể phù hợp với dữ liệu của mình. Tuy nhiên, điều đó không nhất thiết có nghĩa là sẽ vô nghĩa khi bắt đầu mô hình hóa. Với một vài dữ liệu, bạn sẽ chỉ có thể phát hiện các liên kết nếu các hiệu ứng mạnh và phân tán yếu.

Đó là một câu hỏi khác loại mô hình phù hợp với dữ liệu của bạn. Bạn đã sử dụng từ 'hồi quy' trong tiêu đề. Mô hình nên ở một mức độ nào đó phản ánh những gì bạn biết về hiện tượng này. Đây dường như là một môi trường sinh thái, vì vậy năm trước cũng có thể có ảnh hưởng.


4

Tôi đã thấy các bộ dữ liệu sinh thái có ít hơn 11 điểm, vì vậy tôi sẽ nói nếu bạn rất cẩn thận, bạn có thể rút ra một số kết luận hạn chế với dữ liệu hạn chế của mình.

Bạn cũng có thể thực hiện phân tích công suất để xác định mức độ ảnh hưởng nhỏ mà bạn có thể phát hiện được, dựa trên các tham số của thiết kế thử nghiệm của bạn.

Bạn cũng có thể không cần phải loại bỏ biến thể thêm mỗi năm nếu bạn thực hiện một số phân tích cẩn thận


4
Hãy thận trọng với sức mạnh quan sát: nottinghamtrent.academia.edu/ThomBaguley/Papers/212458/
Kẻ

4

Mô hình hóa dữ liệu một cách cơ bản (đặc biệt là chuỗi thời gian) giả định rằng bạn đã thu thập dữ liệu với tần suất đủ để nắm bắt các hiện tượng quan tâm. Ví dụ đơn giản nhất là cho một sóng hình sin - nếu bạn đang thu thập dữ liệu với tần số n * pi trong đó n là một số nguyên thì bạn sẽ không nhìn thấy gì ngoài số không và bỏ lỡ mô hình hình sin hoàn toàn. Có những bài viết về lý thuyết lấy mẫu thảo luận về tần suất thu thập dữ liệu.


3

Tôi không chắc chắn tôi hiểu bit này: "Thật không may, vì phản hồi là giá trị trung bình (không nhìn vào giá trị trung bình, chỉ cần biến thể liên năm thường xuyên sẽ tràn ngập tín hiệu)"

Với mô hình cẩn thận, dường như với tôi bạn có thể đạt được rất nhiều bằng cách mô hình hóa này dưới dạng dữ liệu bảng điều khiển. Tùy thuộc vào phạm vi không gian của dữ liệu của bạn, có thể có sự khác biệt lớn về nhiệt độ mà các điểm dữ liệu của bạn được đưa ra trong bất kỳ năm nào. Tính trung bình tất cả các biến thể có vẻ tốn kém.


3

Tôi sẽ nói rằng tính hợp lệ của bài kiểm tra ít liên quan đến số lượng điểm dữ liệu và nhiều hơn để làm với tính hợp lệ của giả định rằng bạn có mô hình chính xác.

Ví dụ, phân tích hồi quy được sử dụng để tạo đường cong tiêu chuẩn có thể chỉ dựa trên 3 tiêu chuẩn (thấp, trung bình và cao) nhưng kết quả có giá trị cao vì có bằng chứng mạnh mẽ cho thấy phản hồi là tuyến tính giữa các điểm.

Mặt khác, ngay cả một hồi quy với 1000 điểm dữ liệu sẽ bị thiếu sót nếu mô hình sai được áp dụng cho dữ liệu.

Trong trường hợp đầu tiên, bất kỳ biến thể nào giữa các dự đoán mô hình và dữ liệu thực tế là do lỗi ngẫu nhiên. Trong trường hợp thứ hai, một số biến thể giữa các dự đoán mô hình và dữ liệu thực tế là do sai lệch từ việc chọn mô hình sai.


1

Số lượng quan sát cần thiết để Xác định một mô hình phụ thuộc vào tỷ lệ tín hiệu với nhiễu trong dữ liệu và hình thức của mô hình. Nếu tôi được đưa ra các con số, 1,2,3,4,5, tôi sẽ dự đoán 6,7,8, .... Nhận dạng mô hình Box-Jenkins là một cách tiếp cận để xác định Thuật ngữ chung cơ bản giống như thử nghiệm cho " trí thông minh số "mà chúng tôi dành cho trẻ em. Nếu tín hiệu mạnh thì chúng ta cần ít quan sát hơn và ngược lại. Nếu tần số quan sát cho thấy một "cấu trúc theo mùa" có thể xảy ra thì chúng ta cần lặp lại hiện tượng này, ví dụ như ít nhất 3 mùa (tốt nhất là nhiều hơn) như một quy tắc để trích xuất (xác định điều này từ các thống kê mô tả cơ bản (acf / pacf).


-1

Có lẽ bạn có thể cố gắng xử lý chuỗi thời gian của mình như một hệ phương trình tuyến tính và giải quyết nó bằng cách loại bỏ Gauss. Tất nhiên trong trường hợp đó, bạn hạn chế bản thân với dữ liệu có sẵn nhưng đây là giá duy nhất bạn phải trả.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.