Kiểm định giả thuyết và tầm quan trọng của chuỗi thời gian


19

Một thử nghiệm thông thường về tầm quan trọng khi tìm hai quần thể là thử nghiệm t, thử nghiệm t ghép đôi nếu có thể. Điều này giả định rằng phân phối là bình thường.

Có các giả định đơn giản hóa tương tự tạo ra một bài kiểm tra quan trọng cho một chuỗi thời gian không? Cụ thể, chúng tôi có hai quần thể chuột khá nhỏ đang được đối xử khác nhau và chúng tôi đang đo trọng lượng mỗi tuần một lần. Cả hai biểu đồ đều hiển thị các chức năng tăng trơn tru, với một biểu đồ chắc chắn ở trên biểu đồ kia. Làm thế nào để chúng ta định lượng "dứt khoát" trong bối cảnh này?

Giả thuyết khống nên là trọng số của hai quần thể "hành xử theo cùng một cách" khi thời gian trôi qua. Làm thế nào người ta có thể hình thành điều này theo mô hình đơn giản khá phổ biến (giống như các phân phối bình thường là phổ biến) chỉ với một số lượng nhỏ các tham số? Một khi người ta đã làm điều đó, làm thế nào người ta có thể đo lường ý nghĩa hoặc một cái gì đó tương tự với giá trị p? Điều gì về việc ghép cặp chuột, phù hợp với càng nhiều đặc điểm càng tốt, với mỗi cặp có một đại diện từ mỗi trong hai quần thể?

Tôi sẽ chào đón một con trỏ đến một số cuốn sách hoặc bài báo được viết tốt và dễ hiểu về chuỗi thời gian. Tôi bắt đầu như một kẻ ngu dốt. Cảm ơn bạn đã giúp đỡ.

David Epstein


Bạn có thể muốn tạo một mạng lưới rộng hơn, bởi vì đây không nhất thiết là một câu hỏi theo chuỗi thời gian. Thật vậy, có lẽ câu hỏi cơ bản nhất ở đây liên quan đến cách tốt nhất hoặc ít nhất là đúng để định lượng "điểm cuối" điều trị: có nghĩa là tăng trưởng dân số sau một thời gian nhất định, tốc độ tăng trưởng trung bình theo thời gian, v.v? Nếu bạn không biết điều này trước khi bắt đầu thử nghiệm và đột nhiên nhận thấy sự khác biệt nhất quán trong các đường cong tăng trưởng, thì bạn đang làm việc ở chế độ thăm dò , không phải là xác nhận và giá trị p thử nghiệm giả thuyết sẽ tốt về mặt kiểm soát.
whuber

Kết quả là chất lượng như mong đợi, và thử nghiệm một phía có vẻ phù hợp. Lý do tôi hỏi về chuỗi thời gian, là nếu chỉ đo trọng số cuối cùng (là số đo phù hợp nhất), thì người ta sẽ vứt bỏ tất cả thông tin từ các mốc thời gian trước đó và điều đó có vẻ sai.
David Epstein

Bạn nói đúng: bạn không muốn vứt bỏ những dữ liệu đó. Nhưng các kỹ thuật chuỗi thời gian đã trở thành tiên quyết cho các mô hình dữ liệu trong đó mối tương quan thời gian của độ lệch so với đường cong lý tưởng hóa là quan trọng, vì lợi ích riêng của chúng hoặc vì chúng có thể can thiệp vào ước lượng tốt. Tình huống của bạn không có khả năng rơi vào một trong những trường hợp này. Đơn giản hơn, phương pháp có ý nghĩa khoa học hơn có sẵn.
whuber

@whuber, không phải trọng lượng theo thời gian của bộ kiểm soát chuột là "đường cong lý tưởng hóa" theo nghĩa nào đó? Hoặc ít nhất, một mô hình lý thuyết phù hợp với dữ liệu đó?
ness101

1
Vâng, @naught, đó là một cách hợp lý để xem xét nó. Nhưng "đường cong" không giống như "chuỗi thời gian". Ví dụ, hồi quy tuyến tính có thể (và thường là) được xem là đường cong phù hợp với dữ liệu, nhưng tách biệt với phân tích chuỗi thời gian, trong đó nhấn mạnh cấu trúc tương quan giữa độ lệch giữa dữ liệu và đường cong lý tưởng hóa.
whuber

Câu trả lời:


1

Có nhiều cách để làm điều đó nếu bạn nghĩ về các biến thể trọng lượng là một quá trình năng động.

Ví dụ: nó có thể được mô hình hóa dưới dạng tích hợp x˙(t)= =θx(t)+v(t)

Trong đó là biến thể trọng lượng, liên quan đến tốc độ thay đổi trọng lượng và là một nhiễu loạn ngẫu nhiên có thể ảnh hưởng đến sự thay đổi trọng lượng. Bạn có thể mô hình là , cho một biết (bạn cũng có thể ước tính nó).x(t)θv(t)v(t)N(0,Q)Q

Từ đây, bạn có thể cố gắng xác định tham số cho hai quần thể (và hiệp phương sai của chúng), bằng cách sử dụng, ví dụ: phương pháp lỗi dự đoán. Nếu giả định Gaussian giữ, các phương pháp lỗi dự đoán sẽ đưa ra ước tính của cũng là Gaussian (không có triệu chứng) và do đó bạn có thể xây dựng một thử nghiệm giả thuyết để xác định liệu ước tính của có gần với thống kê của .θθθ1θ2

Để tham khảo, tôi có thể đề nghị cuốn sách này .


0

Tôi sẽ đề nghị xác định một mô hình ARIMA cho từng con chuột một cách riêng biệt và sau đó xem xét chúng về sự tương đồng và khái quát hóa. Ví dụ: nếu những con chuột đầu tiên có AR (1) và con thứ hai có AR (2), mô hình chung nhất (lớn nhất) sẽ là AR (2). Ước tính mô hình này trên toàn cầu tức là cho chuỗi thời gian kết hợp. So sánh tổng bình phương lỗi của tập hợp kết hợp với tổng của hai tổng bình phương lỗi riêng lẻ để tạo giá trị F để kiểm tra giả thuyết về các tham số không đổi giữa các nhóm. Tôi muốn bạn có thể đăng dữ liệu của bạn và tôi sẽ minh họa chính xác bài kiểm tra này.

Ý KIẾN KHÁC:

Vì tập dữ liệu là quy tắc tương quan tự động không áp dụng. Nếu các quan sát là độc lập theo thời gian thì người ta có thể áp dụng một số phương pháp chuỗi không thời gian nổi tiếng. Theo yêu cầu của bạn về một cuốn sách dễ đọc về chuỗi thời gian, tôi đề nghị văn bản Wei của Addison-Wesley. Các nhà khoa học xã hội sẽ thấy cách tiếp cận phi toán học của Mcleary và Hay (1980) là trực quan hơn nhưng thiếu sự chặt chẽ.


1
Điều này thực sự không xuất hiện để giải quyết các vấn đề cơ bản. (1) Tại sao một mô hình như vậy thích hợp? (2) Tại sao mỗi con chuột nên được mô hình hóa và không, ví dụ, trọng lượng dân số trung bình hoặc tăng trọng lượng? (3) Tại sao một bài kiểm tra các tham số không đổi có liên quan? Câu hỏi xin một bài kiểm tra một đuôi. Hầu hết các tham số mà bạn đề cập không xuất hiện liên quan đến khoa học và chúng cũng không trực tiếp định lượng cảm giác của một biểu đồ luôn nhất quán trên biểu đồ kia. (4) Làm thế nào để bạn kiểm soát sự khác biệt có thể có về đặc điểm của hai quần thể khi bắt đầu thí nghiệm?
whuber

: whuber Thetest cho hằng số tham số có liên quan vì bạn có aset ofcoefficents qua nhóm đầu tiên của formouse 1 & một bộ hệ số thứ hai cho chuột thứ 2. Câu hỏi là "có sự khác biệt đáng kể giữa các hệ số không". do một trong các hệ số mô hình có thể là một hằng số và nếu đó là sự khác biệt giữa các hệ số có thể do các hằng số khác nhau về mặt thống kê với nhau. Lưu ý rằng mô hình ARIMA cơ bản có thể không nhất thiết phải là một mô hình khác biệt.
IrishStat

1
Tôi nghĩ bạn đã đúng một phần, nhưng bạn cần tinh chỉnh đặc điểm của vấn đề. Nhiều hệ số ARIMA có thể không liên quan về mặt khoa học. Ví dụ, nếu một trong số chúng hoạt động như một thuật ngữ bậc hai theo thời gian, một sự khác biệt có thể nói điều gì đó về hình dạng của các đường cong tăng trưởng nhưng điều đó có thể ít được sử dụng. Nếu người ta chọn các hệ số để phản ánh (các) điểm cuối thử nghiệm và chỉ kiểm tra chúng, một số điều tốt có thể đạt được nhờ đó. Tuy nhiên, nói chung, các mô hình chuỗi thời gian giới thiệu các hệ số (ví dụ, tự tương quan) không có khả năng được quan tâm trực tiếp về mặt khoa học ở đây.
whuber

whuber: "Nếu người ta chọn các hệ số để phản ánh (các) điểm cuối thử nghiệm và chỉ kiểm tra chúng, thì một số điều tốt có thể đạt được do đó" không có ý nghĩa gì với tôi vì nó bỏ qua các điểm trung gian. Trái với nhận xét của bạn, chế độ chuỗi thời gian và các hệ số đi kèm rất đáng quan tâm vì nó đặc trưng cho việc phân phối các bài đọc và chuyển chúng thành một quy trình ngẫu nhiên (thuật ngữ lỗi) không có cấu trúc tự tương quan và sau đó có thể kiểm tra được đòi hỏi sự bình thường Bài kiểm tra tôi đề xuất đòi hỏi phải có giả định đó.
IrishStat

1
Autocorrelation có thể ít quan trọng ở đây. Sự quan tâm rõ ràng tập trung vào các xu hướng: làm thế nào để các đường cong tăng trưởng cơ bản có xu hướng khác nhau giữa hai quần thể? Các tham số tự động tương quan là các tham số phiền toái, được giới thiệu và xử lý chỉ trong chừng mực vì chúng có thể giúp cải thiện ước tính của các đường cong tăng trưởng đó. Ưu tiên hàng đầu là áp dụng một mô hình khoa học về sự tăng trưởng, đại diện cho mô hình đó với các tham số có thể hiểu và quan tâm, và ước tính chúng. Tự động áp dụng các kỹ thuật chuỗi thời gian không có khả năng thực hiện điều đó.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.