Làm thế nào để so sánh 2 chuỗi thời gian không cố định để xác định mối tương quan?


11

Tôi có hai chuỗi dữ liệu biểu thị tuổi trung vị lúc chết theo thời gian. Cả hai loạt chứng minh tuổi tăng theo thời gian, nhưng thấp hơn nhiều so với tuổi khác. Tôi muốn xác định xem sự gia tăng tuổi khi chết của mẫu thấp hơn có khác biệt đáng kể so với mẫu trên hay không.

Dưới đây là dữ liệu , được sắp xếp theo năm (bao gồm từ năm 1972 đến năm 2009) được làm tròn đến ba chữ số thập phân:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Cả hai loạt đều không cố định - làm thế nào tôi có thể so sánh hai cái này? Tôi đang sử dụng STATA. Bất kỳ lời khuyên nào đều được biết ơn khi nhận được.

Lô dữ liệu


Nếu bạn cung cấp một liên kết đến dữ liệu của bạn, Matt, chúng tôi có thể chỉnh sửa câu hỏi của bạn để bao gồm các dữ liệu đó.
whuber

Rất cám ơn bạn đã quan tâm đến hoàn cảnh của tôi - liên kết đến dữ liệu được thêm vào. Bất kỳ trợ giúp sẽ được đánh giá cao.Matt
Matt Hurley

@ Matt: Liếc nhìn dữ liệu của bạn, có vẻ như cả hai đều là xu hướng tăng. Vì vậy, về cơ bản bạn có quan tâm đến giả thuyết rằng một đoàn hệ đang tăng nhanh hơn so với nhóm kia không?
Andrew

Có Andrew - đoàn hệ trên là dân số nói chung, trong khi đoàn hệ với độ tuổi nghèo hơn là một nhóm chết vì tình trạng tương tự. Giả thuyết khống cho rằng nếu chúng có mối tương quan chặt chẽ thì bất kỳ sự cải thiện nào về khả năng sống sót đều có khả năng do các yếu tố chung (và không được cải thiện về tình trạng nói trên).
Matt Hurley

1010

Câu trả lời:


14

Đây là một tình huống đơn giản; Hãy giữ nó như vậy. Chìa khóa là tập trung vào những gì quan trọng:

  • Có được một mô tả hữu ích của dữ liệu.

  • Đánh giá sai lệch cá nhân từ mô tả đó.

  • Đánh giá vai trò có thể và ảnh hưởng của cơ hội trong việc giải thích.

  • Duy trì tính toàn vẹn trí tuệ và minh bạch.

Vẫn còn nhiều lựa chọn và nhiều hình thức phân tích sẽ hợp lệ và hiệu quả. Chúng ta hãy minh họa một cách tiếp cận ở đây có thể được khuyến nghị cho việc tuân thủ các nguyên tắc chính này.

Để duy trì tính toàn vẹn, chúng ta hãy chia dữ liệu thành hai nửa: các quan sát từ năm 1972 đến năm 1990 và các dữ liệu từ năm 1991 đến năm 2009 (mỗi lần 19 năm). Chúng tôi sẽ phù hợp với các mô hình cho nửa đầu và sau đó xem mức độ phù hợp làm việc trong việc chiếu nửa sau. Điều này có thêm lợi thế là phát hiện những thay đổi đáng kể có thể xảy ra trong nửa sau.

Để có được một mô tả hữu ích, chúng ta cần (a) tìm cách đo lường các thay đổi và (b) phù hợp với mô hình đơn giản nhất có thể phù hợp với những thay đổi đó, đánh giá nó và lặp lại phù hợp với những thay đổi phức tạp hơn để phù hợp với độ lệch so với các mô hình đơn giản.

(a) Bạn có nhiều lựa chọn: bạn có thể xem dữ liệu thô; bạn có thể nhìn vào sự khác biệt hàng năm của họ; bạn có thể làm tương tự với logarit (để đánh giá các thay đổi tương đối); bạn có thể đánh giá số năm mất mạng hoặc tuổi thọ tương đối (RLE); hoặc nhiều thứ khác. Sau khi suy nghĩ, tôi quyết định xem xét RLE, được định nghĩa là tỷ lệ tuổi thọ trong Cohort B so với Cohort A. (tham khảo), may mắn thay, như các biểu đồ cho thấy, tuổi thọ trong Cohort A đang tăng đều đặn thời trang theo thời gian, do đó, hầu hết các biến thể tìm kiếm ngẫu nhiên trong RLE sẽ là do những thay đổi trong Cohort B.

(b) Mô hình đơn giản nhất có thể bắt đầu là xu hướng tuyến tính. Hãy xem nó hoạt động tốt như thế nào.

Hình 1

Các điểm màu xanh đậm trong âm mưu này là dữ liệu được giữ lại để phù hợp; các điểm vàng nhẹ là dữ liệu tiếp theo, không được sử dụng cho phù hợp. Đường màu đen là phù hợp, với độ dốc 0,009 / năm. Các đường đứt nét là các khoảng dự đoán cho các giá trị tương lai riêng lẻ.

Nhìn chung, sự phù hợp có vẻ tốt: kiểm tra phần dư (xem bên dưới) cho thấy không có thay đổi quan trọng nào về kích thước của chúng theo thời gian (trong giai đoạn dữ liệu 1972-1990). . của mối tương quan nối tiếp (thể hiện bằng một số hoạt động tích cực và chạy dư âm), nhưng rõ ràng điều này là không quan trọng. Không có ngoại lệ, sẽ được chỉ định bởi các điểm nằm ngoài các dải dự đoán.

Một điều ngạc nhiên là vào năm 2001, các giá trị đột nhiên rơi xuống dải dự đoán thấp hơn và ở lại đó: một điều khá bất ngờ và lớn đã xảy ra và tồn tại.

Dưới đây là phần dư, là độ lệch so với mô tả được đề cập trước đó.

Hình 2

Bởi vì chúng tôi muốn so sánh phần dư với 0, các đường thẳng đứng được vẽ ở mức 0 dưới dạng trợ giúp trực quan. Một lần nữa, các điểm màu xanh hiển thị dữ liệu được sử dụng cho phù hợp. Những cái vàng nhẹ là phần dư cho dữ liệu nằm gần giới hạn dự đoán thấp hơn, sau năm 2000.

Từ con số này, chúng tôi có thể ước tính rằng tác động của thay đổi 2000-2001 là khoảng -0,07 . Điều này phản ánh sự sụt giảm đột ngột 0,07 (7%) của toàn bộ thời gian sống trong Cohort B. Sau lần giảm đó, mô hình dư của chiều ngang cho thấy xu hướng trước đó tiếp tục, nhưng ở mức thấp mới. Phần phân tích này nên được xem là thăm dò : nó không được lên kế hoạch cụ thể, nhưng đã xuất hiện do sự so sánh đáng ngạc nhiên giữa dữ liệu được giữ lại (1991-2009) và sự phù hợp với phần còn lại của dữ liệu.

107

Dường như không có lý do nào để phù hợp với một mô hình phức tạp hơn với những dữ liệu này, ít nhất là không nhằm mục đích ước tính liệu có xu hướng thực sự trong RLE theo thời gian hay không: có một. Chúng tôi có thể đi xa hơn và chia dữ liệu thành các giá trị trước năm 2001 và giá trị sau năm 2000 để tinh chỉnh các ước tính của chúng tôivề các xu hướng, nhưng sẽ không hoàn toàn trung thực khi thực hiện các bài kiểm tra giả thuyết. Các giá trị p sẽ thấp một cách giả tạo, vì thử nghiệm phân tách không được lên kế hoạch trước. Nhưng là một bài tập khám phá, ước tính như vậy là tốt. Tìm hiểu tất cả những gì bạn có thể từ dữ liệu của bạn! Chỉ cần cẩn thận để không tự lừa dối bản thân bằng cách sử dụng quá mức (điều gần như chắc chắn sẽ xảy ra nếu bạn sử dụng hơn nửa tá thông số hoặc sử dụng kỹ thuật lắp tự động) hoặc theo dõi dữ liệu: cảnh giác với sự khác biệt giữa xác nhận chính thức và không chính thức (nhưng có giá trị) thăm dò dữ liệu.

Hãy tóm tắt:

  • Bằng cách chọn một thước đo phù hợp về tuổi thọ (RLE), giữ một nửa dữ liệu, điều chỉnh một mô hình đơn giản và thử nghiệm mô hình đó với dữ liệu còn lại, chúng tôi đã xác định chắc chắn rằng : có một xu hướng nhất quán; nó đã gần với tuyến tính trong một thời gian dài; và đã có một sự sụt giảm liên tục trong RLE vào năm 2001.

  • Mô hình của chúng tôi rất đáng chú ý : nó chỉ cần hai số (độ dốc và chặn) để mô tả chính xác dữ liệu ban đầu. Nó cần một phần ba (ngày nghỉ, 2001) để mô tả một sự khởi đầu rõ ràng nhưng bất ngờ từ mô tả này. Không có ngoại lệ liên quan đến mô tả ba tham số này. Mô hình sẽ không được cải thiện đáng kể bằng cách mô tả tương quan nối tiếp (trọng tâm của các kỹ thuật chuỗi thời gian nói chung), cố gắng mô tả các sai lệch nhỏ (dư) được đưa ra hoặc đưa ra các khớp phù hợp phức tạp hơn (chẳng hạn như thêm vào một thành phần thời gian bậc hai hoặc mô hình thay đổi kích thước của phần dư theo thời gian).

  • Xu hướng là 0,009 RLE mỗi năm . Điều này có nghĩa là với mỗi năm trôi qua, tuổi thọ trong Cohort B đã có 0,009 (gần 1%) trong vòng đời bình thường dự kiến ​​đầy đủ được thêm vào nó. Trong suốt quá trình nghiên cứu (37 năm), số tiền đó sẽ lên tới 37 * 0,009 = 0,34 = một phần ba của một cải tiến trọn đời. Sự thụt lùi trong năm 2001 đã làm giảm mức tăng đó xuống còn khoảng 0,28 trong toàn bộ thời gian từ năm 1972 đến năm 2009 (mặc dù trong giai đoạn đó tuổi thọ chung tăng 10%).

  • Mặc dù mô hình này có thể được cải thiện, nhưng nó có thể sẽ cần nhiều tham số hơn và sự cải thiện dường như không lớn (vì hành vi gần như ngẫu nhiên của các chứng nhận còn lại). Nhìn chung, sau đó, chúng ta nên có nội dung để đi đến một mô tả đơn giản , hữu ích, đơn giản về dữ liệu cho rất ít công việc phân tích.


: whuber các xung một lần được xác định không có vai trò trong dự báo sẽ dí dỏm:
IrishStat

2

Tôi nghĩ rằng câu trả lời của người viết đơn giản và đơn giản cho một người không có thời gian như tôi hiểu. Tôi dựa vào tôi. Câu trả lời của tôi là ở R không phải Stata vì tôi không biết rõ về stata.

Tôi tự hỏi nếu câu hỏi thực sự yêu cầu chúng ta xem xét liệu mức tăng tuyệt đối của năm có giống nhau trong hai đoàn hệ (chứ không phải tương đối). Tôi nghĩ rằng điều này là quan trọng và minh họa nó như sau. Hãy xem xét ví dụ đồ chơi sau đây:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

nhập mô tả hình ảnh ở đây

Ở đây chúng tôi có 2 đoàn hệ, mỗi nhóm có mức tăng trung bình 1 năm mỗi năm trong tỷ lệ sống trung bình. Vì vậy, mỗi năm cả hai đoàn hệ trong ví dụ này đều tăng cùng một lượng tuyệt đối, nhưng RLE đưa ra các điều sau:

rle <-  a / b
plot(rle)

nhập mô tả hình ảnh ở đây

Điều này rõ ràng có xu hướng tăng và giá trị p để kiểm tra giả thuyết rằng độ dốc của dòng 0 là 2.2e-16. Đường thẳng được trang bị (bỏ qua rằng đường này trông cong) có độ dốc 0,008. Vì vậy, mặc dù cả hai đoàn hệ có mức tăng tuyệt đối như nhau trong một năm, RLE có độ dốc đi lên.

Vì vậy, nếu bạn sử dụng RLE khi bạn muốn tìm kiếm mức tăng tuyệt đối, thì bạn sẽ từ chối một cách không phù hợp giả thuyết khống.

Sử dụng dữ liệu được cung cấp, tính toán sự khác biệt tuyệt đối giữa các đoàn hệ chúng tôi nhận được: nhập mô tả hình ảnh ở đây

Điều đó ngụ ý rằng sự khác biệt tuyệt đối giữa tỷ lệ sống trung bình đang giảm dần (tức là đoàn hệ với tỷ lệ sống kém đang dần tiến gần hơn với đoàn hệ với khả năng sống sót tốt hơn).


: Andrew lưu ý hai cụm phần dư ở cuối biểu đồ của bạn. Điều này cho thấy một thiếu sót tiềm năng trong phân tích của bạn. Thật không may, ngay cả những nhà toán học lành nghề cũng là những nhà thống kê lành nghề đôi khi không phải là những người theo chuỗi thời gian. Những gì tôi đề xuất là quy trình vận hành tiêu chuẩn để phân tích chuỗi thời gian là gì.
IrishStat

@andrew Phản ứng tốt đẹp. Tôi ủng hộ, tôi tin vào trình độ của bạn!
Adam

1
: Adam Cảm ơn những lời tốt đẹp của bạn. Bạn sẽ lưu ý rằng tôi chỉ áp dụng các vấn đề / câu hỏi theo chuỗi thời gian mà tôi có chuyên môn vì tôi có chuyên môn trong lĩnh vực đó trong 40 năm qua.
IrishStat

@IrishStat một cảm ứng phân tán. Trải nghiệm tuyệt vời, bạn đã đặt những trò chơi chữ như tôi vào lúc trước khi tôi được sinh ra.
Adam

: Adam Toàn bộ ý tưởng là giúp đỡ người khác. Tôi thực sự hy vọng đó là trường hợp. Tôi bối rối bởi từ "chơi chữ" vì tôi hoàn toàn không có cảm giác đó. Chỉ cần cố gắng để giúp đỡ!
IrishStat

1

Hai chuỗi thời gian này dường như có một xu hướng xác định. Đây là một mối quan hệ mà bạn rõ ràng muốn loại bỏ trước khi phân tích sâu hơn. Cá nhân, tôi sẽ tiến hành như sau:

1) Tôi sẽ chạy hồi quy cho từng chuỗi thời gian theo hằng số và thời gian và tính toán phần dư cho từng chuỗi thời gian.

2) Lấy chuỗi hai phần dư, được tính ở bước trên, tôi sẽ chạy hồi quy tuyến tính đơn giản (không có số hạng không đổi) và xem xét thống kê t, giá trị p và quyết định xem có phụ thuộc thêm hay không hai loạt.

Phân tích này giả định cùng một nhóm giả định bạn đưa ra trong hồi quy tuyến tính.


: user3544 Chạy hồi quy theo hằng số theo thời gian là một hình thức giảm dần, là một hình thức làm trắng trước; khác biệt là một hình thức làm trắng trước khác: Cả hai đều được cho là có thể có nhiều xu hướng hoặc các hình thức khác nhau của các nhà khai thác khác nhau. Lưu ý rằng toán tử phân biệt là trường hợp cụ thể của bộ lọc ARIMA chuyển đổi một chuỗi thành nhiễu trắng. Trong một chung muốn lọc X để làm cho nó ồn (x) và sau đó áp dụng bộ lọc đó để Y để tạo y (tiếng ồn không nhất thiết phải màu trắng) cho mục đích Xác định cấu trúc hoặc chuyển giao giữa Y và X.
IrishStat

: User3544 Tôi nên hoan nghênh bạn sử dụng các xu hướng đơn giản không phức tạp đơn giản nhưng tôi nghĩ rằng đôi khi người ta không nên giả định. Xu hướng đơn giản thường là vô ích nếu có sự thay đổi cấp độ trong chuỗi hoặc có một số xu hướng. Thử nghiệm giả thuyết liên quan đến sự không đổi của các tham số cần phải mạnh mẽ và được tiến hành khi người ta tìm kiếm điểm tại thời điểm mà các tham số có thể thay đổi thay vì tự ý chọn điểm bằng cách sử dụng Thử nghiệm Chow. Người ta biết rằng các giá trị bất thường hướng xuống kiểm tra độ lệch cho tương quan tự động, đó là lý do tại sao người ta cần phát hiện ra chúng.
IrishStat

IrishStat: tiếng vỗ tay của bạn được đón nhận và lắng nghe .. :) Tôi hoàn toàn đồng ý với ý kiến ​​của bạn, tuy nhiên, với cốt truyện của hai chuỗi thời gian, tôi nghĩ rằng "Hãy giữ cho nó đơn giản" .. :)
Lalas

1
: user3544 Câu nói yêu thích của tôi về Einstein là "Làm mọi thứ đơn giản nhất có thể, nhưng không đơn giản hơn" hoặc khôi phục Tạo các mô hình đơn giản nhất có thể, nhưng không đơn giản vì một số người cho rằng đơn giản là mục tiêu trong khi nó có thể là nguyên nhân của việc phân tích không đầy đủ. Trong trường hợp này, đề xuất của bạn sẽ được xác định để xác định mối tương quan đồng thời và tương quan độ trễ giữa hai đoàn hệ trong khi chiếu sáng sự thay đổi mức độ. Đọc thêm: brainyquote.com/quotes/quotes/a/ .
IrishStat

0

Trong một số trường hợp, người ta biết một mô hình lý thuyết có thể được sử dụng để kiểm tra giả thuyết của bạn. Trong thế giới của tôi, "kiến thức" thường không có và người ta phải sử dụng các kỹ thuật thống kê có thể được phân loại là phân tích dữ liệu thăm dò để tóm tắt những gì sau đây. Khi phân tích dữ liệu chuỗi thời gian không cố định tức là có các tính chất tự tương quan thường gây hiểu lầm trong chừng mực là dương tính giả có thể dễ dàng tìm thấy. Một trong những phân tích sớm nhất về điều này được tìm thấy trong Yule, GU, 1926, "Tại sao đôi khi chúng ta nhận được mối tương quan vô nghĩa giữa chuỗi thời gian? Một nghiên cứu về lấy mẫu và bản chất của chuỗi thời gian", Tạp chí của Hiệp hội Thống kê Hoàng gia 89, 1 Lôi 64. Ngoài ra, khi một hoặc nhiều bộ truyện đã bị ảnh hưởng bởi hoạt động đặc biệt (xem whuber " thất bại bất ngờ trong Cohort B năm 2001) có thể che giấu hiệu quả các mối quan hệ quan trọng. Bây giờ phát hiện mối quan hệ giữa các chuỗi thời gian mở rộng để kiểm tra không chỉ các mối quan hệ đương thời mà cả các mối quan hệ bị trì hoãn có thể. Tiếp tục, nếu một trong hai loạt đã bị ảnh hưởng bởi sự bất thường (sự kiện một lần) thì chúng ta phải củng cố phân tích của mình bằng cách điều chỉnh các biến dạng một lần này. Các tài liệu của chuỗi thời gian chỉ ra cách xác định mối quan hệ thông qua việc làm trắng trước để xác định rõ hơn cấu trúc. Làm trắng trước điều chỉnh cấu trúc tương quan trước khi xác định cấu trúc tương quan. Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau: Bây giờ phát hiện mối quan hệ giữa các chuỗi thời gian mở rộng để kiểm tra không chỉ các mối quan hệ đương thời mà cả các mối quan hệ bị trì hoãn có thể. Tiếp tục, nếu một trong hai loạt đã bị ảnh hưởng bởi sự bất thường (sự kiện một lần) thì chúng ta phải củng cố phân tích của mình bằng cách điều chỉnh các biến dạng một lần này. Các tài liệu của chuỗi thời gian chỉ ra cách xác định mối quan hệ thông qua việc làm trắng trước để xác định rõ hơn cấu trúc. Làm trắng trước điều chỉnh cấu trúc tương quan trước khi xác định cấu trúc tương quan. Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau: Bây giờ phát hiện mối quan hệ giữa các chuỗi thời gian mở rộng để kiểm tra không chỉ các mối quan hệ đương thời mà cả các mối quan hệ bị trì hoãn có thể. Tiếp tục, nếu một trong hai loạt đã bị ảnh hưởng bởi sự bất thường (sự kiện một lần) thì chúng ta phải củng cố phân tích của mình bằng cách điều chỉnh các biến dạng một lần này. Các tài liệu của chuỗi thời gian chỉ ra cách xác định mối quan hệ thông qua việc làm trắng trước để xác định rõ hơn cấu trúc. Làm trắng trước điều chỉnh cấu trúc tương quan trước khi xác định cấu trúc tương quan. Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau: nếu một trong hai loạt đã bị ảnh hưởng bởi sự bất thường (các sự kiện một lần) thì chúng ta phải tăng cường phân tích bằng cách điều chỉnh các biến dạng một lần này. Các tài liệu của chuỗi thời gian chỉ ra cách xác định mối quan hệ thông qua việc làm trắng trước để xác định rõ hơn cấu trúc. Làm trắng trước điều chỉnh cấu trúc tương quan trước khi xác định cấu trúc tương quan. Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau: nếu một trong hai loạt đã bị ảnh hưởng bởi sự bất thường (các sự kiện một lần) thì chúng ta phải tăng cường phân tích bằng cách điều chỉnh các biến dạng một lần này. Các tài liệu của chuỗi thời gian chỉ ra cách xác định mối quan hệ thông qua việc làm trắng trước để xác định rõ hơn cấu trúc. Làm trắng trước điều chỉnh cấu trúc tương quan trước khi xác định cấu trúc tương quan. Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau: Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau: Lưu ý từ khóa là xác định cấu trúc. Cách tiếp cận này dễ dàng dẫn đến "mô hình hữu ích" sau:

Y (T) = -194,45
+ [X1 (T)] [(+ 1.2394+ 1.6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

trong đó cho thấy mối quan hệ đương đại là 1.2936 và hiệu ứng trễ là 1.6523. Lưu ý rằng đã có một số năm mà hoạt động bất thường được xác định là viz. (1975,2001,1983,1999,1976,1985,1984,1991 và 1989). Các điều chỉnh trong nhiều năm cho phép chúng tôi đánh giá rõ hơn mối quan hệ giữa hai loạt này.

Về mặt dự báo

MÔ HÌNH GIẢI THÍCH NHƯ MỘT XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ hằng số

CONSTANT PHẢI TAY PHẢI LÀ: -194,45

COHORTA 0 1.239589 X (39) * 78.228616 = 96.971340

COHORTA 1 1.652332 X (38) * 77.983000 = 128,853835

Tôi ~ L00030 0 -2.475963 X (39) * 1.000000 = -2.475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Bốn hệ số là tất cả những gì cần thiết để đưa ra dự báo và tất nhiên là dự đoán cho CohortA ở khoảng thời gian 39 (78.228616) thu được từ mô hình ARIMA cho Cohorta.


4
Chín trong số 38 năm triển lãm các hoạt động "bất thường"? Trong một mô hình với (dường như) 25 tham số?! Có gì đó không đúng với cách giải thích đó. Ngoài tất cả các xung và sự thay đổi mức độ, bạn đã tìm thấy thành phần phi tuyến nào trong xu hướng của đoàn hệ b chưa?
whuber

2
Các số trong cột bên phải (3, 30, 29, 11, v.v.) là gì? Chúng dường như là một phần trong mô tả dữ liệu của bạn và do đó cũng là các tham số. Ngay cả khi chúng ta không đếm chúng, sử dụng 14 tham số để mô tả 38 giá trị, đặc biệt khi câu hỏi chỉ đơn giản là "có xu hướng không?", Có vẻ quá mức. Đối với vấn đề đó, chính xác xu hướng là gì? Trường hợp trong tất cả các ước tính này, người ta đào nó ra? Nếu một bác sĩ đến gần bạn và hỏi, "ok, những gì đã được hoàn thành cho bệnh nhân ở Cohort B từ năm 1972," bạn có thể nói với họ trong một câu rõ ràng không?
whuber

2
Re "dự đoán rất mạnh mẽ": Tôi có thể hiểu nhầm mô hình của bạn là gì, nhưng nói chung, mô tả tốt hơn về một phương pháp (chuỗi thời gian hoặc cách khác) xác định một phần tư dữ liệu của một người là "bất thường" và yêu cầu "điều chỉnh" sẽ là "quá mức" và "phức tạp không cần thiết." Sự khẳng định của bạn về không có xu hướng trong Cohort B đơn giản là không thể tin được.
whuber

2
@Adam, vì phân tích này về cơ bản bỏ qua thông tin về tính biến thiên có trong 10 "xung", bất kỳ dải dự đoán nào mà nó đặt xung quanh dự báo sẽ rất lạc quan (quá chặt chẽ). Hơn nữa, một phân tích sâu hơn bao gồm tất cả các dữ liệu (không giống như phân tích minh họa của tôi chỉ bao gồm nửa đầu) sẽ phát hiện thành phần phi tuyến phù hợp với xu hướng giảm nhẹ và điều đó cũng không được phát hiện ở đây. Tầm quan trọng lớn hơn dự báo là hiểu được hiệu ứng 2000-2001: nếu có thể lặp lại, thì tất cả các dự báo đều có khả năng sai.
whuber

1
@whuber Tôi thừa nhận không biết tất cả các thuật ngữ kỹ thuật, nhưng lời giải thích của bạn rất hợp lý. Cảm ơn rất nhiều.
Adam

-1

Câu trả lời này bao gồm một số đồ họa phần dư từ một mô hình hữu ích! [] [1]

thực tế đã được làm sạch của các can thiệpacf của phần dư mô hìnhnhập mô tả hình ảnh ở đây phù hợp và dự báo của CohortB CƯ DÂN TỪ MÔ HÌNHthực tế phù hợp và dự báo

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.