Đây là một tình huống đơn giản; Hãy giữ nó như vậy. Chìa khóa là tập trung vào những gì quan trọng:
Có được một mô tả hữu ích của dữ liệu.
Đánh giá sai lệch cá nhân từ mô tả đó.
Đánh giá vai trò có thể và ảnh hưởng của cơ hội trong việc giải thích.
Duy trì tính toàn vẹn trí tuệ và minh bạch.
Vẫn còn nhiều lựa chọn và nhiều hình thức phân tích sẽ hợp lệ và hiệu quả. Chúng ta hãy minh họa một cách tiếp cận ở đây có thể được khuyến nghị cho việc tuân thủ các nguyên tắc chính này.
Để duy trì tính toàn vẹn, chúng ta hãy chia dữ liệu thành hai nửa: các quan sát từ năm 1972 đến năm 1990 và các dữ liệu từ năm 1991 đến năm 2009 (mỗi lần 19 năm). Chúng tôi sẽ phù hợp với các mô hình cho nửa đầu và sau đó xem mức độ phù hợp làm việc trong việc chiếu nửa sau. Điều này có thêm lợi thế là phát hiện những thay đổi đáng kể có thể xảy ra trong nửa sau.
Để có được một mô tả hữu ích, chúng ta cần (a) tìm cách đo lường các thay đổi và (b) phù hợp với mô hình đơn giản nhất có thể phù hợp với những thay đổi đó, đánh giá nó và lặp lại phù hợp với những thay đổi phức tạp hơn để phù hợp với độ lệch so với các mô hình đơn giản.
(a) Bạn có nhiều lựa chọn: bạn có thể xem dữ liệu thô; bạn có thể nhìn vào sự khác biệt hàng năm của họ; bạn có thể làm tương tự với logarit (để đánh giá các thay đổi tương đối); bạn có thể đánh giá số năm mất mạng hoặc tuổi thọ tương đối (RLE); hoặc nhiều thứ khác. Sau khi suy nghĩ, tôi quyết định xem xét RLE, được định nghĩa là tỷ lệ tuổi thọ trong Cohort B so với Cohort A. (tham khảo), may mắn thay, như các biểu đồ cho thấy, tuổi thọ trong Cohort A đang tăng đều đặn thời trang theo thời gian, do đó, hầu hết các biến thể tìm kiếm ngẫu nhiên trong RLE sẽ là do những thay đổi trong Cohort B.
(b) Mô hình đơn giản nhất có thể bắt đầu là xu hướng tuyến tính. Hãy xem nó hoạt động tốt như thế nào.
Các điểm màu xanh đậm trong âm mưu này là dữ liệu được giữ lại để phù hợp; các điểm vàng nhẹ là dữ liệu tiếp theo, không được sử dụng cho phù hợp. Đường màu đen là phù hợp, với độ dốc 0,009 / năm. Các đường đứt nét là các khoảng dự đoán cho các giá trị tương lai riêng lẻ.
Nhìn chung, sự phù hợp có vẻ tốt: kiểm tra phần dư (xem bên dưới) cho thấy không có thay đổi quan trọng nào về kích thước của chúng theo thời gian (trong giai đoạn dữ liệu 1972-1990). . của mối tương quan nối tiếp (thể hiện bằng một số hoạt động tích cực và chạy dư âm), nhưng rõ ràng điều này là không quan trọng. Không có ngoại lệ, sẽ được chỉ định bởi các điểm nằm ngoài các dải dự đoán.
Một điều ngạc nhiên là vào năm 2001, các giá trị đột nhiên rơi xuống dải dự đoán thấp hơn và ở lại đó: một điều khá bất ngờ và lớn đã xảy ra và tồn tại.
Dưới đây là phần dư, là độ lệch so với mô tả được đề cập trước đó.
Bởi vì chúng tôi muốn so sánh phần dư với 0, các đường thẳng đứng được vẽ ở mức 0 dưới dạng trợ giúp trực quan. Một lần nữa, các điểm màu xanh hiển thị dữ liệu được sử dụng cho phù hợp. Những cái vàng nhẹ là phần dư cho dữ liệu nằm gần giới hạn dự đoán thấp hơn, sau năm 2000.
Từ con số này, chúng tôi có thể ước tính rằng tác động của thay đổi 2000-2001 là khoảng -0,07 . Điều này phản ánh sự sụt giảm đột ngột 0,07 (7%) của toàn bộ thời gian sống trong Cohort B. Sau lần giảm đó, mô hình dư của chiều ngang cho thấy xu hướng trước đó tiếp tục, nhưng ở mức thấp mới. Phần phân tích này nên được xem là thăm dò : nó không được lên kế hoạch cụ thể, nhưng đã xuất hiện do sự so sánh đáng ngạc nhiên giữa dữ liệu được giữ lại (1991-2009) và sự phù hợp với phần còn lại của dữ liệu.
10−7
Dường như không có lý do nào để phù hợp với một mô hình phức tạp hơn với những dữ liệu này, ít nhất là không nhằm mục đích ước tính liệu có xu hướng thực sự trong RLE theo thời gian hay không: có một. Chúng tôi có thể đi xa hơn và chia dữ liệu thành các giá trị trước năm 2001 và giá trị sau năm 2000 để tinh chỉnh các ước tính của chúng tôivề các xu hướng, nhưng sẽ không hoàn toàn trung thực khi thực hiện các bài kiểm tra giả thuyết. Các giá trị p sẽ thấp một cách giả tạo, vì thử nghiệm phân tách không được lên kế hoạch trước. Nhưng là một bài tập khám phá, ước tính như vậy là tốt. Tìm hiểu tất cả những gì bạn có thể từ dữ liệu của bạn! Chỉ cần cẩn thận để không tự lừa dối bản thân bằng cách sử dụng quá mức (điều gần như chắc chắn sẽ xảy ra nếu bạn sử dụng hơn nửa tá thông số hoặc sử dụng kỹ thuật lắp tự động) hoặc theo dõi dữ liệu: cảnh giác với sự khác biệt giữa xác nhận chính thức và không chính thức (nhưng có giá trị) thăm dò dữ liệu.
Hãy tóm tắt:
Bằng cách chọn một thước đo phù hợp về tuổi thọ (RLE), giữ một nửa dữ liệu, điều chỉnh một mô hình đơn giản và thử nghiệm mô hình đó với dữ liệu còn lại, chúng tôi đã xác định chắc chắn rằng : có một xu hướng nhất quán; nó đã gần với tuyến tính trong một thời gian dài; và đã có một sự sụt giảm liên tục trong RLE vào năm 2001.
Mô hình của chúng tôi rất đáng chú ý : nó chỉ cần hai số (độ dốc và chặn) để mô tả chính xác dữ liệu ban đầu. Nó cần một phần ba (ngày nghỉ, 2001) để mô tả một sự khởi đầu rõ ràng nhưng bất ngờ từ mô tả này. Không có ngoại lệ liên quan đến mô tả ba tham số này. Mô hình sẽ không được cải thiện đáng kể bằng cách mô tả tương quan nối tiếp (trọng tâm của các kỹ thuật chuỗi thời gian nói chung), cố gắng mô tả các sai lệch nhỏ (dư) được đưa ra hoặc đưa ra các khớp phù hợp phức tạp hơn (chẳng hạn như thêm vào một thành phần thời gian bậc hai hoặc mô hình thay đổi kích thước của phần dư theo thời gian).
Xu hướng là 0,009 RLE mỗi năm . Điều này có nghĩa là với mỗi năm trôi qua, tuổi thọ trong Cohort B đã có 0,009 (gần 1%) trong vòng đời bình thường dự kiến đầy đủ được thêm vào nó. Trong suốt quá trình nghiên cứu (37 năm), số tiền đó sẽ lên tới 37 * 0,009 = 0,34 = một phần ba của một cải tiến trọn đời. Sự thụt lùi trong năm 2001 đã làm giảm mức tăng đó xuống còn khoảng 0,28 trong toàn bộ thời gian từ năm 1972 đến năm 2009 (mặc dù trong giai đoạn đó tuổi thọ chung tăng 10%).
Mặc dù mô hình này có thể được cải thiện, nhưng nó có thể sẽ cần nhiều tham số hơn và sự cải thiện dường như không lớn (vì hành vi gần như ngẫu nhiên của các chứng nhận còn lại). Nhìn chung, sau đó, chúng ta nên có nội dung để đi đến một mô tả đơn giản , hữu ích, đơn giản về dữ liệu cho rất ít công việc phân tích.