Mô hình hồi quy có biến phản hồi là ngày trong năm xảy ra sự kiện thường niên (thường)


13

Trong trường hợp cụ thể này, tôi đang đề cập đến ngày mà hồ đóng băng. Ngày "băng" này chỉ xảy ra mỗi năm một lần, nhưng đôi khi nó hoàn toàn không xảy ra (nếu mùa đông ấm áp). Vì vậy, vào một năm, hồ có thể đóng băng vào ngày 20 (ngày 20 tháng 1) và một năm nữa nó có thể không đóng băng.

Mục tiêu là tìm ra các trình điều khiển của ngày băng.

Dự đoán sẽ là những thứ như nhiệt độ không khí mùa thu / mùa đông mỗi năm. Năm có thể là một yếu tố dự báo cho xu hướng tuyến tính dài hạn.

1) Số nguyên "ngày trong năm" có phải là biến trả lời hợp lý không (nếu không, là gì?)?

2) Làm thế nào một người nên xử lý những năm khi hồ không bao giờ đóng băng?

Biên tập:

Tôi không biết nghi thức gì ở đây, nhưng tôi đoán tôi sẽ đăng kết quả của những lời đề nghị tôi nhận được. Đây là giấy, truy cập mở . Tôi đã nhận được phản hồi tốt về cách tiếp cận được sử dụng, cảm ơn @pedrofigueira và @cboettig. Tất nhiên, lỗi là của riêng tôi.


bạn có loại dữ liệu nào? Các biện pháp trong tất cả các ngày trong năm?
Donbeo

@Donbeo, băng xảy ra mỗi năm một lần, vì vậy biến phản ứng là ở độ phân giải hàng năm. Các dữ liệu khác cũng có tần suất hàng năm, nhưng trong một số trường hợp có thể được chuyển đổi thành dữ liệu tần số cao hơn.
rbatt

Vì mục đích nào bạn muốn xem xét ngày băng? Tôi hỏi điều này bởi vì mô hình thống kê không bao giờ đúng hay sai nhưng hữu ích hoặc vô dụng. Vì vậy, việc sử dụng cho các kết quả thống kê có vấn đề, cũng là cái nhìn sâu sắc nếu biến mục tiêu được sử dụng ở tất cả. Ví dụ, điều gì sẽ xảy ra nếu hồ đóng băng với một lá chắn băng mỏng đã có vào tháng 10 nhưng tan chảy cùng tuần và không bao giờ đóng băng nữa trong mùa đông này? Có lẽ bạn làm phân tích của bạn để dự đoán khi nào bắt đầu sử dụng một cái gì đó như lốp xe tuyết? Điều này có thể đưa ra một gợi ý cho một câu trả lời hữu ích cho câu hỏi thứ 2 của bạn.
Horst Grünbusch

Cảm ơn những suy nghĩ của bạn, @ HorstGrünbusch. Tôi muốn biết sự thay đổi của khí hậu đã ảnh hưởng đến băng như thế nào, bởi vì việc đậy nắp hệ thống thủy sinh ảnh hưởng đến rất nhiều thứ (trao đổi khí, ánh sáng, v.v.). Dữ liệu băng duy nhất có sẵn là những ngày băng này (không phải độ dày, v.v.).
rbatt

Câu trả lời:


4

Tôi nghĩ rằng người ta có thể coi "ngày trong năm" là một biến phản ứng với hồi quy đa biến. Để xử lý nhiều năm khi hồ không bao giờ đóng băng, tôi chỉ cần xem xét rằng ngày đóng băng lớn hơn giới hạn thấp hơn có thể quan sát được, tương ứng với ngày khi hàm lượng băng bắt đầu tan chảy (hoặc tan chảy hoàn toàn, nếu bạn muốn rất bảo thủ). Về mặt lý thuyết nó sẽ đóng băng sau đó, hoặc có thể đóng băng sau đó, nhưng chúng ta không biết. Bằng cách này, bạn có thể sử dụng dữ liệu bạn đã thu thập trên các tham số khác nhau để hiểu ngày đóng băng phụ thuộc vào chúng như thế nào, nếu nó được phép muộn hơn ngày quan sát gần nhất. Sau đó, bạn có thể sử dụng mô hình Tobitđể xử lý đồng thời các ngày đóng băng (tương ứng với các điểm dữ liệu "thông thường") và các giới hạn thấp hơn (tương ứng với các giới hạn và do đó là hồi quy kiểm duyệt).

Để bao gồm chính xác các giới hạn thấp hơn được đo trong phân tích, bạn có thể sử dụng mô hình hồi quy được kiểm duyệt, trong đó biến phụ thuộc có giới hạn ở giá trị của giới hạn dưới. Mô hình Tobit đã đề cập ở trên là thích hợp cho trường hợp này; nó giả sử sự tồn tại của một biến phụ thuộc không thể quan sát được (tiềm ẩn) mà trong trường hợp của chúng tôi tương ứng với ngày đóng băng nếu mùa đông kéo dài vô tận. Biến phụ thuộc có thể quan sát y i (nghĩa là giới hạn dưới đo được vào ngày đóng băng) sau đó được lấy bằng với biến tiềm ẩn trong trường hợp không có giới hạn thấp hơn L i và bằng giới hạn dướiyiyiLi

yi={yiif¯Li(i.e.yi<Li)LiifyiLi

Việc áp dụng mô hình Tobit để xử lý kiểm duyệt theo dõi quan sát, dẫn đến chức năng khả năng đăng nhập của biểu mẫu

L=iyi<Liln[ϕ(yiXijβjσ)/σ]+iyiLiln[Φ(LiXijβjσ)]

trong Φ ( . ) lần lượt biểu thị các hàm mật độ xác suất và mật độ tích lũy của phân phối chuẩn thông thường. Chỉ số i chạy trên các quan sát và j trên các biến độc lập. Giải pháp cho hồi quy tuyến tính là tập hợp các tham số β j (bao gồm cả chặn) tối đa hóa hàm khả năng đăng nhập.ϕ(.)Φ(.)ijβj


3
Vấn đề lớn với "ngày trong năm" liên quan đến cách mã hóa nó. Thông thường, nó sẽ được biểu diễn dưới dạng một ngày Julian trong khoảng từ đến 365 hoặc là một năm thập phân từ 0 đến 1 , nhưng cả hai đều không phù hợp vì đây là một biến tròn : ví dụ, ngày Julian của 1 ngay sau ngày 365 chẳng hạn. Do đó, đặc biệt, giới hạn "trên" và "dưới" là vô nghĩa. (Ngoài ra còn có một vấn đề nhỏ về cách xử lý năm nhuận; vấn đề này có thể được giải quyết bằng nhiều cách đơn giản khác nhau.) Vấn đề lớn khác liên quan đến việc xử lý nhiều năm khi đóng băng không xảy ra: đây không phải là dữ liệu bị thiếu hoặc bị kiểm duyệt. 1365011365
ai

1
Tôi cho rằng khái niệm giới hạn dưới vẫn giữ nguyên ý nghĩa của nó nếu mỗi năm có thể được coi là một thử nghiệm độc lập, nghĩa là, nếu thử nghiệm không có bộ nhớ và ngày đóng băng trong một năm có thể được coi là độc lập hoàn toàn với ngày trong trước đó; sau đó nó chỉ nên phụ thuộc vào các thông số của năm trong câu hỏi. Nếu đó là trường hợp, thì theo sự hiểu biết tốt nhất của tôi, biến không phải là hình tròn.
pedrofigueira

1
Vâng, trong một số trường hợp kỹ thuật ad hoc như vậy có thể làm việc. Khi (a) sự kiện luôn xảy ra mỗi năm và (b) các sự kiện được phân tán chặt chẽ vào một ngày dự đoán, bạn sẽ ổn bằng cách chọn nguồn gốc của năm một cách thích hợp. Nhưng với số lượng phân tán lớn hơn (có thể là trường hợp ở đây) - hoặc trong những trường hợp quyết liệt nhất khi sự kiện có thể vắng mặt hoàn toàn - bạn thực sự cần áp dụng các phương pháp thống kê vòng tròn ("định hướng"). BTW, tương quan nối tiếp hoặc độc lập là một mối quan tâm riêng biệt hoàn toàn.
whuber

2
Tôi nghĩ giới hạn trên nên được xác định chính xác nhất có thể; nếu một người có thể làm như vậy thì phân tích Tobit trở nên sâu sắc hơn. Tôi sẽ đề xuất là giới hạn thấp hơn (đóng băng có thể xảy ra trước đây, nhưng không thể quan sát / quan sát được) DoY vượt quá mức mà bạn cho rằng bạn không thể phát hiện sự tan chảy nữa. Có lẽ điều này có thể được thực hiện bằng cách xem xét (P, T) cần thiết để nước đóng băng và giả sử áp suất không đổi, chọn cực tiểu địa phương cuối cùng trong năm hoặc tương tự. Tôi tin rằng câu hỏi tại thời điểm này trở thành một câu hỏi vật lý hơn là câu hỏi thống kê (dù sao cũng rất thú vị).
pedrofigueira

2
@rbatt Tôi nghĩ câu trả lời này là hợp lý. Ngày bắt đầu là tùy ý, bạn có thể bắt đầu từ một số ngày khác hoặc sử dụng số âm; Tôi không thấy một vấn đề. Thông tư sẽ tự chăm sóc bản thân bằng cách đánh số theo ngày trong năm.
cboettig

1

Ngày trong năm là một biến dự đoán hợp lý và tôi nghĩ rằng điều đó là hợp lý để xử lý nó như @pedrofigueira gợi ý.

Đối với các biến dự đoán khác, bạn có thể cần phải cẩn thận về cách bạn thể hiện thời gian. Ví dụ, hãy tưởng tượng bạn có nhiệt độ không khí theo ngày - bạn sẽ mô hình hóa nhiệt độ không khí như một công cụ dự báo ngày băng như thế nào? Tôi không nghĩ so sánh các mẫu cùng ngày là đủ.

Trong bất kỳ phân tích nào như vậy, tôi nghĩ rằng nó giúp ghi lại những gì bạn nghĩ rằng một mô hình tạo (hoặc mô hình) hợp lý của dữ liệu có thể là (trong đó một số vật lý có thể có sẵn như một hướng dẫn). Ví dụ, một mô hình hợp lý có thể là tích hợp số ngày dưới mức đóng băng và khi tích phân đó vượt qua ngưỡng (ví dụ: liên quan đến khối nhiệt của hồ), xảy ra hiện tượng đóng băng. Từ một mô hình như vậy, sau đó bạn có thể hỏi thế nào là xấp xỉ hợp lý và điều gì không.

Ví dụ, ngày trong năm với tư cách là người dự đoán chỉ quan trọng với mô hình đó trong rất nhiều ngày như năm là một yếu tố dự báo tốt về nhiệt độ. Do đó, chỉ biết ngày trong năm, người ta sẽ chỉ có một ngày trung bình trong năm tương ứng với ngưỡng băng, có lẽ một số phân phối bình thường về nó do sự thay đổi nhiệt độ giữa các năm và do đó tìm kiếm xu hướng trong ngày- của năm là hoàn toàn hợp lý.

Nhưng nếu bạn biết các biến khác như không khí tạm thời theo ngày, bạn có thể phải đối mặt với việc xử lý mô hình phức tạp hơn một chút trực tiếp hơn. Nếu bạn chỉ sử dụng các giá trị hàng năm (mức tối thiểu? Có nghĩa là?) Hơn biến như một công cụ dự đoán ngày băng cũng có vẻ hợp lý (bằng cách lập luận tương tự như trên).


+1 để chỉ vào vật lý. Nếu bạn không thể giải thích kết quả thống kê theo lý do, nó có thể là giả, ngay cả khi nó hiển thị đáng kể.
Horst Grünbusch

Nói rõ hơn, ngày này đối với băng là biến phản ứng ... đó là điều tôi đang cố gắng "dự đoán" (trong câu trả lời của bạn, bạn gọi nó là "dự đoán" ở một vài nơi). Bạn có đề nghị xử lý các năm không bị đóng băng (khác với đề xuất Tobit bên dưới) không?
rbatt

1
@rbatt, xin lỗi vì sự nhầm lẫn. Mô hình đơn giản nhất là 1D, sử dụng ngày thường xảy ra trong quá khứ như dự đoán. Nhưng nếu bạn muốn phát hiện các xu hướng trong ngày băng, bạn có NGÀY đầy đủ, không phải Ngày của năm, như điều bạn muốn dự đoán, bởi vì dự đoán, năm 2020 có thể khác với năm 2050.
cboettig

0

Đối với vấn đề này, bạn cần hai biến trả lời. Một phản hồi Boolean cho biết hồ có bị đóng băng hay không và một phản hồi số nguyên cho ngày trong năm, có điều kiện trên chỉ báo là đúng. Trong những năm khi hồ đóng băng, cả Boolean và số nguyên đều được quan sát. Trong những năm khi hồ không đóng băng, Boolean được quan sát và số nguyên thì không. Bạn có thể sử dụng hồi quy logistic cho Boolean. Hồi quy cho ngày trong năm có thể là hồi quy tuyến tính thông thường.

Tính chất tuần hoàn của ngày trong năm không phải là vấn đề miễn là bạn đánh số ngày đóng băng có thể liên tiếp trong một khoảng thời gian nhất định. Nếu bạn đang tự hỏi nên bắt đầu đánh số ở đâu, tôi sẽ đề xuất ngày mà các yếu tố dự đoán được đo. Nếu bạn muốn mô hình đại diện cho các hiệu ứng nhân quả, thì đó phải là trường hợp tất cả các yếu tố dự đoán được đo trước khi có thể đóng băng.

Để xử lý số nguyên và giới hạn của ngày trong năm, có thể sử dụng mô hình rời rạc. Nghĩa là, có một giá trị tiềm ẩn thực sự tạo ra một quan sát theo cách sau: nếu giá trị nằm trong giới hạn thì quan sát bằng với giá trị tiềm ẩn được làm tròn đến số nguyên gần nhất, nếu không thì giá trị được cắt theo giới hạn. Giá trị tiềm ẩn sau đó có thể được mô hình hóa như là một hàm tuyến tính của các yếu tố dự đoán cộng với nhiễu.


Tôi hiểu tiền đề của cách tiếp cận, nhưng tôi không chắc cách thực hiện. Làm thế nào tôi có thể sắp xếp dữ liệu và ước tính ảnh hưởng của các trình điều khiển ứng cử viên của boolean / ngày? Tôi làm việc tại R.
rbatt

Đặt dữ liệu vào khung dữ liệu trong đó một cột là Boolean và cột khác là ngày. Sau đó sử dụng: fit1 = glm (froze ~ x, frame, family = "binomial") fit2 = lm (date ~ x, frame)
Tom Minka

Xin lỗi, tôi có thể hiểu "fit2 = lm (ngày ~ x, khung, tập hợp con = Boolean == TRUE)" không?
Sergio

Đó sẽ là hai mô hình riêng biệt. Trong mô hình mà "ngày" là phản ứng, tôi phải làm gì với những năm khi nước không bao giờ đóng băng? Nếu tôi chỉ đơn giản loại bỏ những năm đó, thì tôi sẽ thiên vị kết quả (hoặc giảm nghiêm trọng phạm vi phản hồi quan sát của tôi) bởi vì tôi chọn lọc loại bỏ những quan sát cực đoan nhất của phản hồi (nghĩa là không bao giờ đóng băng là ngày cực đoan nhất). Vì vậy, những năm khi nước không bao giờ đóng băng sẽ cho chúng ta biết điều gì đó về ảnh hưởng của những người lái xe đó vào ngày băng. Có vẻ như thông tin trong cả hai mô hình nên được kết hợp.
rbatt

Tôi không thoải mái với việc coi đóng băng là biến boolean vì quá trình cơ bản không còn nghi ngờ gì nữa.
cboettig

0

Những gì bạn có là dữ liệu theo thời gian, cũng được gọi là phân tích sinh tồn. Đó không thực sự là lĩnh vực của tôi, vì vậy tôi không đưa ra câu trả lời chi tiết ở đây. Googling cho "dữ liệu thời gian đến sự kiện" hoặc "phân tích sinh tồn" sẽ mang lại cho bạn rất nhiều lượt truy cập!

Một điểm khởi đầu tốt có thể là chương (13) về phân tích sinh tồn trong Venables / Ripley: MASS hoặc "Phân tích thống kê dữ liệu thời gian thất bại, ấn bản thứ hai" của John D. Kalbfleisch, Ross L. Prentice (auth.)

CHỈNH SỬA, TRẢ LỜI

Thay thế cho phân tích sinh tồn, bạn có thể ước tính điều đó bằng hồi quy logistic thông thường. Ví dụ, trong trường hợp ví dụ về ngày đóng băng đầu tiên của bạn, hãy xác định một số ngày mà bạn đưa ra trạng thái "đã bị đóng băng tại hoặc trước", 0 (không đóng băng), 1 (đóng băng). Điều đó độc đáo bao gồm những năm mà không bị đóng băng, bạn chỉ cần có một vectơ phản ứng hoàn toàn bằng không. Nếu ngày chọn của bạn là, nói,

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

và, nói chung, tất cả các vectơ phản hồi sẽ có một khối số không ban đầu, theo sau là một khối. Sau đó, bạn có thể sử dụng điều này với hồi quy logistic thông thường, có được xác suất đóng băng ước tính cho mỗi ngày. Vẽ đường cong đó sẽ đưa ra một xấp xỉ cho đường cong sống sót (sự sống sót, trong bối cảnh này, trở thành "chưa bị đóng băng").

EDIT

Người ta cũng có thể xem dữ liệu của bạn là các sự kiện tái diễn, vì đóng băng sông (gần như) mỗi năm. Se câu trả lời của tôi ở đây: Tìm kiếm các dự đoán quan trọng về việc đọc tâm thần

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.