Kiểm tra sự liên kết cho một DV phân phối bình thường bởi các biến độc lập định hướng?


10

Có một thử nghiệm giả thuyết nào về việc liệu một biến phụ thuộc phân phối bình thường có được liên kết với một biến phân phối theo hướng không?

Ví dụ: nếu thời gian trong ngày là biến giải thích (và giả sử những thứ như ngày trong tuần, tháng trong năm, v.v. không liên quan) thìththat là cách giải thích cho việc 11 giờ tối là 22 giờ trước 1 giờ sáng và 2 Giờ sau 1 giờ sáng trong một bài kiểm tra của hiệp hội? Tôi có thể kiểm tra xem thời gian liên tục trong ngày có giải thích biến phụ thuộc hay không mà giả sử rằng 12:00 đêm không theo dõi một phút sau 11:59 tối?

Liệu thử nghiệm này cũng áp dụng cho các biến giải thích định hướng ( mô-đun ?)? Hay điều đó đòi hỏi một bài kiểm tra riêng? Ví dụ: làm thế nào để kiểm tra xem biến phụ thuộc có được giải thích theo tháng trong năm hay không (giả sử ngày và mùa trong năm, và năm hoặc thập kỷ cụ thể là không liên quan). Điều trị tháng của năm bỏ qua thứ tự. Nhưng coi tháng của năm là một biến số tiêu chuẩn (giả sử tháng 1 = 1 ... 12 tháng 12) bỏ qua rằng tháng một đến hai tháng sau tháng mười một.


1
Câu trả lời có thể điền vào một cuốn sách (và có một vài trong số chúng ở ngoài đó). Làm cho câu hỏi của bạn cụ thể hơn có thể giúp tập trung các câu trả lời về những gì quan trọng với bạn.
whuber

@whuber Um ... trời ạ ... bạn có thể giúp tôi về cách thu hẹp không? Chỉ định phân phối cho DV? Giới hạn chỉ là một thử nghiệm duy nhất, thay vì hồi quy? Tôi hơi bối rối và không biết bắt đầu từ đâu ...
Alexis

@whuber Tôi đã cố gắng thu hẹp câu hỏi khá nhiều, và sẽ biết ơn bất kỳ gợi ý nào về việc làm cho nó hữu ích hơn (tôi thực sự chỉ muốn một nơi bắt đầu để suy nghĩ về các dự đoán mô-đun). Nếu điều này bây giờ ở dạng khá, tôi có thể theo dõi một câu hỏi tương tự về thử nghiệm như vậy không phân phối trong DV.
Alexis

@whuber Thay đổi mô-đun IV rời rạc trong bối cảnh hồi quy: mô hình hỗn hợp hai cấp với mô-đun IV rời rạc làm định danh cấp 2 với mỗi đơn vị cấp 2 có biến hiệu ứng trước và sau ngẫu nhiên bằng giá trị trước và sau trong hệ thống số có đi đúng hướng?
Alexis

Câu trả lời:


9

Nói chung, tôi nghĩ rằng bắt đầu có hiệu quả về mặt khoa học và thống kê hơn bằng cách hỏi một câu hỏi rộng hơn và khác nhau, đó là câu trả lời có thể dự đoán được từ một người dự đoán vòng tròn bao xa. Tôi nói thông tư ở đây chứ không phải định hướng , một phần bởi vì cái sau bao gồm các không gian hình cầu và thậm chí tuyệt vời hơn, tất cả không thể được bao phủ trong một câu trả lời duy nhất; và một phần vì các ví dụ của bạn, thời gian trong ngàythời gian trong năm , đều là thông tư. Một ví dụ chính nữa là hướng la bàn (liên quan đến gió, động vật hoặc con người, sự sắp xếp, v.v.), đặc trưng trong nhiều vấn đề vòng tròn: thực sự, đối với một số nhà khoa học, đó là điểm khởi đầu rõ ràng hơn.

Bất cứ khi nào bạn có thể thoát khỏi nó, sử dụng các hàm thời gian sin và cos trong một mô hình hồi quy nào đó là một phương pháp mô hình hóa đơn giản và dễ thực hiện. Đây là cảng đầu tiên cho nhiều ví dụ sinh học và / hoặc môi trường. (Hai loại thường được kết hợp với nhau, bởi vì các hiện tượng sinh học thể hiện tính thời vụ thường phản ứng trực tiếp hoặc gián tiếp với khí hậu hoặc thời tiết.)

Để cụ thể, hãy tưởng tượng các phép đo thời gian trong 24 giờ hoặc 12 tháng, ví dụ như vậy

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

mỗi mô tả một chu kỳ trong toàn bộ ngày hoặc năm. Một thử nghiệm chính thức không có mối quan hệ giữa phản ứng đo hoặc đếm và thời gian tuần hoàn sau đó sẽ là thử nghiệm tiêu chuẩn xem liệu các hệ số của sin và cosin có bằng 0 trong một mô hình tuyến tính tổng quát với sin và cosin như một yếu tố dự đoán, một liên kết và gia đình thích hợp được lựa chọn theo tính chất của phản ứng.

Câu hỏi về phân phối biên của phản ứng (bình thường hay khác) là trong cách tiếp cận thứ cấp này và / hoặc được xử lý theo lựa chọn của gia đình.

Ưu điểm của sin và cosin là tự nhiên là chúng định kỳ và tự động bao quanh, vì vậy các giá trị ở đầu và cuối mỗi ngày hoặc năm nhất thiết phải là một và giống nhau. Không có vấn đề với các điều kiện biên, bởi vì không có ranh giới.

Cách tiếp cận này được gọi là hồi quy tuần hoàn, định kỳ, lượng giác và Fourier. Đối với một đánh giá hướng dẫn giới thiệu, xem ở đây

Trong thực tế,

  1. Các xét nghiệm như vậy thường cho thấy kết quả đáng kể áp đảo ở mức độ thông thường bất cứ khi nào chúng ta mong đợi tính thời vụ. Câu hỏi thú vị hơn là đường cong theo mùa chính xác được ước tính và liệu chúng ta có cần một mô hình phức tạp hơn với các thuật ngữ hình sin khác không.

  2. Không có gì loại trừ các dự đoán khác nữa, trong trường hợp chúng ta chỉ cần các mô hình toàn diện hơn với các dự đoán khác bao gồm, nói các sin và cosin cho tính thời vụ và các dự đoán khác cho mọi thứ khác.

  3. Tại một số điểm, tùy thuộc vào dữ liệu, vấn đề và thị hiếu và kinh nghiệm của nhà nghiên cứu, có thể trở nên tự nhiên hơn để nhấn mạnh khía cạnh chuỗi thời gian của vấn đề và xây dựng mô hình với sự phụ thuộc thời gian rõ ràng. Thật vậy, một số người có đầu óc thống kê sẽ phủ nhận rằng có bất kỳ cách nào khác để tiếp cận nó.

Những gì dễ dàng được đặt tên là xu hướng (nhưng không phải lúc nào cũng dễ nhận biết) nằm trong số 2 hoặc # 3, hoặc thậm chí cả hai.

Nhiều nhà kinh tế và các nhà khoa học xã hội khác quan tâm đến tính thời vụ trong thị trường, nền kinh tế quốc gia và quốc tế hoặc các hiện tượng khác của con người thường ấn tượng hơn với khả năng biến đổi phức tạp hơn trong mỗi ngày hoặc (phổ biến hơn) trong năm. Thông thường, mặc dù không phải lúc nào cũng vậy, tính thời vụ là một mối phiền toái cần được loại bỏ hoặc điều chỉnh, ngược lại với các nhà khoa học sinh học và môi trường, những người thường coi thời vụ là thú vị và quan trọng, thậm chí là trọng tâm chính của dự án. Điều đó nói rằng, các nhà kinh tế và những người khác cũng thường áp dụng cách tiếp cận kiểu hồi quy, nhưng với đạn dược, một bó các biến chỉ báo (giả), đơn giản nhất là biến cho mỗi tháng hoặc mỗi quý một năm0,1. Đây có thể là một cách thực tế để cố gắng nắm bắt các tác động của ngày lễ, thời gian nghỉ phép, tác dụng phụ của năm học, v.v., cũng như ảnh hưởng hoặc cú sốc của nguồn gốc khí hậu hoặc thời tiết. Với những khác biệt được ghi nhận, hầu hết các ý kiến ​​trên cũng áp dụng trong kinh tế và khoa học xã hội.

Thái độ và cách tiếp cận của các nhà dịch tễ học và các nhà thống kê y học liên quan đến sự thay đổi về tỷ lệ mắc bệnh, tỷ lệ tử vong, nhập viện, thăm khám và tương tự, có xu hướng rơi vào giữa hai thái cực này.

Theo quan điểm của tôi, việc chia ngày hoặc năm thành một nửa để so sánh thường là tùy tiện, giả tạo và tốt nhất là khó xử. Nó cũng bỏ qua các loại cấu trúc trơn tru thường có trong dữ liệu.

EDIT Tài khoản cho đến nay không giải quyết được sự khác biệt giữa thời gian rời rạc và liên tục, nhưng tôi không từ kinh nghiệm của mình coi đó là một vấn đề lớn trong thực tế.

Nhưng lựa chọn chính xác phụ thuộc vào cách dữ liệu đến và mô hình thay đổi.

Nếu dữ liệu là hàng quý và con người, tôi sẽ có xu hướng sử dụng các biến chỉ báo (ví dụ: quý 3 và 4 thường khác nhau). Nếu hàng tháng và con người, sự lựa chọn không rõ ràng, nhưng bạn sẽ phải nỗ lực để bán sine và cosin cho hầu hết các nhà kinh tế. Nếu hàng tháng hoặc tốt hơn và sinh học hoặc môi trường, chắc chắn là sin và cosin.

EDIT 2 Chi tiết khác về hồi quy lượng giác

Một chi tiết đặc biệt của hồi quy lượng giác (được đặt tên theo bất kỳ cách nào khác nếu bạn thích) là hầu như luôn luôn các thuật ngữ sin và cos được trình bày tốt nhất cho một mô hình theo cặp. Chúng tôi lần đầu tiên chia tỷ lệ thời gian trong ngày, thời gian trong năm hoặc hướng la bàn để nó được biểu diễn dưới dạng một góc trên vòng tròn tính bằng radian, do đó trên khoảng . Sau đó, chúng tôi sử dụng nhiều cặp như cần thiết trong một mô hình. (Trong thống kê vòng tròn, các quy ước lượng giác có xu hướng thổi phồng các quy ước thống kê, do đó các ký hiệu Hy Lạp như được sử dụng cho các biến cũng như tham số.)[ 0 , 2 π ] tội lỗi k θ , cos k θ , k = 1 , 2 , 3 , ... θ , φ , ψθ[0,2π]sinkθ,coskθ,k=1,2,3,θ,ϕ,ψ

Nếu chúng tôi cung cấp một cặp dự đoán như cho một mô hình giống như hồi quy, thì chúng tôi có các ước tính hệ số, giả sử , cho các thuật ngữ trong mô hình, cụ thể là . Đây là một cách của pha phù hợp cũng như biên độ của tín hiệu định kỳ. Mặt khác, một hàm như có thể được viết lại thànhb 1 , b 2 b 1 sin θ , b 2 cos θsinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

nhưng giai đoạn đại diện cho và được ước tính trong sự phù hợp mô hình. Bằng cách đó chúng ta tránh được một vấn đề ước lượng phi tuyến tính.cosϕsinϕ

Nếu chúng ta sử dụng để mô hình biến thể tròn, thì tự động tối đa và tối thiểu của đường cong đó cách nhau một nửa vòng tròn. Đó thường là một xấp xỉ rất tốt cho các biến đổi sinh học hoặc môi trường, nhưng ngược lại, chúng ta có thể cần thêm một số thuật ngữ để nắm bắt tính thời vụ kinh tế nói riêng. Đó có thể là một lý do rất tốt để sử dụng các biến chỉ báo thay vào đó, điều này ngay lập tức dẫn đến những diễn giải đơn giản về các hệ số.b1sinθ+b2cosθ


Tôi lưu ý một số trùng lặp không đáng ngạc nhiên với câu trả lời từ @Kelvin.
Nick Cox

+1 (Đặc biệt là sử dụng "tuyệt vời" như bạn đã làm! :) Nick Cox, bạn có tử tế khi đưa ra trường hợp rõ ràng cho các biến tròn rời rạc không , theo câu hỏi của tôi? Điều đó có đơn giản như cách tiếp cận "mô hình lượng giác" mà bạn mô tả bằng cách sử dụng thước đo thời gian riêng biệt không? Hoặc sẽ cần phải có "sửa chữa liên tục" của một số loại?
Alexis

Theo như tôi biết, sự khác biệt duy nhất giữa các biến tròn rời rạc và liên tục là ở cách làm tròn các giá trị thành các điểm rời rạc (ví dụ: 2pm so với 14.12345hrs), như với các biến không tròn, do đó sẽ không có nhiều khác biệt miễn là bạn áp dụng làm tròn ít hơn với các bước nhỏ so với giai đoạn tổng thể. Về cơ bản, đó chỉ là vấn đề có một số lỗi làm tròn hay không. Tốt nhất là không, nếu bạn có thể tránh nó.
Kelvin

Tôi đồng ý rằng rời rạc và liên tục không khác nhau nhiều. Trong thực tế, nhiều phép đo ít nhiều bị làm mờ bằng cách báo cáo chỉ trong các quý, nửa năm, tháng, ngày, v.v. hoặc bất cứ điều gì từ (N. S) đến (N, E, S, W) đến độ phân giải tốt hơn cho hướng la bàn. Cụ thể, có sự khác biệt giữa các phép đo điểm (nhiệt độ tại một thời điểm chính xác) và các phép đo khoảng thời gian (ví dụ: tổng doanh số hàng tháng). Tôi sẽ không gộp tất cả các chi tiết đó lại với nhau như lỗi làm tròn, vì đôi khi không có lỗi nào nhiều như tổng hợp hoặc tính trung bình.
Nick Cox

4

Đây là một tùy chọn không phân phối, vì dường như đó là những gì bạn đang tìm kiếm. Nó không đặc biệt đối với lĩnh vực thống kê thông tư, trong đó tôi khá thờ ơ, nhưng nó được áp dụng ở đây và trong nhiều cài đặt khác.

Hãy biến định hướng của bạn là .X

Đặt biến khác là , có thể nằm trong cho mọi (hoặc, thực sự, bất kỳ loại đối tượng nào có thể xác định hạt nhân hữu ích: đồ thị, chuỗi, hình ảnh, phân phối xác suất, mẫu từ phân phối xác suất, ...).R d d 1YRdd1

Xác định và giả sử bạn có quan sát .m z i = ( x i , y i )Z:=(X,Y)mzi=(xi,yi)

Bây giờ, tiến hành thử nghiệm bằng Tiêu chí Độc lập Hilbert Schmidt (HSIC), như trong bài viết sau:

Gretton, Fukumizu, Teo, Song, Schölkopf và Smola. Một thử nghiệm thống kê hạt nhân của độc lập. NIPS 2008 ( pdf )

Đó là:

  • Xác định một kernel cho . Ở đây chúng tôi muốn nói đến một hạt nhân theo nghĩa của một phương thức kernel , tức là một kernel của RKHS .XkX

    • Một lựa chọn là biểu diễn trên vòng tròn đơn vị trong (như trong chỉnh sửa của Kelvin) và sử dụng hạt nhân Gaussian . Ở đây xác định độ mịn của không gian của bạn; đặt nó vào khoảng cách trung bình giữa các điểm trong thường là đủ tốt.XR2k(x,x)=exp(12σ2xx2)σX
    • Một tùy chọn khác là biểu diễn dưới dạng một góc, giả sử trong và sử dụng hạt nhân von Mises . Ở đây là một paramater mịn. 1X[π,π]k(x,x)=exp(κcos(xx))κ
  • Xác định một hạt nhân cho , tương tự. Đối với trong , nhân Gaussian, ở trên, là một mặc định hợp lý.lYYRn

  • Đặt , và là ma trận sao cho , và là ma trận định tâm . Sau đó, thống kê kiểm tra có một số thuộc tính đẹp khi được sử dụng làm thử nghiệm độc lập. Phân phối null của nó có thể được xấp xỉ bằng cách khớp thời điểm với phân phối gamma (tính toán hiệu quả) hoặc bằng bootstrapping (chính xác hơn cho các cỡ mẫu nhỏ).HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

Mã Matlab để thực hiện điều này với hạt nhân RBF có sẵn từ tác giả đầu tiên ở đây .


Cách tiếp cận này là tốt bởi vì nó là chung và có xu hướng thực hiện tốt. Những nhược điểm chính là:

  • m2 độ phức tạp tính toán để tính toán thống kê kiểm tra; điều này có thể được giảm với xấp xỉ kernel nếu đó là một vấn đề.
  • Phân phối null phức tạp. Đối với -ish lớn , xấp xỉ gamma là tốt và không quá nặng nề; Đối với nhỏ , bootstrapping là cần thiết.mm
  • Lựa chọn hạt nhân. Như đã trình bày ở trên, các hạt và phải được chọn theo phương pháp heuristur. Bài viết này đưa ra một tiêu chí không tối ưu để chọn kernel; bài viết này trình bày một phương pháp tốt cho phiên bản thử nghiệm dữ liệu lớn mà không may mất khả năng thống kê. Một số công việc đang diễn ra ngay bây giờ cho một tiêu chí gần như tối ưu trong cài đặt này, nhưng tiếc là nó chưa sẵn sàng cho tiêu dùng công cộng.kl


1. Điều này thường được sử dụng làm hạt nhân làm mịn cho dữ liệu vòng tròn, nhưng tôi không tìm thấy nhanh trong bất kỳ ai sử dụng nó làm hạt nhân RKHS. Tuy nhiên, theo định lý của Bochner , nó là xác định dương , vì dạng bất biến dịch chuyển tỷ lệ với pdf của phân phối von Mise với giá trị trung bình 0, có hàm đặc trưng tỷ lệ thuận với phân bố đồng nhất trên hỗ trợ của nó .k(xx)[π,π]


3

Bạn có thể chạy một t- test giữa giá trị trung bình từ các "nửa" đối diện của khoảng thời gian, ví dụ bằng cách so sánh giá trị trung bình từ 12 giờ sáng đến 12 giờ đêm với giá trị trung bình từ 12 giờ tối đến 12 giờ sáng. Và sau đó so sánh giá trị trung bình từ 6 giờ tối đến 6 giờ sáng với giá trị trung bình từ 6 giờ sáng đến 6 giờ chiều.

Hoặc nếu bạn có đủ dữ liệu, bạn có thể phá vỡ kỳ vào (ví dụ, theo giờ) phân đoạn nhỏ hơn và thực hiện một t -test giữa mỗi cặp phân đoạn, trong khi sửa chữa cho nhiều sự so sánh.

Ngoài ra, để phân tích "liên tục" hơn (nghĩa là không có phân đoạn tùy ý), bạn có thể chạy hồi quy tuyến tính đối với các hàm sin và cos của biến định hướng (với khoảng thời gian chính xác), sẽ tự động "tuần hoàn hóa" dữ liệu của bạn:

x=sin(x2π/period)
x=cos(x2π/period)

Vấn đề chính với bất kỳ cách tiếp cận nào như vậy là sẽ khó đảm bảo rằng pha của mô hình của bạn được đặt để chọn ra mối tương quan tối đa, do đó bạn có thể cần phải thử một vài pha khác nhau, hoặc nếu không thì chọn pha theo mắt để hình thành giá trị giả thuyết của bạn :a

x=sin((x+a)2π/period)

Tuy nhiên, tốt nhất là bạn nên xây dựng giả thuyết của bạn (ví dụ, buổi chiều có nhiều hoạt động hơn buổi sáng) và sau đó thiết lập thích hợp trước khi bạn thậm chí xem xét dữ liệu.a

EDIT: Một suy nghĩ nữa là bạn có thể chạy hồi quy bội đối với cả hai hàm sin và cos của biến định hướng cùng một lúc (nghĩa là giữa biến thông thường của bạn cộng với và ) vì điều đó sẽ tính đến "hướng" thực sự, theo cách tương tự như các hàm sin và cos cùng nhau xác định tọa độ x và y của một vòng tròn hoàn chỉnh. Sau đó, bạn sẽ không cần phải bận tâm về vấn đề pha, vì nó sẽ được xử lý tự động. Tôi chưa bao giờ thấy điều này được thực hiện trước đây, nhưng tôi không hiểu tại sao nó không hoạt động.x x yxx

Trong mọi trường hợp, tôi nghĩ bạn phải đưa ra một số giả định về khoảng thời gian, và sau đó kiểm tra cho phù hợp.


Kelvin, "phá vỡ" dữ liệu vòng tròn như bạn mô tả dường như bỏ qua chính xác vấn đề tôi nêu ra về thứ tự mô-đun.
Alexis

Bạn đã đọc nửa sau câu trả lời của tôi, mô tả phân tích liên tục bằng nhiều hồi quy?
Kelvin

Bạn nói đúng về sin và cosin với nhau. Điều này được giải thích thêm trong câu trả lời của tôi và trong bài báo năm 2006, nó trích dẫn và trong các tài liệu tham khảo thêm mà trích dẫn.
Nick Cox

@Nick - Tôi chưa thấy câu trả lời của bạn khi bạn đăng sau lần chỉnh sửa cuối cùng của mình, nhưng thật tốt là chúng tôi đã đi đến cùng một câu trả lời một cách độc lập khi tôi chỉ sáng tạo (hầu như nghĩ lớn) và chưa bao giờ thực sự thấy điều này được thực hiện trước đó.
Kelvin
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.