Phương pháp đo cường độ của mối quan hệ phi tuyến tính tùy ý giữa hai biến?


8

Có những phương pháp nào để đo lường sức mạnh của các mối quan hệ tùy ý, phi tuyến tính cao giữa hai biến được ghép nối? Theo phi tuyến tính cao, ý tôi là các mối quan hệ không thể được mô hình hóa một cách hợp lý hoặc đáng tin cậy bằng hồi quy cho một mô hình đã biết. Tôi đặc biệt quan tâm đến chuỗi thời gian, nhưng tôi tưởng tượng bất kỳ điều gì hoạt động cho dữ liệu hai biến sẽ hoạt động ở đây (nếu chúng ta coi hai chuỗi thời gian là một tập hợp các điểm dữ liệu cặp)

Hai cái mà tôi biết là Sự khác biệt bình phương trung bình (nghĩa là lỗi bình phương trung bình , coi một chuỗi thời gian là giá trị "mong đợi" và một là giá trị quan sát được), như và Hiệp phương sai . Những gì người khác đang có?

Làm rõ: Về cơ bản, tôi đang hỏi về sự phụ thuộc giữa các chuỗi, trong đó tương quan tuyến tính hoặc tương quan phi tuyến tính đơn giản (sau log, exp, trig, các phép biến đổi phân tích đơn giản khác) không thực sự có ý nghĩa nhiều.


Nếu bạn tập trung vào dự báo, bạn nên nhận thức được sự khác biệt giữa khả năng phù hợp với mô hình tốt và khả năng dự đoán xuất phát từ ngay cả một mô hình tuyến tính đa biến đơn giản. Tôi đã đăng một câu hỏi về một chủ đề liên quan ở đây: stats.stackexchange.com/questions/25381/ .
Robert Kubrick

Mô hình phi tuyến tính là một khu vực rộng lớn. Tôi nghi ngờ bạn cũng có thể quan tâm đến nhận dạng mẫu là anh em họ gần gũi của mô hình phi tuyến tính khi áp dụng vào dự báo. Bạn có thể làm cho câu hỏi cụ thể hơn, có thể với một ví dụ về vấn đề của bạn?
Robert Kubrick

1
Rõ ràng không có câu trả lời đơn giản :) amazon.com/Nonlinear-Series-Analysis-Holger-Kantz/dp/0521529026
Robert Kubrick

1
Không hoàn toàn rõ ràng là những gì bạn đang cố gắng đo lường, nhưng tôi sẽ cố gắng cung cấp cho bạn thông tin có thể giúp ích. Có các biện pháp tương quan như Cronback's Alpha có thể được sử dụng để đánh giá tính nhất quán / mối quan hệ nội bộ giữa một tập hợp các biến. Bạn cũng có thể sử dụng những thứ như mô hình phụ gia chung (GAM) để kiểm tra xem ước tính chức năng có phải là hằng số hay không. Điều này có nghĩa là không có mối quan hệ giữa các biến của bạn. Xem câu trả lời tại đây để thảo luận về vấn đề này: stats.stackexchange.com/questions353893/iêu
StatsStudent

1
@StatsStudent cảm ơn vì liên kết, nó thực sự hữu ích. Tôi nghĩ rằng đó là câu trả lời tốt nhất cho đến nay, nếu bạn chuyển nó thành câu trả lời và không có câu trả lời nào tốt hơn xuất hiện cho đến thời hạn cuối cùng, tôi sẽ trao cho bạn điểm.
Allen Wang

Câu trả lời:


2

Hồi quy tuyến tính cũ đơn giản có một diễn giải phi tham số tốt đẹp là xu hướng tuyến tính trung bình trên tất cả các cặp quan sát; xem Berman 1988, "Một định lý của Jacobi và khái quát hóa của nó". Vì vậy, dữ liệu không phải nhìn tuyến tính để sử dụng nó; bất kỳ xu hướng đơn điệu (rộng rãi) nào cũng có thể được tóm tắt theo cách này.

Bạn cũng có thể sử dụng mối tương quan xếp hạng Spearman ... và có lẽ nhiều thứ khác bên cạnh.


Cảm ơn, nhưng tôi biết điều đó, và đó không phải là điều tôi yêu cầu (vì một đường thẳng ít nhiều là mô hình đơn giản nhất có thể, điều đó ngụ ý trong câu hỏi của tôi). Tôi đã làm rõ câu hỏi.
ness101

2

"Lượng quan hệ" giữa hai biến rời rạc , được đo chính thức bằng thông tin lẫn nhau : . Trong khi hiệp phương sai / tương quan bằng cách nào đó là lượng quan hệ tuyến tính, thông tin lẫn nhau bằng cách nào đó là lượng (bất kỳ loại) mối quan hệ nào. Tôi đang dán trang Wikipedia mẫu hình ảnh:XYTôi(X,Y)

nhập mô tả hình ảnh ở đây

Đối với các biến liên tục, các khái niệm lý thuyết thông tin thường được định nghĩa là tốt nhưng ít quản lý hơn, có thể ít ý nghĩa hơn. Tôi không muốn làm phiền vào lúc này. Chúng ta hãy gắn bó với các biến rời rạc. Dù sao, nó có ý nghĩa xấp xỉ các biến liên tục bằng các biến rời rạc (sử dụng các lát) đặc biệt là trong các phương pháp lý thuyết thông tin.

Vấn đề với các khái niệm lý thuyết thông tin thường là tính không khả thi của chúng. Có thể ước tính thông tin lẫn nhau giữa và giống như có thể tìm thấy mối quan hệ phi tuyến tính tùy ý giữa chúng: bạn cần một sức mạnh thống kê (số lượng dữ liệu) thường vượt xa mức hợp lý: đối với bất kỳ giá trị nào có thể cho , bạn cần nhiều mẫu (giả sử 1000) để tính toán ước tính của từng . Điều này là không thể trong hầu hết các vấn đề học máy hoặc phân tích thống kê. Đó là loại logic: nếu bạn cho phép một mô hình có thể diễn đạt "bất kỳ khả năng nào", thì nó chỉ có thể được đào tạo bởi một lượng dữ liệu bao gồm bất kỳ khả năng nào nhiều lần.XYxP(Y= =y|X= =x)

Nhưng có lẽ cách tiếp cận như vậy là có thể, đối với các biến có chiều thấp, nếu bạn thực thi độ chính xác thấp: phân tách các miền của và thành một số lát đủ nhỏ để dữ liệu của bạn ổn. Dù sao tôi nghĩ rằng điều này đòi hỏi một số nghiên cứu.XY


1

Cuối cùng, hình thức chung nhất của chức năng tiêm chích là

f(x)= =y

và bạn có thể sử dụng phiên bản rời rạc của chức năng đó làm mô hình cho dữ liệu của mình.

ymột<x<b

Phương pháp này không mạnh vì số lượng tự do cao trong mô hình. Mặc dù, đó cũng là vấn đề cố hữu đối với mức độ tự do (và tính tổng quát) cao trong loại hàm có thể mô tả mô hình cho dữ liệu.

Đối với trường hợp cụ thể hơn, cải tiến có thể được thực hiện.


Mô hình đề xuất của tôi là rất chung chung. Bạn cũng có thể sử dụng splines, piecewise các hàm tuyến tính hoặc bất kỳ loại chức năng phù hợp chung nào.
Sextus Empiricus

1

Cần phải là một phương pháp nhanh chóng để tính toán, tương tự như tương quan, nhưng có thể phát hiện các mối quan hệ bậc hai chẳng hạn.

Mối tương quan Spearman, được đề cập trong một câu trả lời khác, phù hợp với dự luật. Nó được tính bằng cách đơn giản là chuyển đổi dữ liệu thành các cấp bậc và sau đó tìm mối tương quan Pearson cho các cấp bậc. Nó có thể phát hiện bất kỳ hiệp hội đơn điệu.

Ôi(nđăng nhậpn)Ôi(n)), nhưng nó không đòi hỏi sự phán đoán của con người để tính toán và nó đã được triển khai trong rất nhiều phần mềm thống kê, và với một cỗ máy hiện đại, độ phức tạp không có triệu chứng khó có thể xảy ra trừ các bộ dữ liệu lớn nhất.


nđăng nhập(n)

@ GeoMatt22 À, có vẻ như câu trả lời cs.stackexchange tôi đã liên kết để không tính đến bước xếp hạng. Vì vậy, tương quan Spearman có lẽ không nhanh hơn tương quan Kendall.
Chuyên gia Kodi

1

Không hoàn toàn rõ ràng là những gì bạn đang cố gắng đo lường, nhưng tôi sẽ cố gắng cung cấp cho bạn thông tin có thể giúp ích. Có các biện pháp tương quan như Cronback's Alpha có thể được sử dụng để đánh giá tính nhất quán / mối quan hệ nội bộ giữa một tập hợp các biến. Bạn cũng có thể sử dụng những thứ như mô hình phụ gia chung (GAM) để kiểm tra xem ước tính chức năng có phải là hằng số hay không. Điều này có nghĩa là không có mối quan hệ giữa các biến của bạn. Xem câu trả lời ở đây để thảo luận về vấn đề này: Làm thế nào để tôi kiểm tra một hiệp hội phi tuyến?


1

Bạn có thể thử hệ số thông tin tối đa . Nó vượt trội hơn các phương pháp được chọn trong bài báo và hoạt động tốt trong việc phát hiện mối quan hệ phi tuyến giữa hai biến ngẫu nhiên.


0

Tôi không thể bình luận do đó tôi phải đăng câu trả lời. Hãy xem Dynamic Time Warping, thuật toán đơn giản có thể phát hiện / so sánh các mẫu giữa hai chuỗi thời gian, có thể có độ chi tiết khác nhau. https://en.wikipedia.org/wiki/Docate_time_warping


Tôi không chỉ tìm chính xác cho chuỗi thời gian, nó có thể nằm giữa hai bộ biến.
Allen Wang

2
Tôi hiểu rồi, vì vậy DTW không chính xác là những gì bạn cần. Không thể áp dụng một số cách tiếp cận thông tin lẫn nhau?
reicja
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.