Có thể có các giá trị hệ số tương quan pearson <-1 hoặc giá trị> 1 không?

Tôi đang cố gắng tính hệ số tương quan Pearson theo công thức này qua một tập dữ liệu lớn:

Hầu hết, các giá trị của tôi nằm trong khoảng -1 đến 1, nhưng đôi khi tôi nhận được các số lạ như:

1.0000000002
-3

Và như thế. Có thể có dữ liệu lạ sẽ dẫn đến điều này, hoặc điều này có nghĩa là tôi có lỗi trong tính toán?

Ví dụ: tôi nhận thấy rằng đôi khi tổng của X là 1 và do đó tổng của X ^ 2 sẽ là 1. Điều này dẫn đến một giá trị như 1.00000002. Lần khác, tôi sẽ có tổng của XY là 0, và sau đó tôi sẽ có kết quả tính toán là -3. Đây có phải là thống kê có thể, hoặc có một lỗi trong tính toán của tôi?

correlation pearson-r numerics

— đại dương800
nguồn

Bạn đang sử dụng ngôn ngữ hoặc môi trường nào?

— P.Windridge

Sẽ rất hữu ích khi biết một chút về kích thước của các số bạn đang xử lý, có bao nhiêu trong số chúng và mức độ chính xác của các phép tính trung gian của bạn, ví dụ như ... rõ ràng có vấn đề ổn định số ở đây có thể đáng để khám phá

\sum x y

$\sum xy$

— Cá bạc

Tôi thứ hai @Silverfish. Có lẽ bạn có thể đăng một ví dụ mà chúng ta có thể đánh giá. Nb1) bạn có thể truy cập bảng điều khiển JavaScript của Chrome bằng Ctrl + Shift + JNb2) Tất cả các số JS là 64 bit đôi w3schools.com/js/js_numbers.asp

— P.Windridge

Lưỡi trong câu trả lời má: Nó không phải là có thể có hoặc toán học (ví dụ: cho ), nhưng nó là có thể có được trong IEEE số học, nếu và / hoặc là hằng số (như bằng , mà thất bại tất cả các so sánh).

R > 1

$R>1$

R < - 1

$R<-1$

R \in R

$R\in\mathbb{R}$ NOT((R>=-1)&(R<=1))True

x

$x$

y

$y$ 0/0NaN

— GeoMatt22

"Đối với tập dữ liệu Y của tôi, các số là 0 <Y <1 và thường ở bất kỳ đâu từ e-5 đến e-350. Đối với tập dữ liệu X của tôi, các số này nằm trong khoảng từ 0 đến e7" Các fan hâm mộ thể thao, một loạt các đơn đặt hàng như vậy độ lớn của các con số không phải là một công thức để thành công, đặc biệt đối với các thuật toán không mạnh về mặt số, nhưng có lẽ không tuyệt vời lắm với chúng.

— Mark L. Stone

Câu trả lời:

Các công thức bạn đang sử dụng từ lâu đã được biết là không ổn định về số lượng. Nếu phương tiện bình phương lớn so với phương sai và / hoặc phương tiện sản phẩm lớn so với hiệp phương sai, thì sự khác biệt về tử số và trong các thuật ngữ được đặt trong ngoặc số có thể có vấn đề với việc hủy bỏ thảm khốc .

Điều này đôi khi có thể dẫn đến các phương sai hoặc hiệp phương sai được tính toán thậm chí không giữ được một chữ số chính xác (nghĩa là tệ hơn vô dụng).

Đừng sử dụng những công thức này. Chúng có ý nghĩa khi mọi người tính toán bằng tay , nơi bạn có thể nhìn thấy và xử lý sự mất độ chính xác như vậy khi nó xảy ra - ví dụ: việc sử dụng các công thức này thường được đi trước bằng cách loại bỏ các chữ số phổ biến, vì vậy các số như thế này:

 8901234.567...
 8901234.575...
 8901234.412...

đầu tiên sẽ có 8901234 bị trừ (ít nhất) - sẽ tiết kiệm rất nhiều thời gian trong công việc cũng như tránh vấn đề hủy bỏ. Phương tiện (và số lượng tương tự) sau đó sẽ được điều chỉnh trở lại vào cuối, trong khi phương sai và hiệp phương sai có thể được sử dụng như hiện trạng.

Những ý tưởng tương tự (và những ý tưởng khác) có thể được sử dụng với máy tính, nhưng thực sự bạn cần sử dụng chúng mọi lúc, thay vì cố gắng đoán khi nào bạn có thể cần chúng.

Các cách hiệu quả để giải quyết vấn đề này đã được biết đến trong hơn nửa thế kỷ - ví dụ, xem bài báo năm 1962 của Welford [1] (trong đó ông đưa ra các thuật toán phương sai và hiệp phương sai một lần - các thuật toán hai lần ổn định đã được biết rõ). Chan và cộng sự [2] (1983) so sánh một số thuật toán phương sai và đưa ra cách quyết định khi nào nên sử dụng (mặc dù trong hầu hết các triển khai thường mọi người chỉ sử dụng một thuật toán).

Xem thảo luận của Wikipedia về vấn đề này liên quan đến phương sai và thảo luận về các thuật toán phương sai .

Nhận xét tương tự áp dụng cho hiệp phương sai.

[1] BP Welford (1962),
"Lưu ý về phương pháp tính tổng bình phương và sản phẩm chính xác",
Technometrics Vol. 4, Vấn đề. 3, 419-420
( liên kết citeseer )

[2] TF Chan, GH Golub và RJ LeVeque (1983)
"Thuật toán tính toán phương sai mẫu: Phân tích và khuyến nghị",
Thống kê người Mỹ , Tập. 37, Số 3 (Aug.1983), trang 242-247
Phiên bản báo cáo công nghệ

— Glen_b -Reinstate Monica
nguồn

Tôi nghĩ đối với các vấn đề về số, thuật toán hai vượt qua đơn giản thường đủ đáng tin cậy: một vượt qua cho phương tiện, vượt qua thứ hai cho phương sai (co-). Ấn tượng của tôi là các biến thể fancier (ví dụ tổng bù) hiếm khi được yêu cầu về độ tin cậy nếu sử dụng độ chính xác kép. (Về hiệu quả, mặc dù phiên bản trực tuyến và / hoặc song song có thể hữu ích.) Đôi khi tôi chắc chắn cư xử rất tệ và sử dụng hình thức không ổn định! (đối với những thứ như bộ lọc trung bình di chuyển trên hình ảnh)

— GeoMatt22

(+1) @Tim cung cấp Rtriển khai thuật toán của Welford tại stats.stackexchange.com/a/235151/919 .

— whuber

Hệ số tương quan Pearson thực sự nằm trong khoảng đến (đã bao gồm). Điều này xuất phát từ sự bất bình đẳng Cauchy-Schwarz. $-1$ $+1$

Có được hệ số tương quan là có thể (nhưng không thể) do lỗi số, trong khi -3 gần như chắc chắn chỉ ra lỗi khi triển khai (hoặc một nền tảng không phù hợp với số! :). $1.0000000002$

— P.Windridge
nguồn

Bạn có thể cân nhắc việc mở rộng câu trả lời của mình không (ví dụ: hiển thị cách nó xuất phát từ ineq. Và nói vài từ về lỗi số) ..?

— Tim