Ngưỡng cho hệ số tương quan để chỉ ra ý nghĩa thống kê của một mối tương quan trong ma trận tương quan


10

Tôi đã tính toán một ma trận tương quan của một tập dữ liệu chứa 455 điểm dữ liệu, mỗi điểm dữ liệu chứa 14 đặc điểm. Vậy kích thước của ma trận tương quan là 14 x 14.

Tôi đã tự hỏi liệu có một ngưỡng cho giá trị của hệ số tương quan chỉ ra rằng có một mối tương quan đáng kể giữa hai trong số các đặc điểm đó.

Tôi có giá trị từ -0,2 đến 0,85 và tôi đã nghĩ rằng những thứ quan trọng là những giá trị trên 0,7.

  • Có một giá trị chung cho hệ số tương quan cần được xem xét cho ngưỡng hoặc chỉ là bối cảnh phụ thuộc vào loại dữ liệu mà tôi đang nghiên cứu?


@ user603 Bắt tốt: thực tế đó là cùng một câu hỏi. Sự đổi mới ở đây là hỏi xem các thử nghiệm cho mối tương quan đáng kể có thể phụ thuộc vào "loại dữ liệu" (đọc: phân phối dữ liệu). Chúng ta hãy hy vọng rằng các câu trả lời tập trung vào khía cạnh này thay vì đi trên mặt đất cũ.
whuber

Câu trả lời:


8

Các xét nghiệm quan trọng cho mối tương quan

Có các thử nghiệm có ý nghĩa thống kê có thể được áp dụng cho các mối tương quan riêng lẻ, cho thấy xác suất có được mối tương quan lớn hơn hoặc lớn hơn so với tương quan mẫu giả định giả thuyết null là đúng.

Điểm mấu chốt là những gì tạo thành một hệ số tương quan có ý nghĩa thống kê phụ thuộc vào:

  • Cỡ mẫu : cỡ mẫu lớn hơn sẽ dẫn đến ngưỡng nhỏ hơn
  • alpha : thường được đặt thành 0,05, bảng chữ cái nhỏ hơn sẽ dẫn đến ngưỡng cao hơn cho ý nghĩa thống kê
  • Thử nghiệm một đầu / hai đuôi : Tôi đoán rằng bạn sẽ sử dụng hai đuôi nên điều này có thể không quan trọng
  • loại hệ số tương quan : Tôi đoán bạn đang sử dụng Pearson's
  • giả định phân phối của x và y

Trong các trường hợp phổ biến, trong đó alpha là 0,05, sử dụng thử nghiệm hai đuôi, với mối tương quan của Pearson và trong đó tính quy phạm ít nhất là một xấp xỉ đầy đủ, yếu tố chính ảnh hưởng đến giới hạn là kích thước mẫu.

Ngưỡng tầm quan trọng

Một cách khác để giải thích câu hỏi của bạn là xem xét rằng bạn quan tâm không phải là liệu mối tương quan có ý nghĩa thống kê hay không, mà là nó có thực sự quan trọng hay không.

Một số nhà nghiên cứu đã đưa ra các quy tắc ngón tay cái để giải thích ý nghĩa của các hệ số tương quan, nhưng các quy tắc này là đặc trưng cho miền.

Kiểm tra nhiều ý nghĩa

Tuy nhiên, vì bạn quan tâm đến việc gắn cờ các mối tương quan quan trọng trong một ma trận, điều này thay đổi bối cảnh suy luận. Bạn có tương quan trong đó là số lượng biến (nghĩa là Nếu giả thuyết null là đúng với tất cả các tương quan trong ma trận, thì bạn sẽ chạy thử nghiệm có ý nghĩa hơn , thì càng có nhiều khả năng bạn gây ra lỗi Loại I. Ví dụ: trong trường hợp của bạn, trung bình bạn sẽ mắc lỗi Loại I nếu giả thuyết null là đúng cho tất cả các mối tương quan.k(k1)/2k14(13)/2=9191.05=4.55

Như @ user603 đã chỉ ra, những vấn đề này đã được thảo luận kỹ trong câu hỏi trước đó .

Nói chung, tôi thấy nó hữu ích khi diễn giải một ma trận tương quan để tập trung vào cấu trúc cấp cao hơn. Điều này có thể được thực hiện một cách không chính thức bằng cách xem xét các mẫu chung trong ma trận tương quan. Điều này có thể được thực hiện chính thức hơn bằng cách sử dụng các kỹ thuật như PCA và phân tích nhân tố. Cách tiếp cận như vậy tránh được nhiều vấn đề liên quan đến thử nghiệm đa ý nghĩa.


1

Một lựa chọn sẽ là mô phỏng hoặc thử nghiệm hoán vị. Nếu bạn biết phân phối mà dữ liệu của bạn đến từ bạn có thể mô phỏng từ phân phối đó, nhưng với tất cả các quan sát độc lập. Nếu bạn không biết phân phối thì bạn có thể hoán vị từng biến của mình một cách độc lập với nhau và điều đó sẽ cho bạn phân phối biên chung của từng biến, nhưng với bất kỳ mối tương quan nào bị loại bỏ.

Thực hiện một trong các cách trên (giữ kích thước mẫu và kích thước ma trận giống nhau) cả đống lần (10.000 hoặc hơn) và xem xét mối tương quan tuyệt đối tối đa, hoặc một lượng tử cao khác có thể được quan tâm. Điều này sẽ cung cấp cho bạn phân phối từ giả thuyết null mà sau đó bạn có thể so sánh mức tối đa của các mối tương quan quan sát thực tế của bạn với (và các lượng tử quan tâm cao khác).


0

Bạn có thể chỉ ra rằng lỗi tiêu chuẩn trong tương quan Pearson của hai vectơ độc lập ngẫu nhiên được lấy mẫu từ phân phối chuẩn là , trong đó là chiều dài của vectơ. Vì vậy, mối tương quan có ý nghĩa thống kê của hai vectơ sẽ có chính xácn2ncorr>>n2

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.