Hệ số tương quan cho biến danh nghĩa không phân đôi và biến số hoặc biến số


12

Tôi đã đọc tất cả các trang trong trang web này để cố gắng tìm câu trả lời cho vấn đề của mình nhưng dường như không ai là người phù hợp với tôi ...

Đầu tiên tôi giải thích cho bạn loại dữ liệu tôi đang làm việc với ...

Giả sử tôi có một vectơ mảng với một vài tên thành phố, một tên cho mỗi 300 người dùng. Tôi cũng có một vectơ mảng khác với điểm số đáp ứng với khảo sát của từng người dùng hoặc giá trị liên tục cho mỗi người dùng.

Tôi muốn biết nếu tồn tại một hệ số tương quan tính toán mối tương quan giữa hai biến này, vì vậy, biến danh nghĩa và số / biến số

Tôi đã tìm kiếm trên Internet và trong một số trang họ đề nghị sử dụng hệ số dự phòng hoặc hệ số V hoặc Lambda của Cramer hoặc Eta. Đối với mỗi biện pháp này, chỉ cần nói rằng chúng có thể được áp dụng cho dữ liệu đó trong đó chúng ta có một biến danh nghĩa và khoảng hoặc biến số. Vấn đề là tìm kiếm và tìm kiếm, cố gắng hiểu từng người trong số họ, đôi khi được viết hoặc xem các ví dụ mà họ sử dụng hợp lý nếu bạn có biến danh nghĩa nhị phân, ngoại trừ Cramer V, thời gian khác không được viết bất kỳ yêu cầu nào cho loại dữ liệu. Thay vào đó, rất nhiều trang khác nói rằng đúng là áp dụng hồi quy, điều đó đúng, nhưng tôi chỉ muốn biết liệu có một hệ số như pearson / spearman cho loại dữ liệu này hay không.

Tôi cũng nghĩ rằng việc sử dụng Spearman Correlation coeff là không đúng vì các thành phố không thể sắp xếp được.

Tôi cũng đã tự mình xây dựng chức năng của Cramer'sV và Eta (tôi đang làm việc với Matlab) nhưng đối với Eta họ không nói về bất kỳ giá trị p nào để xem liệu hệ số này có ý nghĩa thống kê ...

Trong trang web matlabWorks cũng có một hộp công cụ tuyệt vời để tính toán eta ^ 2 nhưng loại đầu vào mà nó cần là không thể hiểu được.

Có ai ở đây đã làm một bài kiểm tra như của tôi không? Nếu bạn cần biết thêm chi tiết để hiểu loại dữ liệu tôi đang sử dụng, hãy hỏi tôi và tôi sẽ cố gắng giải thích rõ hơn về bạn.


1
Cramérs V dành cho hai đề cử. Điều gì là xấu về hồi quy? Lấy biến số làm phản hồi và hồi quy nó thành danh nghĩa (sử dụng các hình nộm). Nhìn vào và bài kiểm tra F toàn cầu liên quan. R2
Michael M

Không có gì sai với hồi quy, nhưng vì chúng tôi đã có biện pháp đó, chúng tôi muốn kiểm tra nó theo một cách khác giống như kiểm tra hai lần với hệ số tương quan .... cảm ơn vì câu trả lời
cristis

Bạn chưa nói gì cụ thể về biến "số / thứ tự" của mình. Điều gì làm cho bạn đặt ra nó thông thường? số?
ttnphns

Beacuse thứ tự Tôi có một biến đến từ một thử nghiệm khảo sát nên phạm vi của nó là -4,4, bạn cũng có thể nghĩ đó là khoảng nhưng loại biến khảo sát này được coi chủ yếu là thứ tự và các biến khác là số, liên tục cụ thể như chúng tính năng trích xuất.
cristis

1
SEE liên quan CŨNG câu hỏi stats.stackexchange.com/questions/23938/...
ttnphns

Câu trả lời:


17

Danh nghĩa so với thời gian

Cổ điển "tương quan" biện pháp nhất giữa danh nghĩa và một khoảng thời gian ( "số") biến là Eta , hay còn gọi là tỷ lệ tương quan, và bằng vào thư mục gốc R-bình phương của một chiều ANOVA (với p-value = đó của ANOVA). Eta có thể được xem như là một phép đo liên kết đối xứng, giống như tương quan, bởi vì Eta của ANOVA (với danh nghĩa là độc lập, số là phụ thuộc) bằng dấu vết của hồi quy đa biến (với số là biến độc lập, số là các biến giả tương ứng với danh nghĩa là phụ thuộc).

Một biện pháp tinh tế hơn là hệ số tương quan nội bộ ( ICC ). Trong khi Eta chỉ nắm bắt được sự khác biệt giữa các nhóm (được xác định bởi biến danh nghĩa) đối với biến số, ICC đồng thời cũng đo lường sự phối hợp hoặc đồng ý giữa các giá trị số trong các nhóm; nói cách khác, ICC (đặc biệt là phiên bản ICC "ghép đôi" không thiên vị) vẫn ở mức giá trị trong khi Eta hoạt động ở cấp độ thống kê (nghĩa là nhóm so với phương sai nhóm).

Danh nghĩa so với thông thường

Các câu hỏi về "tương quan" đo giữa một danh nghĩa và một thứ biến là ít rõ ràng. Lý do của khó khăn là do quy mô thứ tự, về bản chất, là "huyền bí" hoặc "xoắn" hơn so với quy mô khoảng hoặc danh nghĩa. Không có gì ngạc nhiên khi các phân tích thống kê đặc biệt cho dữ liệu thứ tự được xây dựng tương đối kém cho đến nay.

Một cách có thể là chuyển đổi dữ liệu thứ tự của bạn thành các cấp bậc và sau đó tính toán Eta như thể các cấp bậc là dữ liệu khoảng. Giá trị p của Eta như vậy = phân tích Kruskal-Wallis. Cách tiếp cận này có vẻ được bảo đảm do lý do tương tự như lý do tại sao Spearman rho được sử dụng để tương quan hai biến số thứ tự. Logic đó là "khi bạn không biết độ rộng khoảng trên thang đo, hãy cắt nút Gordian bằng cách tuyến tính hóa mọi tính đơn điệu có thể có: đi xếp hạng dữ liệu".

Một cách tiếp cận khác (có thể nghiêm ngặt và linh hoạt hơn) sẽ là sử dụng hồi quy logistic thứ tự với biến thứ tự là DV và biến danh nghĩa là IV. Căn bậc hai của hình vuông R giả Nagelkerke (với giá trị p của hồi quy) là một thước đo tương quan khác cho bạn. Lưu ý rằng bạn có thể thử nghiệm với các hàm liên kết khác nhau trong hồi quy thứ tự. Hiệp hội này, tuy nhiên, không đối xứng: danh nghĩa được giả định độc lập.

Tuy nhiên, một cách tiếp cận khác có thể là tìm một sự chuyển đổi đơn điệu của dữ liệu thứ tự thành khoảng - thay vì xếp hạng của đoạn áp chót - điều đó sẽ tối đa hóa R (tức là Eta ) cho bạn. Đây là hồi quy phân loại (= hồi quy tuyến tính với tỷ lệ tối ưu).

Một cách tiếp cận khác là thực hiện cây phân loại , chẳng hạn như CHAID, với biến thứ tự là yếu tố dự đoán. Quy trình này sẽ kết hợp với nhau (do đó là cách tiếp cận ngược lại với quy trình trước) các danh mục được sắp xếp liền kề không phân biệt giữa các danh mục của dự báo danh nghĩa. Sau đó, bạn có thể dựa vào các biện pháp kết hợp dựa trên Chi-vuông (chẳng hạn như Vramer V) như thể bạn tương quan giữa các biến danh nghĩa và biến danh nghĩa.

Và @Michael trong bình luận của ông gợi ý thêm một cách - một hệ số đặc biệt gọi là Freeman's Theta .

Vì vậy, chúng tôi đã đạt được những cơ hội sau: (1) Xếp hạng, sau đó tính toán Eta; (2) Sử dụng hồi quy thứ tự; (3) Sử dụng hồi quy phân loại ("tối ưu hóa" biến đổi thứ tự thành khoảng); (4) Sử dụng cây phân loại ("tối ưu" giảm số lượng danh mục được đặt hàng); (5) Sử dụng Freeta's Theta.


3
Tái bút
ttnphns

2
Một biện pháp liên kết giữa một thứ tự và một danh nghĩa được gọi là "Freeman's ". Thật không may, tôi không có bất kỳ tài liệu tham khảo truy cập mở nào trong tay. θ
Michael M

2
@Michael cảm ơn, ở đây tôi đã tìm thấy một bài báo "Một ghi chú thêm về biện pháp liên kết của Freeman
ttnphns

1
Để biết thêm thông tin về theta của Freeman và gói R bao gồm số liệu thống kê, hãy xem câu hỏi Xác thực chéo này .
Sal Mangiafico

@ttnphns Xin lỗi, bạn có thể vui lòng trả lời câu hỏi này không: stats.stackexchange.com/questions/363543/. Cảm ơn rất nhiều.
ebrahimi

0

Thực hiện một anova một chiều trên phản hồi, với thành phố là biến nhóm. Các và nó mang lại cho nên giống như và từ hồi quy của các phản ứng trên các thành phố giả mã cố định và phải bằng các nhiều từ hồi quy. Nhiều là mối tương quan của thành phố với phản ứng.p F p S S b đ t w e e nFpFp R 2 RSSbetweencities/SStotalR2R

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.