Mối tương quan nào làm cho một ma trận số ít và ý nghĩa của điểm kỳ dị hoặc gần như kỳ dị là gì?


66

Tôi đang thực hiện một số tính toán trên các ma trận khác nhau (chủ yếu là hồi quy logistic) và tôi thường gặp lỗi "Ma trận là số ít", trong đó tôi phải quay lại và loại bỏ các biến tương quan. Câu hỏi của tôi ở đây là những gì bạn sẽ xem xét một ma trận tương quan "cao"? Có một giá trị ngưỡng tương quan để đại diện cho từ này? Giống như nếu một biến là 0,97 tương quan với một biến khác, thì đây có phải là "cao" đủ để tạo ra một ma trận số ít không?

Xin lỗi nếu câu hỏi rất cơ bản, tôi không thể tìm thấy bất kỳ tài liệu tham khảo nào nói về vấn đề này (một gợi ý cho bất kỳ tài liệu tham khảo nào sẽ là một điểm cộng lớn!).


2
Mẹo: tìm kiếm trang web của chúng tôi cho VIF và mối tương quan .
whuber

Chắc chắn sẽ có một cái nhìn. Chúc mừng.
Lỗi 404

2
@ttnphns đã cung cấp một lời giải thích nổi bật dưới đây (không có gì ngạc nhiên, đây dường như là chuyên môn của anh ấy). Đối với một ví dụ đơn giản về một tình huống mà bạn có thể có được một ma trận dữ liệu đơn lẻ, có thể giúp đọc câu trả lời của tôi ở đây: định tính-biến-mã-trong-hồi quy-dẫn-đến-số ít .
gung - Phục hồi Monica

Quả thực anh ấy đã làm !! Thực sự tiết kiệm cho tôi hàng giờ đọc với sự nhầm lẫn. Cảm ơn ví dụ của bạn @gung. Đó là những người rất hữu ích.
Lỗi 404

Câu trả lời:


100

Ma trận số ít là gì?

Một ma trận vuông là số ít, nghĩa là, định thức của nó bằng 0, nếu nó chứa các hàng hoặc cột có liên quan đến nhau theo tỷ lệ; nói cách khác, một hoặc nhiều hàng (cột) của nó có thể biểu thị chính xác dưới dạng kết hợp tuyến tính của tất cả hoặc một số hàng khác (cột), kết hợp không có thuật ngữ không đổi.

3×3Acol3=2.15col1Arow2=1.6row14row3A, ma trận cũng là số ít vì bất kỳ cột nào sau đó là sự kết hợp tuyến tính của các cột khác. Nói chung, nếu bất kỳ hàng (cột) nào của ma trận vuông là tổng trọng số của các hàng (cột) khác, thì bất kỳ hàng nào sau đó cũng là tổng của các hàng khác (cột).

Ma trận số ít hoặc gần đơn thường được gọi là ma trận "không điều hòa" vì nó mang đến các vấn đề trong nhiều phân tích dữ liệu thống kê.

Dữ liệu nào tạo ra ma trận tương quan số ít của các biến?

Dữ liệu đa biến nào phải trông giống như thứ tự ma trận tương quan hoặc hiệp phương sai của nó là ma trận số ít được mô tả ở trên? Đó là khi có sự phụ thuộc lẫn nhau tuyến tính giữa các biến. Nếu một số biến là một tổ hợp tuyến tính chính xác của các biến khác, với thuật ngữ không đổi được phép, thì các giá trị tương quan và hiệp phương sai của các biến sẽ là số ít. Sự phụ thuộc được quan sát trong ma trận như vậy giữa các cột của nó thực sự giống như sự phụ thuộc giữa các biến trong dữ liệu được quan sát sau khi các biến được đặt ở giữa (phương tiện của chúng được đưa về 0) hoặc được chuẩn hóa (nếu chúng ta có nghĩa là tương quan thay vì ma trận hiệp phương sai).

Một số tình huống cụ thể thường gặp khi ma trận tương quan / hiệp phương sai của các biến là số ít: (1) Số lượng biến bằng hoặc lớn hơn số trường hợp; (2) Hai hoặc nhiều biến tổng hợp thành một hằng số; (3) Hai biến giống hệt nhau hoặc chỉ khác nhau về giá trị trung bình (mức) hoặc phương sai (tỷ lệ).

Ngoài ra, việc sao chép các quan sát trong bộ dữ liệu sẽ dẫn ma trận tới điểm kỳ dị. Càng nhiều lần bạn nhân bản một trường hợp càng gần điểm kỳ dị. Vì vậy, khi thực hiện một số loại bỏ các giá trị bị thiếu, nó luôn có lợi (từ cả quan điểm thống kê và toán học) để thêm một số nhiễu vào dữ liệu được liệt kê.

Điểm kỳ dị như cộng tuyến hình học

Theo quan điểm hình học, điểm kỳ dị là (đa) collinearity (hay "companarity"): các biến được hiển thị dưới dạng vectơ (mũi tên) trong không gian nằm trong không gian độ mờ nhỏ hơn số lượng biến - trong một không gian giảm. (Thứ nguyên đó được gọi là thứ hạng của ma trận; nó bằng số lượng giá trị khác không của ma trận.)

Trong một cái nhìn hình học xa hơn hoặc "siêu việt", tính đơn nhất hoặc độ không bằng 0 (giả định của giá trị không eigenvalue) là điểm uốn giữa độ chính xác dương và độ không xác định của ma trận. Khi một số biến vectơ ( ma trận tương quan / hiệp phương sai) "vượt ra ngoài" nằm ngay cả trong không gian euclide bị giảm - để chúng không thể "hội tụ" trong không gian euclide nữa, thì không còn tồn tại nữa , tức là một số giá trị riêng của ma trận tương quan trở thành âm. (Xem về ma trận xác định không tích cực, hay còn gọi là không ngữ pháp ở đây .) Ma trận xác định không tích cực cũng là "điều hòa" đối với một số loại phân tích thống kê.

Collinearity trong hồi quy: một giải thích hình học và ý nghĩa

X1X2YYeYYb1b2

nhập mô tả hình ảnh ở đây

X1X2Yecủa hồi quy (một dự báo) đó, được vẽ trên hình. Có tồn tại các cách tiếp cận khác, bên cạnh việc bỏ các biến, để thoát khỏi sự cộng tác.

nhập mô tả hình ảnh ở đây

X1X2

nhập mô tả hình ảnh ở đây

X1X2X1X1X2có rất nhiều mối tương quan, chúng tôi mong đợi mặt phẳng X rất khác nhau trong các mẫu khác nhau từ cùng một quần thể. Vì mặt phẳng X là khác nhau, dự đoán, bình phương R, phần dư, hệ số - mọi thứ cũng trở nên khác biệt. Nó được nhìn thấy rõ trên hình ảnh, nơi máy bay X xoay ở đâu đó 40 độ. Trong tình huống như vậy, các ước tính (hệ số, bình phương R, v.v.) rất không đáng tin cậy mà thực tế được thể hiện bởi các lỗi tiêu chuẩn rất lớn của chúng. Và ngược lại, với các yếu tố dự đoán cách xa cộng tuyến, các ước tính là đáng tin cậy bởi vì không gian được dự đoán bởi các yếu tố dự đoán là mạnh mẽ đối với các biến động lấy mẫu của dữ liệu.

Collinearity là một hàm của toàn bộ ma trận

Ngay cả một mối tương quan cao giữa hai biến, nếu nó dưới 1, không nhất thiết phải tạo ra toàn bộ ma trận tương quan số ít; nó phụ thuộc vào mối tương quan còn lại là tốt. Ví dụ ma trận tương quan này:

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

có yếu tố quyết định .00950chưa đủ khác 0 để được coi là đủ điều kiện trong nhiều phân tích thống kê. Nhưng ma trận này:

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

có tính xác định .00010, một mức độ gần bằng 0.

Chẩn đoán Collinearity: đọc thêm

Các phân tích dữ liệu thống kê, chẳng hạn như hồi quy, kết hợp các chỉ số và công cụ đặc biệt để phát hiện cộng tuyến đủ mạnh để xem xét bỏ một số biến hoặc trường hợp khỏi phân tích hoặc thực hiện các phương tiện chữa bệnh khác. Vui lòng tìm kiếm (bao gồm trang web này) để biết "chẩn đoán cộng tuyến", "đa cộng đồng", "dung sai số ít / cộng tuyến", "chỉ số điều kiện", "tỷ lệ phân rã phương sai", "hệ số lạm phát phương sai (VIF)".


3
Cảm ơn lời giải thích chi tiết này. Đây là một phác thảo hoàn hảo cho bất cứ ai cố gắng để hiểu chủ đề này. Tôi sẽ đọc thêm về các tiêu đề bạn đề nghị. Điều này được đánh giá cao :)
Error404

3
Khám phá to lớn, tôi sẽ phải cảm ơn bạn một lần nữa cho những bổ sung bạn đã thực hiện. Thực sự rất nhiều thông tin.
Lỗi 404

4
Các giải thích hình học & các số liệu liên quan thực sự hữu ích để hiểu vấn đề này.
gung - Tái lập Monica

1
Tôi thấy đây là một bài viết khá cũ ... nhưng tôi rất muốn biết những gì bạn đã làm những đồ họa hình học đó với @ttnphns ... một mặt có vẻ như nó thậm chí có thể là MS Paint, nhưng chúng chỉ là thật tốt
Paul

@Paul đã nói gì !!!
abalter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.