Ma trận số ít là gì?
Một ma trận vuông là số ít, nghĩa là, định thức của nó bằng 0, nếu nó chứa các hàng hoặc cột có liên quan đến nhau theo tỷ lệ; nói cách khác, một hoặc nhiều hàng (cột) của nó có thể biểu thị chính xác dưới dạng kết hợp tuyến tính của tất cả hoặc một số hàng khác (cột), kết hợp không có thuật ngữ không đổi.
3×3Acol3=2.15⋅col1Arow2=1.6⋅row1−4⋅row3A, ma trận cũng là số ít vì bất kỳ cột nào sau đó là sự kết hợp tuyến tính của các cột khác. Nói chung, nếu bất kỳ hàng (cột) nào của ma trận vuông là tổng trọng số của các hàng (cột) khác, thì bất kỳ hàng nào sau đó cũng là tổng của các hàng khác (cột).
Ma trận số ít hoặc gần đơn thường được gọi là ma trận "không điều hòa" vì nó mang đến các vấn đề trong nhiều phân tích dữ liệu thống kê.
Dữ liệu nào tạo ra ma trận tương quan số ít của các biến?
Dữ liệu đa biến nào phải trông giống như thứ tự ma trận tương quan hoặc hiệp phương sai của nó là ma trận số ít được mô tả ở trên? Đó là khi có sự phụ thuộc lẫn nhau tuyến tính giữa các biến. Nếu một số biến là một tổ hợp tuyến tính chính xác của các biến khác, với thuật ngữ không đổi được phép, thì các giá trị tương quan và hiệp phương sai của các biến sẽ là số ít. Sự phụ thuộc được quan sát trong ma trận như vậy giữa các cột của nó thực sự giống như sự phụ thuộc giữa các biến trong dữ liệu được quan sát sau khi các biến được đặt ở giữa (phương tiện của chúng được đưa về 0) hoặc được chuẩn hóa (nếu chúng ta có nghĩa là tương quan thay vì ma trận hiệp phương sai).
Một số tình huống cụ thể thường gặp khi ma trận tương quan / hiệp phương sai của các biến là số ít: (1) Số lượng biến bằng hoặc lớn hơn số trường hợp; (2) Hai hoặc nhiều biến tổng hợp thành một hằng số; (3) Hai biến giống hệt nhau hoặc chỉ khác nhau về giá trị trung bình (mức) hoặc phương sai (tỷ lệ).
Ngoài ra, việc sao chép các quan sát trong bộ dữ liệu sẽ dẫn ma trận tới điểm kỳ dị. Càng nhiều lần bạn nhân bản một trường hợp càng gần điểm kỳ dị. Vì vậy, khi thực hiện một số loại bỏ các giá trị bị thiếu, nó luôn có lợi (từ cả quan điểm thống kê và toán học) để thêm một số nhiễu vào dữ liệu được liệt kê.
Điểm kỳ dị như cộng tuyến hình học
Theo quan điểm hình học, điểm kỳ dị là (đa) collinearity (hay "companarity"): các biến được hiển thị dưới dạng vectơ (mũi tên) trong không gian nằm trong không gian độ mờ nhỏ hơn số lượng biến - trong một không gian giảm. (Thứ nguyên đó được gọi là thứ hạng của ma trận; nó bằng số lượng giá trị khác không của ma trận.)
Trong một cái nhìn hình học xa hơn hoặc "siêu việt", tính đơn nhất hoặc độ không bằng 0 (giả định của giá trị không eigenvalue) là điểm uốn giữa độ chính xác dương và độ không xác định của ma trận. Khi một số biến vectơ ( là ma trận tương quan / hiệp phương sai) "vượt ra ngoài" nằm ngay cả trong không gian euclide bị giảm - để chúng không thể "hội tụ" trong không gian euclide nữa, thì không còn tồn tại nữa , tức là một số giá trị riêng của ma trận tương quan trở thành âm. (Xem về ma trận xác định không tích cực, hay còn gọi là không ngữ pháp ở đây .) Ma trận xác định không tích cực cũng là "điều hòa" đối với một số loại phân tích thống kê.
Collinearity trong hồi quy: một giải thích hình học và ý nghĩa
X1X2YY′eYY′b1b2
X1X2Y′ecủa hồi quy (một dự báo) đó, được vẽ trên hình. Có tồn tại các cách tiếp cận khác, bên cạnh việc bỏ các biến, để thoát khỏi sự cộng tác.
X1X2
X1X2X1X1X2có rất nhiều mối tương quan, chúng tôi mong đợi mặt phẳng X rất khác nhau trong các mẫu khác nhau từ cùng một quần thể. Vì mặt phẳng X là khác nhau, dự đoán, bình phương R, phần dư, hệ số - mọi thứ cũng trở nên khác biệt. Nó được nhìn thấy rõ trên hình ảnh, nơi máy bay X xoay ở đâu đó 40 độ. Trong tình huống như vậy, các ước tính (hệ số, bình phương R, v.v.) rất không đáng tin cậy mà thực tế được thể hiện bởi các lỗi tiêu chuẩn rất lớn của chúng. Và ngược lại, với các yếu tố dự đoán cách xa cộng tuyến, các ước tính là đáng tin cậy bởi vì không gian được dự đoán bởi các yếu tố dự đoán là mạnh mẽ đối với các biến động lấy mẫu của dữ liệu.
Collinearity là một hàm của toàn bộ ma trận
Ngay cả một mối tương quan cao giữa hai biến, nếu nó dưới 1, không nhất thiết phải tạo ra toàn bộ ma trận tương quan số ít; nó phụ thuộc vào mối tương quan còn lại là tốt. Ví dụ ma trận tương quan này:
1.000 .990 .200
.990 1.000 .100
.200 .100 1.000
có yếu tố quyết định .00950
chưa đủ khác 0 để được coi là đủ điều kiện trong nhiều phân tích thống kê. Nhưng ma trận này:
1.000 .990 .239
.990 1.000 .100
.239 .100 1.000
có tính xác định .00010
, một mức độ gần bằng 0.
Chẩn đoán Collinearity: đọc thêm
Các phân tích dữ liệu thống kê, chẳng hạn như hồi quy, kết hợp các chỉ số và công cụ đặc biệt để phát hiện cộng tuyến đủ mạnh để xem xét bỏ một số biến hoặc trường hợp khỏi phân tích hoặc thực hiện các phương tiện chữa bệnh khác. Vui lòng tìm kiếm (bao gồm trang web này) để biết "chẩn đoán cộng tuyến", "đa cộng đồng", "dung sai số ít / cộng tuyến", "chỉ số điều kiện", "tỷ lệ phân rã phương sai", "hệ số lạm phát phương sai (VIF)".