Các yếu tố quyết định của ma trận hiệp phương sai và tương quan và / hoặc nghịch đảo của chúng có giải thích hữu ích không?


9

Trong khi học cách tính ma trận hiệp phương sai và ma trận tương quan và nghịch đảo của chúng trong VB và T-SQL vài năm trước, tôi đã học được rằng các mục khác nhau có các thuộc tính thú vị có thể giúp chúng hữu ích trong các tình huống khai thác dữ liệu phù hợp. Một ví dụ rõ ràng là sự hiện diện của phương sai trên các đường chéo của ma trận hiệp phương sai; Một số ví dụ ít rõ ràng hơn mà tôi chưa sử dụng, nhưng đôi khi có thể có ích, là các yếu tố lạm phát phương sai trong ma trận tương quan nghịch đảo và tương quan một phần trong ma trận hiệp phương sai.

Tuy nhiên, một điều tôi chưa thấy được đề cập trực tiếp trong tài liệu là làm thế nào để giải thích các yếu tố quyết định của các ma trận này. Do các yếu tố quyết định thường được tính cho các loại ma trận khác, tôi dự kiến ​​sẽ tìm thấy rất nhiều thông tin về chúng, nhưng tôi đã tìm thấy rất ít trong các tìm kiếm thông thường của cả diễn đàn StackExchange và phần còn lại của Internet. Hầu hết các đề cập tôi đã gặp đều xoay quanh việc sử dụng các yếu tố quyết định như một bước duy nhất trong quá trình tính toán các kiểm tra và thuật toán thống kê khác, chẳng hạn như Phân tích thành phần nguyên tắc (PCA) và một trong các thử nghiệm của Hotelling; không ai trực tiếp giải quyết làm thế nào để tự mình giải thích các yếu tố quyết định này. Có một lý do thực tế tại sao chúng không được thảo luận thường xuyên trong tài liệu về khai thác dữ liệu? Quan trọng hơn, họ có cung cấp bất kỳ thông tin hữu ích nào theo cách độc lập không và nếu có, làm thế nào tôi có thể diễn giải các yếu tố quyết định của từng loại? Tôi nhận ra rằng các yếu tố quyết định là một loại khối lượng đã ký được tạo ra bởi một phép biến đổi tuyến tính, vì vậy tôi nghi ngờ rằng các yếu tố quyết định của các yếu tố xác định cụ thể này có thể biểu thị một số loại phép đo hiệp phương sai hoặc tương quan, v.v. trên toàn bộ tập hợp, hoặc một cái gì đó cho hiệu ứng đó ( trái ngược với hiệp phương sai và tương quan thông thường, nằm giữa hai thuộc tính hoặc biến). Điều đó cũng đặt ra câu hỏi về loại khối lượng mà nghịch đảo của chúng sẽ đại diện. Tôi không đủ quen thuộc với chủ đề hoặc toán học ma trận nặng có liên quan để suy đoán thêm, nhưng tôi có khả năng mã hóa cả bốn loại ma trận và các yếu tố quyết định của chúng. Câu hỏi của tôi không bức xúc, nhưng về lâu dài tôi sẽ phải đưa ra quyết định về việc có thường xuyên đưa các ma trận này và các yếu tố quyết định của chúng vào các quy trình khai thác dữ liệu khám phá của tôi hay không. Nó rẻ hơn khi chỉ tính toán hiệp phương sai và tương quan theo cách một đối một, chia đôi trong các ngôn ngữ cụ thể này, nhưng tôi sẽ đi xa hơn và thực hiện các phép tính xác định nếu tôi có thể rút ra một số hiểu biết sâu sắc hơn để chứng minh chi phí về tài nguyên lập trình. Cảm ơn trước. sẽ đi xa hơn và thực hiện các tính toán xác định nếu tôi có thể rút ra một số hiểu biết sâu sắc hơn để chứng minh chi phí về tài nguyên lập trình. Cảm ơn trước. sẽ đi xa hơn và thực hiện các tính toán xác định nếu tôi có thể rút ra một số hiểu biết sâu sắc hơn để chứng minh chi phí về tài nguyên lập trình. Cảm ơn trước.


Bạn hiểu gì về hiệp phương sai hoặc tương quan thông thường?
Subhash C. Davar

Câu trả lời:


10

Tôi đã có thể kết hợp một số nguyên tắc chung, sử dụng các trường hợp và tính chất của các ma trận này từ một tập hợp các nguồn khó hiểu; một vài trong số họ đề cập trực tiếp đến các chủ đề này, với hầu hết chỉ được đề cập trong việc thông qua. Vì các yếu tố quyết định đại diện cho khối lượng đã ký, tôi dự kiến ​​những người liên quan đến bốn loại ma trận này sẽ chuyển thành các biện pháp liên kết đa chiều của một số loại; điều này hóa ra đúng ở một mức độ nào đó, nhưng một vài trong số chúng thể hiện các tính chất thú vị:

Ma trận hiệp phương sai:

• Trong trường hợp phân phối Gaussian, định thức gián tiếp đo entropy vi phân, có thể được hiểu là phân tán các điểm dữ liệu trên toàn bộ khối lượng của ma trận. Xem câu trả lời của tmp tại Ma trận hiệp phương sai đưa ra điều gì? để biết chi tiết.

• Câu trả lời của Alexander Vigodner trong cùng một chủ đề nói rằng nó cũng sở hữu tính chất tích cực.

• Hệ số xác định ma trận hiệp phương sai có thể được hiểu là phương sai tổng quát. Xem Cẩm nang Thống kê NIST trang 6.5.3.2. Xác định và cấu trúc riêng .

Ma trận hiệp phương sai:

• Nó tương đương với nghịch đảo của phương sai tổng quát mà định thức ma trận hiệp phương sai biểu thị; tối đa hóa yếu tố quyết định của ma trận hiệp phương sai nghịch đảo rõ ràng có thể được sử dụng thay thế cho việc tính toán định thức của ma trận thông tin Fisher, có thể được sử dụng trong tối ưu hóa thiết kế thí nghiệm. Xem câu trả lời của kjetil b halvorsen cho chủ đề CV Xác định thông tin của Fisher

Ma trận tương quan:

• Chúng thú vị hơn nhiều so với các yếu tố xác định ma trận hiệp phương sai, trong đó khối lượng tương quan giảm khi định thức tiếp cận 1 và tăng khi tiếp cận sau 0. Điều này ngược lại với các hệ số tương quan thông thường, trong đó các số cao hơn cho thấy tương quan dương lớn hơn. "Số xác định của ma trận tương quan sẽ chỉ bằng 1,0 nếu tất cả các tương quan bằng 0, nếu không thì định thức sẽ nhỏ hơn 1. Hãy nhớ rằng định thức này có liên quan đến thể tích của không gian bị chiếm bởi bầy các điểm dữ liệu được biểu thị bằng điểm chuẩn trên Khi các biện pháp không tương quan, không gian này là một hình cầu có thể tích bằng 1. Khi các biện pháp tương quan với nhau, không gian bị chiếm sẽ trở thành một ellipsoid có thể tích nhỏ hơn 1. " Xembộ ghi chú khóa học Tulane nàytrang Quora này .

• Một trích dẫn khác cho hành vi bất ngờ này: "Yếu tố quyết định của ma trận tương quan trở thành 0 hoặc gần 0 khi một số biến có tương quan hoàn hảo hoặc tương quan cao với nhau." Xem câu hỏi của Rakesh Pandey Làm thế nào để xử lý vấn đề gần như không xác định độ tin cậy trong tính toán bằng SPSS?

• Tham chiếu thứ ba: "Có một Det (R) rất nhỏ chỉ có nghĩa là bạn có một số biến gần như phụ thuộc tuyến tính." Câu trả lời của Carlos Massera Filho tại chủ đề CrossValidated này.

• Các yếu tố quyết định cũng tuân theo thang điểm từ 0 đến 1, khác với cả thang đo -1 đến 1 mà các hệ số tương quan tuân theo. Họ cũng thiếu dấu hiệu cho thấy một yếu tố quyết định thông thường có thể thể hiện trong việc thể hiện sự định hướng của âm lượng. Có hay không yếu tố quyết định tương quan vẫn đại diện cho một số khái niệm về tính định hướng không được đề cập trong bất kỳ tài liệu nào tôi tìm thấy mặc dù.

Ma trận tương quan nghịch đảo:

• Một tìm kiếm của Google cho các thuật ngữ kết hợp "ma trận tương quan nghịch đảo" và "yếu tố quyết định" chỉ xuất hiện 50 lần nhấn, vì vậy rõ ràng chúng không được áp dụng phổ biến cho lý luận thống kê.

• Việc giảm thiểu rõ ràng yếu tố quyết định tương quan nghịch đảo có thể hữu ích trong một số trường hợp, do một bằng sáng chế tồn tại để loại bỏ tiếng vang sử dụng các bộ lọc thích ứng có chứa một quy trình chính quy được thiết kế để làm việc đó. Xem p. 5 trong tài liệu bằng sáng chế này .

• p. 5 Công nghệ mạnh mẽ với phân tích nhiễu trong xử lý tín hiệu (có sẵn trên các bản xem trước của Google Sách) của Telman Aliev dường như cho thấy rằng "quy định kém" của ma trận tương quan có liên quan đến sự không ổn định trong việc xác định ma trận tương quan nghịch đảo. Nói cách khác, những thay đổi hoang dã trong yếu tố quyết định của nó tỷ lệ với những thay đổi nhỏ trong các yếu tố cấu thành của nó có liên quan đến lượng thông tin được thu thập bởi các ma trận tương quan.

Có thể có các thuộc tính và trường hợp sử dụng của các yếu tố quyết định này không được liệt kê ở đây; Tôi sẽ chỉ đăng những điều này vì mục đích đầy đủ và để đưa ra câu trả lời cho câu hỏi tôi đặt ra, trong trường hợp người khác sử dụng thực tế cho những diễn giải này (như tôi có với các yếu tố quyết định tương quan).


Tôi sẽ đợi một lúc lâu hơn trước khi chấp nhận câu trả lời của riêng mình, với hy vọng ai đó có trình độ hơn sẽ xuất hiện và cung cấp một câu trả lời tốt hơn.
SQLServerSteve

3
Câu trả lời tốt đẹp! Tôi muốn nói thêm rằng các chất khử có thể được sử dụng trong "các nguyên tắc đa dạng", nghĩa là để khuyến khích các mô hình biến tiềm ẩn không sụp đổ để tối ưu hóa cục bộ trong đó có nhiều biến tiềm ẩn giống hệt nhau. Ví dụ: tờ giấy.nips.cc / apers / từ
eric_kernfeld

Cảm ơn :) Có lẽ tôi nên thêm nhận xét của bạn vào câu trả lời (tất nhiên là có tín dụng) sau khi tôi đọc bài báo đó? Tôi không tin vào các linh mục Bayes, vì vậy tôi có thể mất một chút thời gian để tiêu hóa.
SQLServerSteve

Tôi đã chấp nhận câu trả lời của riêng tôi, nhưng sẽ không chấp nhận nếu câu trả lời tốt hơn. Tôi vẫn muốn có thêm thông tin về những diễn giải này.
SQLServerSteve
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.