PCA về tương quan hoặc hiệp phương sai: PCA về tương quan có bao giờ có ý nghĩa không? [đóng cửa]


32

Trong phân tích thành phần chính (PCA), người ta có thể chọn ma trận hiệp phương sai hoặc ma trận tương quan để tìm các thành phần (từ các hàm riêng tương ứng của chúng). Chúng cho kết quả khác nhau (tải PC và điểm số), bởi vì các hàm riêng giữa cả hai ma trận không bằng nhau. Tôi hiểu rằng điều này được gây ra bởi thực tế là một vectơ dữ liệu thô và tiêu chuẩn hóa của nó không thể liên quan thông qua một phép biến đổi trực giao. Về mặt toán học, các ma trận tương tự (nghĩa là liên quan bằng phép biến đổi trực giao) có cùng giá trị riêng, nhưng không nhất thiết phải là cùng một hàm riêng.ZXZ

Điều này đặt ra một số khó khăn trong tâm trí của tôi:

  1. PCA có thực sự có ý nghĩa không, nếu bạn có thể nhận được hai câu trả lời khác nhau cho cùng một tập dữ liệu bắt đầu, cả hai đều cố gắng đạt được cùng một điều (= tìm hướng của phương sai tối đa)?

  2. Khi sử dụng phương pháp tiếp cận ma trận tương quan, mỗi biến đang được chuẩn hóa (chia tỷ lệ) theo độ lệch chuẩn riêng của nó, trước khi tính toán các PC. Vậy thì, làm thế nào vẫn hợp lý khi tìm hướng của phương sai tối đa nếu dữ liệu đã được thu nhỏ / nén khác nhau trước đó? Tôi biết rằng PCA dựa trên tương quan rất thuận tiện (các biến được tiêu chuẩn hóa là không thứ nguyên, vì vậy các kết hợp tuyến tính của chúng có thể được thêm vào; các ưu điểm khác cũng dựa trên chủ nghĩa thực dụng), nhưng liệu có đúng không?

Đối với tôi, dường như PCA dựa trên hiệp phương sai là duy nhất đúng (ngay cả khi phương sai của các biến khác nhau rất lớn) và bất cứ khi nào phiên bản này không thể được sử dụng, PCA dựa trên tương quan cũng không nên được sử dụng.

Tôi biết rằng có chủ đề này: PCA về tương quan hoặc hiệp phương sai? - nhưng dường như chỉ tập trung vào việc tìm kiếm một giải pháp thực dụng, có thể hoặc không phải là một giải pháp đại số chính xác.


4
Tôi sẽ thành thật và nói với bạn rằng tôi bỏ đọc câu hỏi của bạn tại một số điểm. PCA có ý nghĩa. Có, kết quả có thể khác nhau tùy thuộc vào việc bạn chọn sử dụng ma trận tương quan hay phương sai / hiệp phương sai. PCA dựa trên tương quan được ưu tiên nếu các biến của bạn được đo trên các thang đo khác nhau, nhưng bạn không muốn điều này chi phối kết quả. Hãy tưởng tượng nếu bạn có một loạt các biến nằm trong khoảng từ 0 đến 1 và sau đó một số biến có giá trị rất lớn (tương đối, như 0 đến 1000), phương sai lớn liên quan đến nhóm biến thứ hai sẽ chiếm ưu thế.
Patrick

4
Nhưng đó là trường hợp với nhiều kỹ thuật khác và tôi nghĩ quan điểm của Patrick là hợp lý. Ngoài ra nó chỉ đơn thuần là một bình luận, không cần phải trở nên hung hăng. Nói chung, tại sao bạn lại cho rằng nên có một cách đúng đắn về đại số chính xác để tiếp cận vấn đề?
Gala

5
Có lẽ bạn đang nghĩ về PCA theo cách sai: đó chỉ là một phép biến đổi, vì vậy không có câu hỏi nào về việc nó đúng hay không chính xác, hoặc dựa vào các giả định về mô hình dữ liệu - không giống như, hồi quy hoặc phân tích nhân tố.
Scortchi - Phục hồi Monica

5
Mấu chốt của vấn đề này dường như nằm ở sự hiểu lầm về việc tiêu chuẩn hóa và cách thức hoạt động của PCA. Điều này là dễ hiểu, bởi vì nắm bắt tốt PCA đòi hỏi phải hình dung các hình dạng chiều cao hơn. Tôi sẽ duy trì rằng câu hỏi này, giống như nhiều câu hỏi khác dựa trên một số hiểu lầm, do đó là một câu hỏi hay và nên được mở, bởi vì câu trả lời của nó có thể tiết lộ sự thật mà nhiều người có thể không đánh giá đầy đủ trước đó.
whuber

6
PCA không yêu cầu bất cứ điều gì. Mọi người đưa ra tuyên bố về PCA và trên thực tế sử dụng nó rất khác nhau tùy thuộc vào lĩnh vực. Một số trong những cách sử dụng này có thể là ngớ ngẩn hoặc nghi ngờ nhưng có vẻ không sáng sủa lắm khi cho rằng một biến thể duy nhất của kỹ thuật phải là một thuật toán đại số chính xác, không có liên quan đến bối cảnh hoặc mục tiêu phân tích.
Gala

Câu trả lời:


29

Tôi hy vọng những câu trả lời cho hai câu hỏi của bạn sẽ làm dịu mối quan tâm của bạn:

  1. Một ma trận tương quan một ma trận hiệp phương sai của dữ liệu được tiêu chuẩn hóa (nghĩa là không chỉ tập trung mà còn được định cỡ lại); đó là, một ma trận hiệp phương sai (như thể) của một tập dữ liệu khác, khác. Vì vậy, đó là điều tự nhiên và không nên làm phiền bạn rằng kết quả khác nhau.
  2. Vâng, thật hợp lý khi tìm các hướng của phương sai tối đa với dữ liệu được tiêu chuẩn hóa - chúng là các hướng của - có thể nói - "tương quan", chứ không phải "hiệp biến"; nghĩa là, sau khi ảnh hưởng của phương sai không bằng nhau - của các biến ban đầu - lên hình dạng của đám mây dữ liệu đa biến đã bị loại bỏ.

Văn bản và hình ảnh tiếp theo được thêm bởi @whuber (Tôi cảm ơn anh ấy. Ngoài ra, hãy xem nhận xét của tôi bên dưới)

Dưới đây là một ví dụ hai chiều cho thấy lý do tại sao nó vẫn có ý nghĩa để xác định vị trí các trục chính của dữ liệu được tiêu chuẩn hóa (hiển thị bên phải). Lưu ý rằng trong biểu đồ bên tay phải, đám mây vẫn có "hình dạng" mặc dù các phương sai dọc theo trục tọa độ bây giờ chính xác bằng (bằng 1). Tương tự, ở các kích thước cao hơn, đám mây điểm được tiêu chuẩn hóa sẽ có hình dạng không phải hình cầu mặc dù các phương sai dọc theo tất cả các trục chính xác bằng nhau (bằng 1,0). Các trục chính (với giá trị riêng tương ứng của chúng) mô tả hình dạng đó. Một cách khác để hiểu điều này là lưu ý rằng tất cả việc thay đổi kích thước và dịch chuyển diễn ra khi tiêu chuẩn hóa các biến chỉ xảy ra theo hướng của trục tọa độ chứ không phải theo hướng chính.

Nhân vật

Những gì đang xảy ra ở đây về mặt hình học rất trực quan và rõ ràng đến nỗi nó sẽ là một sự kéo dài để mô tả điều này như là một "hoạt động hộp đen": ngược lại, tiêu chuẩn hóa và PCA là một số điều cơ bản và thường xuyên nhất mà chúng ta làm với dữ liệu theo thứ tự để hiểu họ


Tiếp tục bởi @ttnphns

Khi nào thì người ta thích làm PCA (hoặc phân tích nhân tố hoặc loại phân tích tương tự khác) về các mối tương quan (tức là trên các biến được chuẩn hóa z) thay vì thực hiện trên hiệp phương sai (tức là trên các biến trung tâm)?

  1. Khi các biến là các đơn vị đo lường khác nhau. Điều đó rõ ràng.
  2. Khi một người muốn phân tích phản ánh chỉ và các hiệp hội tuyến tính . Pearson r không chỉ là hiệp phương sai giữa các biến không được tính (variance = 1); nó đột nhiên là thước đo sức mạnh của mối quan hệ tuyến tính, trong khi hệ số hiệp phương sai thông thường có thể chấp nhận cả mối quan hệ tuyến tính và đơn điệu.
  3. Khi người ta muốn các hiệp hội phản ánh độ lệch tương đối (từ giá trị trung bình) chứ không phải độ lệch đồng nguyên. Mối tương quan dựa trên sự phân phối, mức chênh lệch của chúng, trong khi hiệp phương sai dựa trên thang đo ban đầu. Nếu tôi phân tích các yếu tố tâm lý của bệnh nhân như được bác sĩ tâm thần khẳng định 'trên một số câu hỏi lâm sàng bao gồm các vật phẩm loại Likert, tôi thích hiệp phương sai hơn. Bởi vì các chuyên gia dự kiến ​​sẽ không làm biến dạng thang đánh giá trong cơ thể. Mặt khác, nếu tôi phân tích sự tự khắc của bệnh nhân bằng chính câu hỏi đó thì có lẽ tôi sẽ chọn mối tương quan. Bởi vì đánh giá của giáo dân được dự kiến ​​là tương đối "người khác", "đa số" "độ lệch cho phép" loupe "thu nhỏ" hoặc "kéo dài" thang đánh giá cho một.

1
1. Xin lỗi, nhưng điều này làm phiền rất nhiều. Đối với một cá nhân bên ngoài, tiêu chuẩn hóa là một hoạt động hộp đen, một phần của điều hòa trước dữ liệu PCA (cũng trong ICA). Anh ta muốn có một câu trả lời cho dữ liệu đầu vào (thô) của mình, đặc biệt là nếu nó liên quan đến dữ liệu vật lý (kích thước) mà đầu ra PCA cần phải được giải thích về mặt vật lý (nghĩa là về các biến không chuẩn).
Lucozade

1
Bản sửa đổi mới nhất của bạn dường như là một xác nhận lại rằng "PCA dựa trên hiệp phương sai là duy nhất đúng". Vì toàn bộ các câu trả lời cho đến nay về bản chất là "Không; cách nghĩ sai về nó; và đây là lý do" thật khó để biết bạn mong đợi điều khiển cuộc thảo luận chống lại sự bất đồng quá lớn như thế nào.
Nick Cox

4
@Lucozade: Tôi đã nhầm lẫn về mô tả ứng dụng của bạn: - PCA giới thiệu bất cứ điều gì? Làm thế nào bạn đo lường hiệu suất ? Tương tự cho bình luận cuối cùng của bạn: - Tối ưu cho những gì?
Scortchi - Phục hồi Monica

5
@Lucozade: Thật vậy, hãy lắng nghe những gì Scortchi nói, bạn dường như tiếp tục đuổi theo những kẻ ma quái. PCA đơn giản là một dạng dữ liệu xoay đặc biệt trong không gian. Nó luôn luôn làm tối ưu những gì nó làm với dữ liệu đầu vào. Vấn đề nan giải cov-Corr là một vấn đề thực dụng, bắt nguồn từ việc xử lý trước dữ liệu và được giải quyết ở cấp độ đó, không phải ở cấp độ PCA.
ttnphns

1
@Lucozade: Đó là ý kiến ​​của tôi (không phải chuyên gia) dựa trên câu trả lời của bạn cho tôi rằng trong nhu cầu cụ thể của bạn, bạn có quyền muốn PCA dựa trên cov. Một lần nữa, các biến của bạn đều đồng nhất về mặt dữ liệu / loại đo lường (cùng loại máy và tất cả dữ liệu tính bằng vôn). Đối với tôi ví dụ của bạn rõ ràng là một trường hợp trong đó cov-PCA là chính xác, nhưng xin lưu ý rằng điều này không phải lúc nào cũng đúng, và tôi nghĩ đây là điểm quan trọng của vấn đề này trong khi chủ đề (sự lựa chọn của cor v. Cov là trường hợp cụ thể và nhu cầu được xác định bởi người hiểu dữ liệu & ứng dụng tốt nhất). Chúc may mắn với nghiên cứu của bạn!
Patrick

6

Phát biểu từ quan điểm thực tế - có thể không phổ biến ở đây - nếu bạn có dữ liệu được đo trên các thang đo khác nhau, thì hãy đi theo tương quan ('Thang đo UV' nếu bạn là nhà hóa học), nhưng nếu các biến số có cùng thang đo và kích thước của chúng thì có vấn đề (ví dụ với dữ liệu phổ), sau đó hiệp phương sai (chỉ tập trung vào dữ liệu) có ý nghĩa hơn. PCA là một phương pháp phụ thuộc vào quy mô và chuyển đổi nhật ký cũng có thể giúp với dữ liệu bị sai lệch cao.

Theo ý kiến ​​khiêm tốn của tôi dựa trên 20 năm áp dụng thực tế của hóa học, bạn phải thử nghiệm một chút và xem cái gì hoạt động tốt nhất cho loại dữ liệu của bạn. Vào cuối ngày, bạn cần có khả năng tái tạo kết quả của mình và cố gắng chứng minh khả năng dự đoán kết luận của bạn. Làm thế nào bạn nhận được thường có một trường hợp thử nghiệm và lỗi, nhưng điều quan trọng là những gì bạn làm là tài liệu và tái sản xuất.


4
Cách tiếp cận thực tế mà bạn dường như ủng hộ ở đây nắm bắt được - khi cả hiệp phương sai và tương quan đều được bảo hành - "hãy thử cả hai và xem cái gì hoạt động tốt nhất". Lập trường thực nghiệm thuần túy đó che dấu sự thật rằng bất kỳ lựa chọn nào cũng đi theo những giả định hoặc mô thức riêng về thực tế mà nhà nghiên cứu nên nhận thức trước, ngay cả khi anh ta hiểu rằng anh ta thích một trong số họ một cách tùy tiện. Chọn "những gì hoạt động tốt nhất" là viết hoa cho cảm giác khoái lạc, narcomania.
ttnphns

-2

xis2(x1/s1)+(x2/s2)=(x1+x2)/sx1+x2s1s2độ. Dường như có rất ít điểm để tối đa hóa phương sai của sự kết hợp tuyến tính của chúng. Trong trường hợp đó, PCA đưa ra giải pháp cho một tập hợp dữ liệu khác nhau, theo đó mỗi biến được chia tỷ lệ khác nhau. Nếu sau đó bạn không chuẩn hóa (khi sử dụng Corr_PCA) thì điều đó có thể ổn và cần thiết; nhưng nếu bạn chỉ sử dụng giải pháp Corr_PCA thô như hiện tại và dừng ở đó, bạn sẽ có được một giải pháp toán học, nhưng không phải là một giải pháp liên quan đến dữ liệu vật lý. Do việc không đạt tiêu chuẩn sau đó dường như là bắt buộc ở mức tối thiểu (nghĩa là "không kéo dài" các trục bởi độ lệch chuẩn nghịch đảo), cov_PCA có thể đã được sử dụng để bắt đầu. Nếu bạn vẫn đang đọc cho đến bây giờ, tôi rất ấn tượng! Bây giờ, tôi kết thúc bằng cách trích dẫn từ cuốn sách của Jolliffe, p. 42, đó là phần liên quan đến tôi:'Tuy nhiên, không được quên rằng PC ma trận tương quan, khi được biểu thị lại theo các biến ban đầu, vẫn là các hàm tuyến tính của x tối đa hóa phương sai đối với các biến được tiêu chuẩn hóa và không liên quan đến các biến ban đầu.' Nếu bạn nghĩ rằng tôi đang giải thích điều này hoặc ý nghĩa của nó sai, đoạn trích này có thể là một điểm tập trung tốt để thảo luận thêm.


3
Thật thú vị khi câu trả lời của chính bạn, phù hợp với tất cả mọi thứ mà mọi người ở đây đang cố gắng truyền đạt cho bạn, vẫn không được giải quyết cho bạn. Bạn vẫn tranh luận There seems little pointtrong PCA về mối tương quan. Chà, nếu bạn cần ở gần dữ liệu thô ("dữ liệu vật lý", như bạn gọi nó một cách kỳ lạ), bạn thực sự không nên sử dụng các mối tương quan vì chúng tương ứng với dữ liệu khác ("bị bóp méo").
ttnphns

2
(Tt) Các trạng thái trích dẫn của Jolliffe, rằng các PC thu được từ các mối tương quan sẽ là chính chúng và không thể biến "trở lại" thành PC trên hiệp phương sai mặc dù bạn có thể biểu thị lại chúng dưới dạng kết hợp tuyến tính của các biến ban đầu. Do đó, Jolliffe nhấn mạnh ý tưởng rằng kết quả PCA hoàn toàn phụ thuộc vào loại tiền xử lý được sử dụng và không tồn tại PC "thật", "chính hãng" hay "phổ quát" ...
ttnphns

2
(Tiếp) Và trên thực tế, Một số dòng bên dưới Jolliffe nói về một "hình thức" khác của PCA - PCA trên X'Xma trận. Biểu mẫu này thậm chí còn "gần gũi" hơn với dữ liệu gốc so với cov-PCA vì không có việc định tâm các biến đang được thực hiện. Và kết quả thường hoàn toàn khác nhau . Bạn cũng có thể làm PCA trên vũ trụ. Mọi người làm PCA trên tất cả các phiên bản của ma trận SSCP , mặc dù hiệp phương sai hoặc tương quan được sử dụng thường xuyên nhất.
ttnphns

3
Dưới câu trả lời này là một giả định ngầm định rằng các đơn vị đo dữ liệu có ý nghĩa nội tại. Điều đó hiếm khi xảy ra: chúng ta có thể chọn đo chiều dài bằng Angstroms, Parsec hoặc bất cứ thứ gì khác và thời gian tính bằng picosecond hoặc millennia, mà không làm thay đổi ý nghĩa của dữ liệu một iota. Những thay đổi được thực hiện khi chuyển từ hiệp phương sai sang tương quan chỉ là thay đổi của các đơn vị (nhân tiện, đặc biệt nhạy cảm với dữ liệu bên ngoài). Điều này cho thấy vấn đề không phải là hiệp phương sai so với tương quan, mà là tìm ra những cách hiệu quả để thể hiện dữ liệu để phân tích.
whuber

3
@ttnphns Tôi sẽ cảm ơn "chỉ", cảm ơn. Cho dù các hàm ý có "sâu sắc" hay không, thực tế vẫn là việc tiêu chuẩn hóa một biến theo nghĩa đen là một biểu hiện lại của giá trị của nó: một sự thay đổi trong các đơn vị đo lường của nó. Tầm quan trọng của quan sát này nằm ở ý nghĩa của nó đối với một số khiếu nại xuất hiện trong chủ đề này, trong đó nổi bật nhất là "PCA dựa trên hiệp phương sai là điều duy nhất thực sự đúng". Bất kỳ quan niệm nào về tính chính xác mà cuối cùng phụ thuộc vào khía cạnh cơ bản tùy ý của dữ liệu - cách chúng tôi viết chúng xuống - không thể đúng.
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.