Có bất kỳ số lượng phương sai cần thiết nào được PCA thu thập để phân tích sau không?


15

Tôi có một bộ dữ liệu với 11 biến và PCA (trực giao) đã được thực hiện để giảm dữ liệu. Quyết định về số lượng thành phần để giữ cho tôi thấy rõ từ kiến ​​thức của tôi về chủ đề và âm mưu (xem bên dưới) rằng hai thành phần chính (PC) là đủ để giải thích dữ liệu và các thành phần còn lại chỉ ít thông tin hơn.

nhập mô tả hình ảnh ở đây
Biểu đồ Scree với phân tích song song: giá trị bản địa quan sát (màu xanh lá cây) và giá trị bản địa mô phỏng dựa trên 100 mô phỏng (màu đỏ). Âm mưu Scree gợi ý 3 PC, trong khi thử nghiệm song song chỉ đề xuất hai PC đầu tiên.

nhập mô tả hình ảnh ở đây

Như bạn có thể thấy chỉ 48% phương sai có thể bị bắt bởi hai PC đầu tiên.

Vẽ các quan sát trên mặt phẳng đầu tiên được thực hiện bởi 2 PC đầu tiên cho thấy ba cụm khác nhau sử dụng phân cụm liên kết phân cấp (HAC) và phân cụm K-nghĩa. Cả 3 cụm này hóa ra rất phù hợp với vấn đề đang được đề cập và cũng phù hợp với các phát hiện khác. Vì vậy, ngoại trừ thực tế là chỉ có 48% phương sai được nắm bắt, mọi thứ khác đều rất tốt.

Một trong hai nhà phê bình của tôi cho biết: một người không thể dựa nhiều vào những phát hiện này vì chỉ có 48% phương sai có thể được giải thích và nó ít hơn yêu cầu.

Câu hỏi
Có bất kỳ giá trị bắt buộc nào của PCA nên được ghi lại bao nhiêu phương sai để hợp lệ không? Có phải nó không phụ thuộc vào kiến ​​thức và phương pháp sử dụng tên miền? Bất cứ ai cũng có thể đánh giá về giá trị của toàn bộ phân tích chỉ dựa trên giá trị đơn thuần của phương sai được giải thích?

Ghi chú

  • Dữ liệu là 11 biến số gen được đo bằng một phương pháp rất nhạy cảm trong sinh học phân tử được gọi là Phản ứng chuỗi polymerase định lượng thời gian thực (RT-qPCR).
  • Phân tích được thực hiện bằng cách sử dụng R.
  • Câu trả lời từ các nhà phân tích dữ liệu dựa trên kinh nghiệm cá nhân của họ về các vấn đề thực tế trong các lĩnh vực phân tích microarray, hóa học, phân tích quang phổ hoặc tương tự được đánh giá cao.
  • Vui lòng xem xét hỗ trợ bạn trả lời với các tài liệu tham khảo càng nhiều càng tốt.

Việc phân phối các giá trị riêng là khá quan trọng đối với Lý thuyết ma trận ngẫu nhiên. Phân phối Marcenko-Pastur đôi khi được sử dụng cho các ứng dụng tương tự.
Giăng

Màu xanh lá cây và những gì màu cam / nâu thể hiện? Chỉ có trong trục.
usεr11852 nói Phục hồi Monic

@ usεr11852, vui lòng xem chú thích được cập nhật.
tiến sĩ

Câu trả lời:


8

Về câu hỏi cụ thể của bạn:

Có bất kỳ giá trị bắt buộc nào về mức độ chênh lệch cần được PCA thu thập để hợp lệ không?

Không, không có (theo hiểu biết tốt nhất của tôi). Tôi tin chắc rằng không có giá trị duy nhất bạn có thể sử dụng; không có ngưỡng ma thuật của tỷ lệ phương sai bị bắt. Bài báo của Cangelosi và Goriely: Duy trì thành phần trong phân tích thành phần chính với ứng dụng vào dữ liệu microarray cDNA cung cấp một cái nhìn tổng quan khá hay về nửa tá quy tắc chuẩn để phát hiện số lượng thành phần trong một nghiên cứu. (Biểu đồ Scree, Tỷ lệ phương sai tổng số được giải thích, Quy tắc giá trị trung bình trung bình, biểu đồ Log-eigenvalue, v.v.) Theo quy tắc ngón tay cái, tôi sẽ không dựa mạnh vào bất kỳ trong số chúng.

Có phải nó không phụ thuộc vào kiến ​​thức và phương pháp sử dụng tên miền?

Tốt nhất là nên phụ thuộc nhưng bạn cần cẩn thận với cách bạn nói và ý của bạn.

Ví dụ: Trong Âm học có khái niệm về sự khác biệt đáng chú ý ( JND ). Giả sử bạn đang phân tích một mẫu âm học và một PC cụ thể có biến thiên quy mô vật lý thấp hơn ngưỡng JND đó. Không ai có thể dễ dàng lập luận rằng đối với một ứng dụng Âm học, bạn nên bao gồm PC đó. Bạn sẽ phân tích tiếng ồn không nghe được. Có thể có một số lý do để bao gồm PC này nhưng những lý do này cần phải được trình bày không phải là cách khác. Chúng có phải là khái niệm tương tự như JND cho phân tích RT-qPCR không?

Tương tự, nếu một thành phần trông giống như đa thức Legendre bậc 9 và bạn có bằng chứng mạnh mẽ rằng mẫu của bạn bao gồm các va chạm Gaussian duy nhất, bạn có lý do chính đáng để tin rằng bạn lại mô hình biến thể không liên quan. Những chế độ trực giao của biến thể hiển thị là gì? Ví dụ, "sai" với PC thứ 3 trong trường hợp của bạn là gì?

Việc bạn nói " 3 cụm này hóa ra rất phù hợp với vấn đề đang nói đến" không thực sự là một cuộc tranh luận mạnh mẽ. Bạn có thể nạo vét dữ liệu đơn giản (đó là một điều xấu ). Có các kỹ thuật khác, ví dụ. Đồng phân nhúng tuyến tính cục bộ , cũng khá tuyệt, tại sao không sử dụng chúng? Tại sao bạn chọn PCA cụ thể?

Tính nhất quán của kết quả nghiên cứu của bạn với các kết quả khác là quan trọng hơn, đặc biệt nếu những phát hiện này được coi là có cơ sở. Đào sâu hơn về điều này. Hãy thử xem kết quả của bạn có đồng ý với kết quả PCA từ các nghiên cứu khác không.

Bất cứ ai cũng có thể đánh giá về giá trị của toàn bộ phân tích chỉ dựa trên giá trị đơn thuần của phương sai được giải thích?

Nói chung người ta không nên làm điều đó. Đừng nghĩ rằng người đánh giá của bạn là một thằng khốn hoặc bất cứ điều gì tương tự; 48% thực sự là một tỷ lệ nhỏ để giữ lại mà không đưa ra những biện minh hợp lý.


Cảm ơn về câu trả lời của bạn. Không có gì quá đặc biệt về RT-qPCR như với JND. Trên thực tế, RT-qPCR chỉ là kỹ thuật mà chúng tôi tự đo các biến gen. Rất có thể bạn có nghĩa là các PC là các biến mới được tạo thành từ sự kết hợp tuyến tính của tất cả 11. Với các biến mô tả khác, 2 PC đầu tiên hóa ra có liên quan đến các tế bào của phản ứng miễn dịch, trong khi PC thứ 3 thì không. Nếu không, không có gì sai PC thứ 3.
tiến sĩ

Tôi sẽ xem xét các kỹ thuật nạo vét dữ liệu và tìm hiểu thêm về chúng. Nhưng bạn có biết tình cờ liệu điều này đã được thực hiện bởi bất kỳ gói R nào chưa?
tiến sĩ

1
@doctorate: Toàn bộ ý tưởng là để tránh nạo vét dữ liệu. Tôi xin lỗi nhưng tôi không biết bất kỳ gói nào kiểm tra rõ ràng cho nó.
usεr11852 nói Phục hồi Monic

1
+1, nhưng câu của bạn về nạo vét dữ liệu ("bạn có thể nạo vét dữ liệu đơn giản") không rõ ràng lắm và có lẽ đó là lý do tại sao @doctorate bị nhầm lẫn. Trên thực tế, tôi thấy rằng toàn bộ đoạn văn không rõ ràng lắm: Isomap và LLE phải làm gì với việc nạo vét dữ liệu? nạo vét dữ liệu tốt hay xấu? bài viết wiki bạn liên kết để bắt đầu với mô tả nó là tốt thứ. Có lẽ bạn có thể chỉnh sửa để rõ ràng hơn một chút trong đoạn đó?
amip nói phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.