Tôi có một bộ dữ liệu với 11 biến và PCA (trực giao) đã được thực hiện để giảm dữ liệu. Quyết định về số lượng thành phần để giữ cho tôi thấy rõ từ kiến thức của tôi về chủ đề và âm mưu (xem bên dưới) rằng hai thành phần chính (PC) là đủ để giải thích dữ liệu và các thành phần còn lại chỉ ít thông tin hơn.
Biểu đồ Scree với phân tích song song: giá trị bản địa quan sát (màu xanh lá cây) và giá trị bản địa mô phỏng dựa trên 100 mô phỏng (màu đỏ). Âm mưu Scree gợi ý 3 PC, trong khi thử nghiệm song song chỉ đề xuất hai PC đầu tiên.
Như bạn có thể thấy chỉ 48% phương sai có thể bị bắt bởi hai PC đầu tiên.
Vẽ các quan sát trên mặt phẳng đầu tiên được thực hiện bởi 2 PC đầu tiên cho thấy ba cụm khác nhau sử dụng phân cụm liên kết phân cấp (HAC) và phân cụm K-nghĩa. Cả 3 cụm này hóa ra rất phù hợp với vấn đề đang được đề cập và cũng phù hợp với các phát hiện khác. Vì vậy, ngoại trừ thực tế là chỉ có 48% phương sai được nắm bắt, mọi thứ khác đều rất tốt.
Một trong hai nhà phê bình của tôi cho biết: một người không thể dựa nhiều vào những phát hiện này vì chỉ có 48% phương sai có thể được giải thích và nó ít hơn yêu cầu.
Câu hỏi
Có bất kỳ giá trị bắt buộc nào của PCA nên được ghi lại bao nhiêu phương sai để hợp lệ không? Có phải nó không phụ thuộc vào kiến thức và phương pháp sử dụng tên miền? Bất cứ ai cũng có thể đánh giá về giá trị của toàn bộ phân tích chỉ dựa trên giá trị đơn thuần của phương sai được giải thích?
Ghi chú
- Dữ liệu là 11 biến số gen được đo bằng một phương pháp rất nhạy cảm trong sinh học phân tử được gọi là Phản ứng chuỗi polymerase định lượng thời gian thực (RT-qPCR).
- Phân tích được thực hiện bằng cách sử dụng R.
- Câu trả lời từ các nhà phân tích dữ liệu dựa trên kinh nghiệm cá nhân của họ về các vấn đề thực tế trong các lĩnh vực phân tích microarray, hóa học, phân tích quang phổ hoặc tương tự được đánh giá cao.
- Vui lòng xem xét hỗ trợ bạn trả lời với các tài liệu tham khảo càng nhiều càng tốt.