Trong các nghiên cứu hiệp hội trên toàn bộ bộ gen (GWAS):
- Các thành phần chính là gì?
- Tại sao chúng được sử dụng?
- Họ tính toán như thế nào?
- Một nghiên cứu hiệp hội trên toàn bộ gen có thể được thực hiện mà không cần sử dụng PCA?
Trong các nghiên cứu hiệp hội trên toàn bộ bộ gen (GWAS):
Câu trả lời:
Trong bối cảnh cụ thể này, PCA chủ yếu được sử dụng để giải thích các biến thể cụ thể về dân số trong phân bố alen trên SNPs (hoặc các dấu DNA khác, mặc dù tôi chỉ quen với trường hợp SNP) đang được điều tra. "Cấu trúc dân số" như vậy chủ yếu phát sinh do hậu quả của các tần số alen nhỏ khác nhau trong tổ tiên di truyền xa (ví dụ Nhật Bản và đen-châu Phi hoặc châu Âu-Mỹ). Ý tưởng chung được giải thích rõ trong Cấu trúc dân số và Phân tích sinh học , bởi Patterson et al. ( PLoS Genetic 2006, 2 (12)), hoặc vấn đề đặc biệt của Lancet về dịch tễ di truyền (2005, 366; hầu hết các bài báo có thể được tìm thấy trên web, bắt đầu với Cordell & Clayton, Nghiên cứu của Hiệp hội di truyền ).
Việc xây dựng các trục chính theo phương pháp cổ điển cho PCA, được áp dụng cho ma trận tỷ lệ (các cá thể theo SNPs) của các kiểu gen quan sát (AA, AB, BB; nói B là alen nhỏ trong mọi trường hợp), ngoại trừ một chuẩn hóa bổ sung để giải thích cho sự trôi dạt dân số có thể được áp dụng. Tất cả đều giả định rằng tần số của các alen nhỏ (lấy giá trị trong {0,1,2}) có thể được coi là số, đó là chúng tôi làm việc theo mô hình phụ gia (còn gọi là liều lượng allelic) hoặc bất kỳ giá trị tương đương nào có ý nghĩa . Vì các PC trực giao kế tiếp sẽ chiếm phương sai tối đa, điều này cung cấp một cách để làm nổi bật các nhóm cá nhân khác nhau ở mức tần số alen nhỏ. Phần mềm được sử dụng cho việc này được gọi là Eigenstrat . Nó cũng có sẵn trongegscore()
chức năng từ GenABEL dự án . (Tìm kiếm các hướng dẫn hay của Vince J Carey hoặc David Clayton trên Google).Gói R (xem thêm GenABEL.org ). Điều đáng lưu ý là các phương pháp khác để phát hiện cấu trúc dân số đã được đề xuất, đặc biệt là tái thiết cụm dựa trên mô hình (xem phần tham khảo ở phần cuối). Thông tin thêm có thể được tìm thấy bằng cách duyệt qua dự án Hapmap và hướng dẫn có sẵn đến từ Bioconductor
phân tầng dân số trong trợ giúp trực tuyến.
Xem xét rằng phân tích riêng cho phép khám phá một số cấu trúc ở cấp độ của các cá nhân, chúng ta có thể sử dụng thông tin này khi cố gắng giải thích các biến thể quan sát được trong một kiểu hình nhất định (hoặc bất kỳ phân phối nào có thể được xác định theo tiêu chí nhị phân, ví dụ như bệnh hoặc kiểm soát trường hợp tình hình). Cụ thể, chúng ta có thể điều chỉnh phân tích của mình với các PC đó (tức là điểm yếu tố của các cá nhân), như được minh họa trong phân tích thành phần chính điều chỉnh sự phân tầng trong các nghiên cứu kết hợp trên toàn bộ gen , bởi Price et al. ( Gen di truyền học 2006, 38 (8)) và sau đó hoạt động (có một bức tranh đẹp cho thấy các trục biến đổi di truyền ở châu Âu trong địa lý gương phản chiếu gen ở châu Âu; Nature 2008; Hình 1A được sao chép dưới đây). Cũng lưu ý rằng một giải pháp khác là thực hiện phân tích phân tầng (bằng cách bao gồm dân tộc trong GLM) - ví dụ, điều này có sẵn trong gói snpMatrix .
Tài liệu tham khảo