Trong các nghiên cứu hiệp hội trên toàn bộ gen, các thành phần chính là gì?


20

Trong các nghiên cứu hiệp hội trên toàn bộ bộ gen (GWAS):

  1. Các thành phần chính là gì?
  2. Tại sao chúng được sử dụng?
  3. Họ tính toán như thế nào?
  4. Một nghiên cứu hiệp hội trên toàn bộ gen có thể được thực hiện mà không cần sử dụng PCA?

1
Trước khi hỏi những câu hỏi này, bạn đã tìm kiếm trang web này cho "PCA" hay khám phá thẻ "PCA"? Hầu hết các câu hỏi của bạn đã được trả lời ở đó.
whuber

1
@whuber Tôi nghĩ rằng OP đang tìm kiếm việc sử dụng PCA như một cách để tính toán và điều chỉnh sự phân tầng dân số khi mô hình hóa một kết quả nhất định (nghiên cứu kiểu hình hoặc trường hợp / kiểm soát liên tục) và dấu DNA (SNP). Tôi đã đưa ra một tài liệu tham khảo ở đây: stats.stackexchange.com/questions/1708/variation-in-pca-weights/ .
chl

1
GWAS chắc chắn có thể được thực hiện mà không cần các thành phần chính. Trong trường hợp không phân tầng dân cư, tất cả bạn cần là hàng ngàn -tests hoặc hàng ngàn kiểm tra chi-squared. t
vào

@onestop (+1) Tôi sẽ xem xét bạn đã trả lời câu hỏi thứ 2 mà tôi thậm chí không xem xét trong câu trả lời của riêng mình.
chl

@onestop, nếu chỉ phân tầng theo giới tính / chủng tộc thì sao? bạn có thể giải thích về câu trả lời của bạn xin vui lòng?
suprvisr

Câu trả lời:


27

Trong bối cảnh cụ thể này, PCA chủ yếu được sử dụng để giải thích các biến thể cụ thể về dân số trong phân bố alen trên SNPs (hoặc các dấu DNA khác, mặc dù tôi chỉ quen với trường hợp SNP) đang được điều tra. "Cấu trúc dân số" như vậy chủ yếu phát sinh do hậu quả của các tần số alen nhỏ khác nhau trong tổ tiên di truyền xa (ví dụ Nhật Bản và đen-châu Phi hoặc châu Âu-Mỹ). Ý tưởng chung được giải thích rõ trong Cấu trúc dân số và Phân tích sinh học , bởi Patterson et al. ( PLoS Genetic 2006, 2 (12)), hoặc vấn đề đặc biệt của Lancet về dịch tễ di truyền (2005, 366; hầu hết các bài báo có thể được tìm thấy trên web, bắt đầu với Cordell & Clayton, Nghiên cứu của Hiệp hội di truyền ).

Việc xây dựng các trục chính theo phương pháp cổ điển cho PCA, được áp dụng cho ma trận tỷ lệ (các cá thể theo SNPs) của các kiểu gen quan sát (AA, AB, BB; nói B là alen nhỏ trong mọi trường hợp), ngoại trừ một chuẩn hóa bổ sung để giải thích cho sự trôi dạt dân số có thể được áp dụng. Tất cả đều giả định rằng tần số của các alen nhỏ (lấy giá trị trong {0,1,2}) có thể được coi là số, đó là chúng tôi làm việc theo mô hình phụ gia (còn gọi là liều lượng allelic) hoặc bất kỳ giá trị tương đương nào có ý nghĩa . Vì các PC trực giao kế tiếp sẽ chiếm phương sai tối đa, điều này cung cấp một cách để làm nổi bật các nhóm cá nhân khác nhau ở mức tần số alen nhỏ. Phần mềm được sử dụng cho việc này được gọi là Eigenstrat . Nó cũng có sẵn trongegscore()chức năng từ GenABEL dự án . (Tìm kiếm các hướng dẫn hay của Vince J Carey hoặc David Clayton trên Google).Gói R (xem thêm GenABEL.org ). Điều đáng lưu ý là các phương pháp khác để phát hiện cấu trúc dân số đã được đề xuất, đặc biệt là tái thiết cụm dựa trên mô hình (xem phần tham khảo ở phần cuối). Thông tin thêm có thể được tìm thấy bằng cách duyệt qua dự án Hapmap và hướng dẫn có sẵn đến từ Bioconductor

±6 phân tầng dân số trong trợ giúp trực tuyến.

Xem xét rằng phân tích riêng cho phép khám phá một số cấu trúc ở cấp độ của các cá nhân, chúng ta có thể sử dụng thông tin này khi cố gắng giải thích các biến thể quan sát được trong một kiểu hình nhất định (hoặc bất kỳ phân phối nào có thể được xác định theo tiêu chí nhị phân, ví dụ như bệnh hoặc kiểm soát trường hợp tình hình). Cụ thể, chúng ta có thể điều chỉnh phân tích của mình với các PC đó (tức là điểm yếu tố của các cá nhân), như được minh họa trong phân tích thành phần chính điều chỉnh sự phân tầng trong các nghiên cứu kết hợp trên toàn bộ gen , bởi Price et al. ( Gen di truyền học 2006, 38 (8)) và sau đó hoạt động (có một bức tranh đẹp cho thấy các trục biến đổi di truyền ở châu Âu trong địa lý gương phản chiếu gen ở châu Âu; Nature 2008; Hình 1A được sao chép dưới đây). Cũng lưu ý rằng một giải pháp khác là thực hiện phân tích phân tầng (bằng cách bao gồm dân tộc trong GLM) - ví dụ, điều này có sẵn trong gói snpMatrix .

gen gương địa lý ở châu Âu

Tài liệu tham khảo

  1. Daniel Falush, Matthew Stephens và Jonathan K Pritchard (2003). Suy luận về cấu trúc dân số sử dụng dữ liệu kiểu gen đa điểm: các locus liên kết và tần số alen tương quan . Di truyền học , 164 (4): 1567 Từ1587.
  2. B Devlin và K Roeder (1999). Kiểm soát bộ gen cho các nghiên cứu hiệp hội . Sinh trắc học , 55 (4): 997 bóng1004.
  3. JK Pritchard, M Stephens và P Donnelly (2000). Suy luận về cấu trúc dân số sử dụng dữ liệu kiểu gen đa điểm . Di truyền học , 155 (2): 945 Đội959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li và Joseph L Gastwirth (2005). Kiểm soát bộ gen cho các nghiên cứu hiệp hội theo các mô hình di truyền khác nhau . Sinh trắc học , 61 (1): 186 bóng92.
  5. Chao Tian, ​​Peter K. Gregersen và Michael F. Seldin1 (2008). Kế toán tổ tiên: cấu trúc dân số và nghiên cứu hiệp hội trên toàn bộ gen . Di truyền học phân tử ở người , 17 (R2): R143-R150.
  6. Kai Yu, Cấu trúc dân số và lựa chọn kiểm soát trong nghiên cứu hiệp hội trên toàn bộ bộ gen .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich và Nick Patterson (2010). Phương pháp tiếp cận mới về phân tầng dân số trong các nghiên cứu kết hợp trên toàn bộ gen , Nature Nhận xét Di truyền học
  8. Chao Tian, ​​et al. (2009). Cấu trúc di truyền dân số châu Âu: Định nghĩa thêm về các dấu hiệu thông tin tổ tiên để phân biệt giữa các nhóm dân tộc châu Âu đa dạng , Y học phân tử, 15 (11-12): 371 Từ383.

Cảm ơn nhiều. Sau đó, nhiều câu hỏi tiếp theo sẽ xảy ra: 1) Điều gì xảy ra nếu tôi bỏ qua PCA và phân tầng mẫu GWAS của tôi chỉ bằng GENDER / RACE / AGE và bỏ qua PCA. Làm thế nào nó sẽ phản ánh phân tích hiệp hội của tôi và kết quả của nó? 2) Nếu trên thực tế tôi muốn sử dụng PCA thì có bao nhiêu SNPS tôi phải có kiểu gen ít nhất là để có PCA trung thực? 200 có đủ không? Chúng có phải được phân tán đều trên tất cả các nhiễm sắc thể không? 3) SNP nào được sử dụng trong PCA? Đây là bộ được xác định trước hay bất kỳ?
suprvisr

@suprvisr Tôi có thể trả lời ngay tại đó hoặc cập nhật câu trả lời của mình, nhưng tôi nghĩ tốt hơn là hỏi một câu hỏi mới (theo ý tưởng về "ưu và nhược điểm của việc điều chỉnh với PCA so với phân tầng") và liên kết với câu hỏi này để mọi người rõ ràng có thể thực hiện các kết nối cần thiết.
chl

@AndyFrost đề xuất những điều sau đây có thể có các số liệu được tham chiếu: goo.gl/jNXx0x và hình ảnh mà bạn có thể giới thiệu có thể có trong goo.gl/TcK3g8 .
gung - Phục hồi Monica

@chl Bạn có thể giải thích ý của bạn về điều này không: "Điều thường được thực hiện trong trường hợp này là áp dụng PCA theo cách lặp và loại bỏ các cá nhân có điểm dưới ± 6 ± 6 SD trên ít nhất một trong 20 hiệu trưởng đầu tiên trục ". Tôi đang tìm kiếm một câu trả lời cho bài viết của mình ở đây: biostars.org/p/180336
MAPK
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.