Cách diễn giải biểu đồ QQ của giá trị p


17

Tôi đang thực hiện các nghiên cứu của Hiệp hội SNAS về các bệnh bằng cách sử dụng một phần mềm có tên là plink ( http://pngu.mgh.harvard.edu/~purcell/plink/doad.shtml ).

Với kết quả liên kết, tôi nhận được giá trị p cho tất cả các SNP đã được phân tích. Bây giờ, tôi sử dụng biểu đồ QQ của các giá trị p đó để hiển thị nếu giá trị p rất thấp khác với phân phối giá trị p dự kiến ​​(phân phối đồng đều). Nếu giá trị p lệch khỏi phân phối dự kiến, "giá trị" có thể gọi giá trị p đó có ý nghĩa thống kê.

Như bạn có thể thấy trong cốt truyện QQ, ở phần cuối đuôi, 4 điểm cuối có phần khó diễn giải. Hai trong số các điểm cuối cùng trong màu xám gợi ý rằng các giá trị p đó nằm trong phân phối dự kiến ​​của các giá trị p, trong khi hai điểm còn lại thì không.

Bây giờ, làm thế nào để giải thích điều này, hai điểm cuối có giá trị p thấp hơn nhưng không "đáng kể" theo cốt truyện QQ, trong khi hai điểm còn lại có giá trị p cao hơn là "đáng kể"? Làm thế nào điều này có thể đúng?

nhập mô tả hình ảnh ở đây


6
Một vấn đề với việc sử dụng các sơ đồ QQ để giải thích GWAS là các giá trị p không độc lập với nhau và trên thực tế, các giá trị p cực đoan nhất rất có thể tương quan với nhau. Tôi đoán rằng bốn lần truy cập hàng đầu của bạn có khả năng trên cùng một nhiễm sắc thể và đủ gần nhau mà LD đang gây ra mối tương quan giữa chúng. Nếu bạn chạy thử nghiệm có điều kiện giá trị p thấp thứ hai trên SNP với giá trị p thấp nhất thì tôi đoán giá trị p của nó sẽ rơi vào phạm vi không có ngoại lệ. Điều tương tự cũng có thể xảy ra với nhiều bản hit rõ ràng khác.
Sam Dickson

3
Tôi đã làm điều đó, tôi đã cắt bộ dữ liệu SNP để chỉ lấy SNP độc lập (sử dụng bình phương r là 0,8 làm điểm cắt). Biểu đồ QQ này hiển thị kết quả của SNP độc lập hoặc SNP trong LD <0,8.
eXpander

1
SNP thấp nhất tương ứng với nhiễm sắc thể 6, thứ hai so với nhiễm sắc thể 2, thứ ba so với nhiễm sắc thể 5, thứ tư so với nhiễm sắc thể 9, vì vậy tôi không chắc LD là vấn đề ở đây.
eXpander

1
Tôi có thể hỏi bạn làm thế nào bạn thực hiện âm mưu đó? Tôi có thể nhận được một cái gì đó tương tự nhưng với các giá trị chi bình phương hoặc với các giá trị p nhưng không có bóng xám và tôi cần một giá trị p và giá trị bóng xám. Nếu bạn có thể chia sẻ mã bạn đã sử dụng sẽ rất tuyệt. Cảm ơn.
Aleix Arnau

Ở đây civ.uio.no/tores/Publications_files/ từ là một bài viết sáo rỗng về vấn đề này.
kjetil b halvorsen

Câu trả lời:


5

Một tài liệu tham khảo tốt về phân tích các ô giá trị p là [1].

Kết quả mà bạn đang thấy có thể được điều khiển bởi thực tế tín hiệu / hiệu ứng chỉ tồn tại ở một số tập hợp con của các thử nghiệm. Chúng được thúc đẩy trên các dải chấp nhận. Chỉ từ chối giá trị p bên ngoài các băng tần thực sự có thể hợp lý, nhưng có lẽ quan trọng hơn, bạn nên quyết định tiêu chí lỗi bạn muốn kiểm soát khi chọn quy trình lựa chọn của mình (FWER, FDR) là gì. Bạn có thể tham khảo [2] cho lựa chọn đó và tham khảo trong đó để chọn quy trình thử nghiệm phù hợp.

[1] Schweder, T. và E. Spjotvoll. Các lô có giá trị P để đánh giá đồng thời nhiều bài kiểm tra. Đồng thời Biometrika 69, không. 3 (tháng 12 năm 1982): 493 bóng502. doi: 10.2307 / 2335984.

[2] Rosenblatt, Jonathan. Hướng dẫn của một học viên hướng dẫn sử dụng nhiều mức độ lỗi thử nghiệm. Đại học Tel Aviv, ngày 17 tháng 4 năm 2013. http://arxiv.org/abs/1304.4920 .


1

Đây là một câu hỏi cũ hơn, nhưng tôi thấy nó hữu ích khi cố gắng diễn giải QQPlots lần đầu tiên. Tôi nghĩ tôi sẽ thêm vào những câu trả lời này trong trường hợp có nhiều người vấp phải điều này trong tương lai.

Điều tôi thấy hơi khó hiểu là những điểm đó chính xác là gì? Tôi tìm thấy đi đến mã làm cho nó dễ dàng để tìm ra.

Đây là một số mã R mà tôi đã điều chỉnh từ GWASTools::qqPlot đó thực hiện QQPlot theo 3 dòng:

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

Đây là một ví dụ. Bạn có 5 giá trị p. SimpleQQPlot sẽ tạo ra 5 giá trị tương ứng từ phân phối đồng đều giữa 0 và 1. Chúng sẽ là: .2 .4 .6 .8 và 1. Vì vậy, SimpleQQPlot hy vọng giá trị p thấp nhất của bạn sẽ ở khoảng .2 và mức cao nhất của bạn sẽ ở xung quanh. 1. SimpleQQPlot sẽ sắp xếp các giá trị của bạn và ghép từng giá trị với giá trị được tạo tương ứng. Vì vậy, .2 sẽ được ghép với giá trị thấp nhất của bạn, 1 với giá trị cao nhất của bạn, v.v. Sau đó, các giá trị được ghép nối này được vẽ (sau khi lấy các bản ghi âm), với X là giá trị được tạo và Y là giá trị quan sát được ghép nối. Nếu các giá trị quan sát của bạn cũng được kéo từ một phân phối bình thường, thì các điểm sẽ nằm trên đường thẳng. Bởi vì sắp xếp, các điểm sẽ luôn tăng đơn điệu. Vì vậy, mỗi điểm tiếp theo sẽ có X lớn hơn và Y lớn hơn hoặc bằng Y.

Vì vậy, trong ví dụ ban đầu ở trên, giá trị p được sắp xếp thứ 9,997 là khoảng 5,2 nhưng được dự kiến ​​là khoảng 4,1 nếu tuân theo phân phối bình thường. (Lưu ý: Tôi thực sự không chắc chắn có bao nhiêu giá trị p được vẽ ở trên - tôi chỉ đoán 10k).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.