Sức mạnh trong proteomics?


9

Các khoản tài trợ thường yêu cầu phân tích công suất để hỗ trợ cỡ mẫu được đề xuất. Trong proteomics (và hầu hết -omics), có từ 100 đến 1000 tính năng / biến được đo trên 10 mẫu (có thể là 100, nhưng không thể). Ngoài ra, người ta biết rằng một số đơn vị đo lường này (ví dụ, số lượng phổ protein) không được phân phối bình thường và vì vậy chúng tôi sẽ sử dụng thử nghiệm không tham số để phân tích. Tôi đã thấy sức mạnh của cỡ mẫu được xác định khi giả sử một phép đo duy nhất và giả sử thử nghiệm t, nhưng tôi không nghĩ rằng điều này là hoàn toàn chính xác. Một vấn đề khác với số lượng quang phổ cụ thể là mỗi tính năng của 100 trong các thang đo rất khác nhau với các lỗi rất khác nhau (các giá trị lớn hơn có ít lỗi hơn). [Vấn đề này được mô tả độc đáo trong mô hình thay đổi giới hạn, Mutch et al., 2002 ]

Điều gì sẽ là cách thích hợp để xác định sức mạnh của cỡ mẫu được đề xuất với một số giả định về FDR và ​​thay đổi lần chấp nhận được? Sử dụng công cụ ở đây tôi đã có thể xác định như sau:

  • 300 gen
  • 3 dương tính giả
  • 1,4 lần khác biệt
  • 0,8 công suất mong muốn
  • 0,7

yêu cầu cỡ mẫu cho mỗi nhóm 49.

Điều này rất hữu ích vì tôi đang đề xuất thiết kế 50v50, biết rằng thay đổi 1,4 lần được chấp nhận khá nhiều, 1% FDR vẫn ổn và tôi có thể sẽ đo được 300 protein trong thí nghiệm này. Vấn đề tính toán công suất hoặc kích thước mẫu này sẽ tiếp tục xảy ra, vì vậy sẽ rất tốt nếu có một cách tiếp cận được tham chiếu.

EDIT: Tôi đọc được nơi một đồng nghiệp đề xuất mô hình số lượng phổ từ các phân phối nhị thức âm tính bằng cách sử dụng hàm khả năng theo sau là một bài kiểm tra Wald. Về cơ bản sử dụng dữ liệu sơ bộ để có được ước tính phương sai protein và sau đó tính toán các thay đổi có thể phát hiện được giữa các nhóm cho mỗi lượng tử. Ngoài ra còn có một đầu vào FDR (alpha). Vì vậy, với công suất> 80% và đặt kích thước mẫu, họ có thể xác định các thay đổi có thể phát hiện được cho phương sai thấp nhất 25%, phương sai nhỏ hơn 50% và phương sai cao nhất 25%. Vấn đề là tôi không biết làm thế nào họ làm điều này. Không chắc chắn nếu chia sẻ phương pháp này sẽ giúp bất cứ ai có câu trả lời có thể.


Một số tài nguyên khác tôi đã tìm thấy về chủ đề này: Levin 2011 Dicker và cộng sự, 2010
Ben

1
Máy tính MD Anderson đó dường như quá lạc quan với tôi. Có bao nhiêu so sánh được thực hiện? (Tôi quá khó hiểu với microarrays: 300 gen trong thiết kế 50v50 có nghĩa là bạn thực hiện bao nhiêu so sánh ??) Khi bạn đặt máy tính FDR thành 3 dương tính giả, bạn có nói rằng bạn đang đặt lỗi dương tính giả không? 3 dự kiến ​​là dương tính giả dưới null? Điều đó quá khắt khe đối với hơn 60 so sánh.
AdamO

1
Tôi có thể chỉ cho bạn cách thực hiện trong R nhưng tôi chỉ cần một số nền tảng về sinh học.
AdamO

Câu trả lời:


1

Trong các ứng dụng (đặc biệt là các ứng dụng đạo đức, nơi bạn phải thực hiện nghiên cứu về sức mạnh) Tôi thích sử dụng tài liệu tham khảo này [Wang và Chen 2004], bởi vì nó giải thích độc đáo khái niệm đằng sau một tính toán năng lượng cho dữ liệu thông lượng cao (bất kể dữ liệu thực sự là gì) .

Về bản chất, ngoài các tham số thông thường (α,, N, kích thước hiệu ứng), bạn sử dụng hai tham số bổ sung, và. Cái sau,, là số giả định của các gen thực sự bị thay đổi và là phần nhỏ của các gen thực sự bị thay đổi mà bạn muốn có thể phát hiện ra. Khá đơn giản để mở rộng bất kỳ tính toán công suất đã biết nào sang dữ liệu thông lượng cao bằng cách sử dụng phương pháp này.

Wang, Sue-Jane và James J. Chen. "Cỡ mẫu để xác định các gen biểu hiện khác nhau trong các thí nghiệm microarray." Tạp chí Sinh học tính toán 11.4 (2004): 714-726.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.