Phân tích làm giàu theo cấp độ nhân đôi gen


11

Bối cảnh sinh học

Theo thời gian, một số loài thực vật có xu hướng nhân đôi toàn bộ bộ gen của chúng, thu được một bản sao bổ sung của mỗi gen. Do sự không ổn định của thiết lập này, nhiều gen trong số này sau đó bị xóa và bộ gen tự sắp xếp lại và ổn định, sẵn sàng nhân đôi lần nữa. Những sự kiện nhân đôi này có liên quan đến sự kiện đầu cơ và xâm lược, và lý thuyết là sự trùng lặp giúp thực vật thích nghi nhanh hơn với môi trường mới của chúng.

Lupinus, một chi thực vật có hoa, đã xâm chiếm Andes trong một trong những sự kiện đầu cơ nhanh nhất từng được phát hiện, và hơn nữa, nó dường như có nhiều bản sao trong bộ gen của nó hơn là chi có liên quan chặt chẽ nhất, Baptisia.

Và bây giờ là bài toán:

Bộ gen của một thành viên của Lupinus và một thành viên của Baptisia đã được giải trình tự, cung cấp dữ liệu thô về 25.000 gen trong mỗi loài. Bằng cách truy vấn cơ sở dữ liệu về các gen có chức năng đã biết, giờ đây tôi đã có "dự đoán tốt nhất" về chức năng mà gen có thể thực hiện - vì vậy, ví dụ, Gene1298 có thể liên quan đến "chuyển hóa fructose, phản ứng căng thẳng muối, phản ứng căng thẳng lạnh". Tôi muốn biết, nếu có một sự kiện trùng lặp giữa Baptisia và Lupinus, liệu việc mất gen xảy ra ngẫu nhiên hay liệu các gen thực hiện các chức năng cụ thể có nhiều khả năng được giữ hoặc xóa.

Tôi có một kịch bản sẽ xuất ra một bảng như bảng dưới đây. L * là tổng số tất cả các gen Lupinus liên quan đến chức năng. L 1+ là số lượng gen lupinus liên quan đến chức năng có ít nhất một bản sao trùng lặp. Tôi có thể lấy nó để sản xuất L 2+, L 3+, v.v., mặc dù L 1+ là nhóm đáng tin cậy hơn nhiều so với L 2+ do quá trình giải trình tự.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Những gì tôi muốn làm là kiểm tra, đối với từng chức năng gen, liệu có nhiều hay ít gen có bản sao hơn dự kiến ​​hoàn toàn do tình cờ ở Lupinus và Baptisia, và liệu Lupinus có khác với Baptisia về tỷ lệ quan sát được dự kiến ​​hay không.

Điều tốt nhất tôi có cho đến nay

Các nghiên cứu trước đây về các loài khác nhau đã sử dụng Phân tích làm giàu, với Thử nghiệm chính xác của Fisher và hiệu chỉnh FDR cho nhiều lần lấy mẫu, để thực hiện thử nghiệm dự phòng trên mỗi hàng.

Nó sẽ là tốt đẹp để cải thiện về điều này; Tôi không chắc đây có vẻ là cách tốt nhất để làm điều đó.

Glen_b đã đề xuất sử dụng GLM để phân tích dữ liệu; Tôi đã chơi xung quanh với GLM trong JMP8, điều này rất thú vị, nhưng tôi sẽ thừa nhận là không thực sự hiểu chúng.

Điều đó nói rằng, tôi đang cố gắng sử dụng R thay vì bây giờ.

Tôi đang sử dụng cái này để làm gì?

Điều này ban đầu được cho là một phần của dự án nghiên cứu ngắn mà tôi đang làm ở trường đại học, nhưng giờ đã được chuyển sang một dự án chú thích bộ gen khổng lồ. Tại sao? Bởi vì tin sinh học là mát mẻ. Có thể lấy một chuỗi A, T, C và G và sử dụng nó để suy luận thông tin về các sự kiện xảy ra hàng triệu năm trước thật đáng kinh ngạc.

Không cần phải nói, tôi sẽ không cố gắng gửi bất kỳ câu trả lời vui lòng nào được cung cấp như là công việc của riêng tôi. Tôi sẽ rất vui khi bao gồm một xác nhận trong bài báo nếu tôi sử dụng một phương pháp được đề xuất ở đây trong công việc được gửi.


1
Lưu ý vấn đề tôi đã đề cập trong câu trả lời trước đó cho câu hỏi khác của bạn - về việc chỉ kiểm tra một biến khi có các biến quan trọng khác (tôi đã chỉ ra bài viết trên wikipedia về Nghịch lý của Simpson) - Kiểm tra chính xác của Fisher không khắc phục được điều đó.
Glen_b -Reinstate Monica

Tin sinh học thật tuyệt !! Chào mừng đến với trang web!
Kyle.

Tôi sẽ quay lại và sớm đưa ra câu trả lời mở rộng hơn, nhưng các chức năng phù hợp trong R để xem xét sẽ là loglin, loglm (trong gói MASS, đi kèm với R nhưng không được cài đặt theo mặc định) và tự glm. Sự hiểu biết về các mô hình này sẽ có nhiều điểm tương đồng với việc hiểu nhiều hồi quy và ANOVA - với các ngoại lệ là các phân phối không bình thường, và các phương tiện là những gì các mô hình là tuyến tính.
Glen_b -Reinstate Monica

Câu trả lời:


1

Mặc dù tôi đồng ý rằng thử nghiệm của Fisher (hoặc một cái gì đó tương tự) có thể là cách tiếp cận tự nhiên nhất ở đây, làm thế nào về điều này:

  1. Đối với mỗi gen duy nhất, bạn xác định sự khác biệt về số lần sao chép trong L và B
  2. Sắp xếp gen bằng sự khác biệt này. Bây giờ các gen cho thấy hầu hết sự khác biệt giữa các loài sẽ nằm trong đầu danh sách của bạn.
  3. Áp dụng một thử nghiệm làm giàu bộ gen vào danh sách các gen được sắp xếp. Ví dụ: bạn có thể sử dụng phương pháp của Fisher đã được sửa đổi từ gói tmod của tôi , mà bạn sẽ phải xác định bộ gen của mình (nó sẽ khá đơn giản). Lưu ý rằng phương pháp của Fisher không liên quan đến thử nghiệm của Fisher.

Thử nghiệm của Fisher đã được sửa đổi (được đặt tên là CERNO bởi các tác giả lần đầu tiên mô tả nó trong bối cảnh này) lấy bất kỳ danh sách gen nào theo thứ tự làm đầu vào, miễn là bạn có thể nhóm chúng trong một số loại hữu ích.

Ưu điểm của phương pháp này là ngoài giá trị p, bạn có thể dễ dàng tính toán kích thước hiệu ứng của việc làm giàu và trực quan hóa nó (ví dụ, như một đường cong ROC trên danh sách các gen được sắp xếp). Điều này cung cấp cho bạn một ý tưởng tốt hơn nhiều như thế nào những gì bạn quan sát thực sự quan trọng đối với sinh học bạn nghiên cứu.


0

Như bạn nói, bạn đang hỏi hai câu hỏi riêng biệt.

Câu 1 "là tỷ lệ L * / L1 + khác với B * / B1 + cho một chức năng gen nhất định"

điều này có thể được trả lời tốt nhất với thử nghiệm chính xác của Fisher bằng cách sử dụng dữ liệu trên hàng như bạn đã tìm thấy trước đây.

Câu 2 "là tỷ lệ: các gen trong đó có một bản sao / gen duy nhất có nhiều hơn một bản sao, khác nhau giữa các chức năng gen?"

Tôi nghĩ rằng điều này cũng có thể được trả lời tốt nhất với bài kiểm tra chính xác của Fisher. Bạn sẽ kiểm tra tỷ lệ L * / L1 + cho chức năng gen 1 so với L * / L1 + cho chức năng gen 2. Sau đó, chức năng gen 1 Vs chức năng gen 3, v.v.

Cả hai câu hỏi này đều không biết liệu chúng có được duy trì / xóa nhanh hơn dự kiến ​​hoàn toàn do tình cờ hay không, chỉ khi chúng bị xóa / duy trì ở mức giá khác nhau. Để biết liệu chúng có bị xóa / duy trì ở một tốc độ khác với tình cờ hay không, bạn cần biết tỷ lệ đơn lẻ / bội số cho nhiều vùng DNA chỉ bị ảnh hưởng do tình cờ. Nếu bạn có thể tìm thấy các khu vực như vậy, bạn sẽ kết thúc với một "Nhóm chức năng" trong đó chức năng là "Không". Sau đó, bạn sẽ so sánh điều này với các nhóm chức năng gen khác của bạn theo cùng một cách như tôi đã mô tả trong câu hỏi 2.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.