Bối cảnh sinh học
Theo thời gian, một số loài thực vật có xu hướng nhân đôi toàn bộ bộ gen của chúng, thu được một bản sao bổ sung của mỗi gen. Do sự không ổn định của thiết lập này, nhiều gen trong số này sau đó bị xóa và bộ gen tự sắp xếp lại và ổn định, sẵn sàng nhân đôi lần nữa. Những sự kiện nhân đôi này có liên quan đến sự kiện đầu cơ và xâm lược, và lý thuyết là sự trùng lặp giúp thực vật thích nghi nhanh hơn với môi trường mới của chúng.
Lupinus, một chi thực vật có hoa, đã xâm chiếm Andes trong một trong những sự kiện đầu cơ nhanh nhất từng được phát hiện, và hơn nữa, nó dường như có nhiều bản sao trong bộ gen của nó hơn là chi có liên quan chặt chẽ nhất, Baptisia.
Và bây giờ là bài toán:
Bộ gen của một thành viên của Lupinus và một thành viên của Baptisia đã được giải trình tự, cung cấp dữ liệu thô về 25.000 gen trong mỗi loài. Bằng cách truy vấn cơ sở dữ liệu về các gen có chức năng đã biết, giờ đây tôi đã có "dự đoán tốt nhất" về chức năng mà gen có thể thực hiện - vì vậy, ví dụ, Gene1298 có thể liên quan đến "chuyển hóa fructose, phản ứng căng thẳng muối, phản ứng căng thẳng lạnh". Tôi muốn biết, nếu có một sự kiện trùng lặp giữa Baptisia và Lupinus, liệu việc mất gen xảy ra ngẫu nhiên hay liệu các gen thực hiện các chức năng cụ thể có nhiều khả năng được giữ hoặc xóa.
Tôi có một kịch bản sẽ xuất ra một bảng như bảng dưới đây. L * là tổng số tất cả các gen Lupinus liên quan đến chức năng. L 1+ là số lượng gen lupinus liên quan đến chức năng có ít nhất một bản sao trùng lặp. Tôi có thể lấy nó để sản xuất L 2+, L 3+, v.v., mặc dù L 1+ là nhóm đáng tin cậy hơn nhiều so với L 2+ do quá trình giải trình tự.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Những gì tôi muốn làm là kiểm tra, đối với từng chức năng gen, liệu có nhiều hay ít gen có bản sao hơn dự kiến hoàn toàn do tình cờ ở Lupinus và Baptisia, và liệu Lupinus có khác với Baptisia về tỷ lệ quan sát được dự kiến hay không.
Điều tốt nhất tôi có cho đến nay
Các nghiên cứu trước đây về các loài khác nhau đã sử dụng Phân tích làm giàu, với Thử nghiệm chính xác của Fisher và hiệu chỉnh FDR cho nhiều lần lấy mẫu, để thực hiện thử nghiệm dự phòng trên mỗi hàng.
Nó sẽ là tốt đẹp để cải thiện về điều này; Tôi không chắc đây có vẻ là cách tốt nhất để làm điều đó.
Glen_b đã đề xuất sử dụng GLM để phân tích dữ liệu; Tôi đã chơi xung quanh với GLM trong JMP8, điều này rất thú vị, nhưng tôi sẽ thừa nhận là không thực sự hiểu chúng.
Điều đó nói rằng, tôi đang cố gắng sử dụng R thay vì bây giờ.
Tôi đang sử dụng cái này để làm gì?
Điều này ban đầu được cho là một phần của dự án nghiên cứu ngắn mà tôi đang làm ở trường đại học, nhưng giờ đã được chuyển sang một dự án chú thích bộ gen khổng lồ. Tại sao? Bởi vì tin sinh học là mát mẻ. Có thể lấy một chuỗi A, T, C và G và sử dụng nó để suy luận thông tin về các sự kiện xảy ra hàng triệu năm trước thật đáng kinh ngạc.
Không cần phải nói, tôi sẽ không cố gắng gửi bất kỳ câu trả lời vui lòng nào được cung cấp như là công việc của riêng tôi. Tôi sẽ rất vui khi bao gồm một xác nhận trong bài báo nếu tôi sử dụng một phương pháp được đề xuất ở đây trong công việc được gửi.