Tương quan các biến lâm sàng liên tục và dữ liệu biểu hiện gen


8

Trong các phân tích phân loại SVM (nhân tuyến tính) của một tập hợp dữ liệu biểu hiện gen (~ 400 biến / gen) cho ~ 25 mỗi trường hợp và điều khiển, tôi thấy rằng các phân loại dựa trên biểu hiện gen có các đặc tính hiệu suất rất tốt. Các trường hợp và đối chứng không khác nhau đáng kể đối với một số biến số lâm sàng / nhân khẩu học phân loại và liên tục (theo các xét nghiệm chính xác hoặc t của Fisher), nhưng chúng khác nhau đáng kể theo tuổi.

Có cách nào để chỉ ra rằng các kết quả phân tích phân loại là hoặc không bị ảnh hưởng bởi tuổi tác?

Tôi đang nghĩ đến việc giảm dữ liệu biểu hiện gen thành các thành phần chính và thực hiện phân tích tương quan Spearman của các thành phần so với tuổi.

Đây có phải là một cách tiếp cận hợp lý? Thay phiên, tôi có thể kiểm tra mối tương quan giữa tuổi và giá trị xác suất thành viên lớp thu được trong phân tích SVM.

Cảm ơn.


1
Đây có phải là một nghiên cứu trường hợp kiểm soát? Hoặc đoàn hệ học tập? Tại sao có sự khác biệt về tuổi tác (sơ đồ lấy mẫu? Cơ chế bệnh lý?)? Là tuổi chẩn đoán? Hay đây là một bệnh mãn tính và tuổi là tuổi hiện tại khi lấy mẫu mô để phân tích biểu hiện gen? Là tuổi được biết là có liên quan đến bệnh? Là ảnh hưởng tuổi tác trên biểu hiện gen nhiều hơn ảnh hưởng của thời gian kể từ khi sinh hoặc kể từ khi chẩn đoán? --- Tôi sẽ cần câu trả lời cho những câu hỏi này để xem câu hỏi của bạn nếu "kết quả phân tích phân loại có hoặc không bị ảnh hưởng bởi tuổi tác?" trong quan điểm đúng đắn.
GaBorgulya

Đây là một nghiên cứu hồi cứu về biểu hiện microRNA máu và ung thư phổi. Các trường hợp bị ung thư phổi. Các biện pháp kiểm soát không và được lựa chọn từ dân số bệnh nhân xuất hiện tại phòng khám sàng lọc ung thư phổi thường là do tiền sử hút thuốc. Phù hợp với độ tuổi, giới tính, v.v., không được thực hiện khi chọn trường hợp và điều khiển. Ung thư phổi thường được chẩn đoán sau 45-50 tuổi. Người ta không biết liệu biểu hiện microRNA trong máu có bị ảnh hưởng bởi ung thư phổi hay không, nhưng một số bệnh khác được biết là ảnh hưởng đến biểu hiện.
dùng4045

Ảnh hưởng của tuổi tác lên biểu hiện microRNA trong máu là không rõ. Tuổi trung bình (và độ lệch chuẩn) của các trường hợp và đối chứng của nghiên cứu lần lượt là 71 (7) và 60 (9) y.
user4045

Khi bạn nói "bị ảnh hưởng bởi tuổi tác", chính xác thì bạn có ý gì? Đây là hai khả năng. Một khả năng là microarrays của bạn không chứa bất kỳ dấu hiệu bệnh nào. Tuy nhiên, chúng có chứa thông tin về tuổi tác và vì trong trường hợp của bạn, dân số mắc bệnh và đối chứng ở độ tuổi khác nhau, bạn sẽ ảo tưởng về hiệu suất phân loại tốt. Một khả năng khác là các microarrays có chứa các dấu hiệu bệnh và hơn nữa, các dấu hiệu này chính xác là những gì SVM tập trung vào. Tuy nhiên, vì trong dữ liệu của bạn, độ tuổi khác nhau, vẫn có mối tương quan giữa tuổi và loại.
SheldonCooper

@SheldonCooper: Phải, và tôi muốn biết liệu chúng ta có thể hoặc không thể tìm ra khả năng nào trong hai khả năng đó. Nếu không, chúng ta có thể ước tính gần đúng giá trị bổ sung mà các dấu hiệu gen cung cấp theo tuổi? Trình phân loại SVM có các đặc tính hiệu suất tốt (độ chính xác trong xác nhận chéo nội bộ> 90% và AUC> 0,95). AUC trong phân tích ROC của tuổi là 0,82.
user4045

Câu trả lời:


2

Có ít nhất hai khả năng cho dữ liệu này. Một khả năng là microarrays của bạn không chứa bất kỳ dấu hiệu bệnh nào. Tuy nhiên, chúng có chứa thông tin về tuổi tác và vì trong trường hợp của bạn, dân số mắc bệnh và đối chứng ở độ tuổi khác nhau, bạn sẽ ảo tưởng về hiệu suất phân loại tốt. Một khả năng khác là các microarrays có chứa các dấu hiệu bệnh và hơn nữa, các dấu hiệu này chính xác là những gì SVM tập trung vào.

Có vẻ như các thành phần chính của dữ liệu có thể tương quan với tuổi trong cả hai khả năng này. Trong trường hợp đầu tiên, đó sẽ là vì tuổi tác là những gì dữ liệu thể hiện. Trong trường hợp thứ hai, đó là vì bệnh là những gì dữ liệu thể hiện và chính căn bệnh này có liên quan đến tuổi tác (đối với tập dữ liệu của bạn). Tôi không nghĩ có một cách dễ dàng để xem xét giá trị tương quan và kết luận đó là trường hợp nào.

Tôi có thể nghĩ ra một số cách để đánh giá hiệu quả khác nhau. Một lựa chọn là chia tập huấn luyện của bạn thành các nhóm có độ tuổi bằng nhau. Trong trường hợp này, đối với lứa tuổi 'trẻ', lớp bình thường sẽ có nhiều ví dụ đào tạo hơn lớp bệnh và ngược lại đối với lứa tuổi lớn hơn. Nhưng miễn là có đủ ví dụ, đây không phải là vấn đề. Một lựa chọn khác là làm tương tự với các bộ kiểm tra, tức là xem liệu bộ phân loại có xu hướng nói 'bệnh' thường xuyên hơn cho bệnh nhân lớn tuổi hay không. Cả hai tùy chọn này có thể khó khăn vì bạn không có nhiều ví dụ.

Một lựa chọn nữa là đào tạo hai phân loại. Đầu tiên, tính năng duy nhất sẽ là tuổi. Có vẻ như điều này có AUC là 0,82. Trong lần thứ hai, sẽ có tuổi và dữ liệu microarray. (Có vẻ như hiện tại bạn đang đào tạo một trình phân loại khác chỉ sử dụng dữ liệu microarray và nó cung cấp cho bạn AUC 0.95. Thêm tính năng tuổi rõ ràng có khả năng cải thiện hiệu suất, vì vậy AUC sẽ còn cao hơn.) Thứ nhất, điều này cho thấy tuổi tác không phải là điều duy nhất quan tâm trong dữ liệu này. Dựa trên nhận xét của bạn, sự cải thiện trong AUC là 0,13 trở lên, có vẻ công bằng.


Cảm ơn bạn cho những gợi ý khác nhau. Tôi nghĩ bạn đã đúng khi kiểm tra mối tương quan của tuổi tác với các thành phần chính không cung cấp câu trả lời. Tôi đã thực hiện phân tích đó và có những mối tương quan tốt (Spearman r> 0,5) cho mỗi ba PC đầu tiên (chúng cùng nhau đóng góp tới ~ 55% phương sai). Cũng có mối tương quan tốt giữa tuổi với các giá trị xác suất từ ​​phân tích SVM. Đối với hai tùy chọn đầu tiên mà bạn đề xuất, tôi phải kiểm tra xem có đủ mẫu hay không và làm thế nào (tôi sử dụng LOOCV và 1000 lần lặp Monte Carlo CV với tỷ lệ chia 4: 1 để đào tạo và kiểm tra).
dùng4045

Về ROC sử dụng cả dữ liệu độ tuổi và microarray, tôi sẽ thử nó. Sự gia tăng AUC từ 0,95 (chỉ riêng dữ liệu microarray) sẽ gợi ý rằng dữ liệu biểu hiện có thông tin cụ thể về bệnh không phụ thuộc vào tuổi. Tuy nhiên, việc không có sự gia tăng sẽ không có nghĩa gì vì dữ liệu biểu thức bị ảnh hưởng bởi tuổi tác. Đúng?
user4045

Bạn đã tăng AUC, từ 0,82 cho tuổi chỉ còn 0,95 cho microarray. Đây là những gì quan trọng tôi nghĩ. Nếu bạn nhận được tăng hơn nữa, tuyệt vời. Nếu bạn không được tăng thêm, bạn đúng là nó không có nghĩa gì cả. Phần quan trọng là bạn có mức tăng từ 0,82 đến 0,95.
SheldonCooper

Trong một phân tích mới, với độ tuổi được thêm dưới dạng một biến vào tập dữ liệu biểu thức, AUC tăng ~ 0,04. Tôi đoán người ta không thể kết luận bất cứ điều gì từ điều này.
user4045

Là AUC mới (cho tuổi + microarray) 0,99, hay là 0,86?
SheldonCooper
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.