Ứng dụng kỹ thuật học máy trong nghiên cứu lâm sàng mẫu nhỏ


15

Bạn nghĩ gì về việc áp dụng các kỹ thuật học máy, như Rừng ngẫu nhiên hoặc hồi quy bị phạt (với hình phạt L1 hoặc L2, hoặc kết hợp chúng) trong các nghiên cứu lâm sàng mẫu nhỏ khi mục tiêu là cô lập các dự đoán thú vị trong bối cảnh phân loại? Đây không phải là một câu hỏi về lựa chọn mô hình, tôi cũng không hỏi về cách tìm các ước tính tối ưu về hiệu ứng / tầm quan trọng của biến. Tôi không có kế hoạch thực hiện suy luận mạnh mẽ mà chỉ sử dụng mô hình đa biến, do đó tránh kiểm tra từng yếu tố dự đoán trước kết quả của mối quan tâm và xem xét mối quan hệ của chúng.

Tôi chỉ tự hỏi liệu một cách tiếp cận như vậy đã được áp dụng trong trường hợp cực đoan đặc biệt này, giả sử 20-30 đối tượng có dữ liệu trên 10-15 biến phân loại hoặc liên tục. Nó không phải là chính xác trường hợp và tôi nghĩ rằng vấn đề ở đây có liên quan đến số lượng các lớp học, chúng tôi cố gắng giải thích (mà thường không được cân), và (rất) nhỏ n. Tôi biết về tài liệu khổng lồ về chủ đề này trong bối cảnh tin sinh học, nhưng tôi không tìm thấy bất kỳ tài liệu tham khảo nào liên quan đến nghiên cứu y sinh với các kiểu hình đo tâm lý (ví dụ như trong các câu hỏi về tâm thần kinh).np

Bất kỳ gợi ý hoặc con trỏ đến các giấy tờ có liên quan?

Cập nhật

Tôi sẵn sàng cho bất kỳ giải pháp nào khác để phân tích loại dữ liệu này, ví dụ thuật toán C4.5 hoặc các dẫn xuất của nó, phương pháp quy tắc kết hợp và bất kỳ kỹ thuật khai thác dữ liệu nào để phân loại được giám sát hoặc bán giám sát.


Chỉ cần rõ ràng: câu hỏi của bạn là về kích thước của dữ liệu, không phải về cài đặt, đúng không?
Shane

Chính xác, tôi tự hỏi liệu có bất kỳ tài liệu tham khảo nào về n "nhỏ nhất" không .
chl

Câu trả lời:


7

Tôi chưa từng thấy cái này được sử dụng bên ngoài tin sinh học / máy học, nhưng có lẽ bạn có thể là người đầu tiên :)

Là một đại diện tốt của phương pháp phương pháp mẫu nhỏ từ tin sinh học, hồi quy logistic với chính quy L1 có thể phù hợp khi số lượng tham số theo cấp số nhân của các quan sát, khoảng tin cậy không tiệm cận có thể được tạo ra bằng cách sử dụng các bất đẳng thức kiểu Chernoff (nghĩa là Dudik, (2004) chẳng hạn). Trevor Hastie đã thực hiện một số công việc áp dụng các phương pháp này để xác định các tương tác gen. Trong bài báo dưới đây, ông sử dụng nó để xác định các hiệu ứng đáng kể từ một mô hình với 310.637 thông số có thể điều chỉnh phù hợp với mẫu của 2200 quan sát

"Phân tích hiệp hội trên toàn bộ bộ gen của Lasso đã xử phạt hồi quy logistic." Các tác giả: Hastie, T; Sobel, E; Ngô, T.T; Chen, Y. F; Lange, K Tin sinh học Vol: 25 Số phát hành: 6 ISSN: 1367-4804 Ngày: 03/2009 Trang: 714 - 721

Bài thuyết trình liên quan của Victoria Stodden ( Lựa chọn mô hình với nhiều biến số hơn quan sát )


Vâng, Wu et al. Năm 2009 là một bài báo hay. Tình cờ, tôi đã làm việc trên GWAS và ML trong hai năm qua; bây giờ tôi đang cố gắng quay trở lại các nghiên cứu lâm sàng trong đó hầu hết thời gian chúng ta phải đối phó với các phép đo không hoàn hảo, dữ liệu bị thiếu, và tất nhiên ... rất nhiều biến số thú vị theo quan điểm của nhà vật lý!
chl

BTW, tôi vừa bắt gặp một bài báo khiến tôi nghĩ về câu hỏi này ... rất hiếm khi các bài báo về Machine Learning nói về khoảng tin cậy, nhưng đây là một ngoại lệ đáng chú ý ncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov

nnpnp

Đây là một câu hỏi rất thú vị. Tôi đã thu thập một số trong số này và một số bài viết khác tôi có trong một bài đăng trên blog (hy vọng bạn không phiền). Tôi chắc chắn rằng có một số người khác ở ngoài đó.
Andrew

5

Tôi sẽ có rất ít niềm tin vào tính tổng quát của kết quả phân tích thăm dò với 15 yếu tố dự đoán và cỡ mẫu là 20.

  • Khoảng tin cậy của ước tính tham số sẽ lớn. Ví dụ: khoảng tin cậy 95% trên r = .30 với n = 20 là -0,17 đến 0,66.
  • Các vấn đề có xu hướng phức tạp khi bạn có nhiều yếu tố dự đoán được sử dụng theo cách khám phá và điều khiển dữ liệu.

Trong những trường hợp như vậy, lời khuyên của tôi thường là hạn chế các phân tích đối với các mối quan hệ hai bên. Nếu bạn có một viễn cảnh bay bổng, thì tôi muốn nói rằng những kỳ vọng trước đó của bạn là như nhau nếu không quan trọng hơn dữ liệu.


4

Một nguyên tắc chung là có ít nhất 10 lần số lượng dữ liệu huấn luyện (không nói về bất kỳ dữ liệu kiểm tra / xác nhận nào, v.v.) vì có các tham số có thể điều chỉnh trong phân loại. Hãy nhớ rằng bạn có một vấn đề trong đó bạn không chỉ cần có đủ dữ liệu mà còn có dữ liệu đại diện . Cuối cùng, không có quy tắc hệ thống vì có rất nhiều biến khi đưa ra quyết định này. Như Hastie, Tibshirani và Friedman nói trong Các yếu tố của học thống kê (xem Chương 7):

quá khó để đưa ra một quy tắc chung về bao nhiêu dữ liệu đào tạo là đủ; trong số những thứ khác, điều này phụ thuộc vào tỷ lệ tín hiệu-nhiễu của chức năng cơ bản và độ phức tạp của các mô hình phù hợp với dữ liệu.

Nếu bạn chưa quen với lĩnh vực này, tôi khuyên bạn nên đọc bài viết "Nhận dạng mẫu" ngắn này từ Bách khoa toàn thư về kỹ thuật y sinh để tóm tắt ngắn gọn về một số vấn đề dữ liệu.


Cảm ơn! Tôi có cuốn sách của HỌ và của C. Giám mục (Nhận dạng mẫu và Học máy). Tôi biết rằng một n nhỏ như vậy sẽ dẫn đến hiệp hội giả hoặc không đáng tin cậy (xem bình luận của Jeromy Anglim). Tuy nhiên, thuật toán RF do Breiman triển khai cho phép đối phó với một số tính năng hạn chế mỗi khi cây được trồng (trong trường hợp của tôi, 3 hoặc 4) và mặc dù tỷ lệ lỗi OOB khá cao (nhưng điều này nên được dự kiến), phân tích tầm quan trọng khác nhau khiến tôi kết luận rằng tôi sẽ đi đến kết luận tương tự bằng cách sử dụng các xét nghiệm bivariate (với thử nghiệm hoán vị).
chl

1
Quy tắc ngón tay cái đó chủ yếu áp dụng cho các phương pháp cổ điển như khả năng tối đa hóa thường xuyên của l2, các phương pháp được chuẩn hóa L1 có thể học hiệu quả khi số lượng tham số có thể điều chỉnh theo cấp số nhân của số lượng quan sát (ví dụ, Miroslav Dudik, giấy COLT 2004)
Yaroslav Bulatov

3

Tôi có thể đảm bảo với bạn rằng RF sẽ hoạt động trong trường hợp đó và thước đo tầm quan trọng của nó sẽ khá sâu sắc (vì sẽ không có đuôi lớn của các thuộc tính không quan trọng gây hiểu lầm như trong tiêu chuẩn (n << p) s). Bây giờ tôi không thể nhớ bất kỳ bài báo nào liên quan đến vấn đề tương tự, nhưng tôi sẽ tìm nó.


1
Cảm ơn! Tôi đã tham dự hội nghị EAM-SMABS lần thứ IV vào tháng trước, và một trong những diễn giả đã trình bày một ứng dụng ML trong một nghiên cứu y sinh; thật không may, đây là một nghiên cứu hơi "chuẩn" với N ~ 300 đối tượng và p = 10 người dự đoán. Ông sắp nộp một bài báo cho Thống kê trong Y học . Những gì tôi đang tìm kiếm chỉ là bài viết / tài liệu tham khảo wrt. nghiên cứu lâm sàng tiêu chuẩn với, ví dụ bệnh nhân ngoại trú, trong đó tính tổng quát của kết quả không phải là vấn đề quá lớn.
chl

Bạn đã tìm thấy bất kỳ giấy cuối cùng?
chl

@chl Chưa; nhưng cảm ơn đã nhắc nhở.

Không vội vàng :) Bản thân tôi không tìm thấy điều gì thú vị; có lẽ Pubmed không phải là công cụ tìm kiếm phù hợp cho trường hợp cụ thể này ...
chl

@chl Đó cũng là vấn đề của tôi ở đây. Có vẻ như n << p đã trở thành từ đồng nghĩa với dữ liệu y sinh.

0

Nếu bạn có các đầu vào riêng biệt, tôi đang viết một chương trình để dự đoán các giá trị bị thiếu của đầu vào nhị phân, với các đầu vào trước đó. Bất kỳ danh mục nào, ví dụ "1 trên 6", có thể được chuyển đổi thành các bit nhị phân và nó sẽ hoạt động tốt; Nó sẽ không ảnh hưởng đến nó.

Mục đích của thuật toán tôi đang viết là học nhanh nhất có thể về mặt toán học. Do đó, nó có độ phức tạp không gian và thời gian rất kém (độ phức tạp không gian về O (4 ^ N)!.

Nhưng về cơ bản, bạn có được học tập 1 lần, cho bất kỳ hệ thống nào có trạng thái có thể được biểu thị dưới dạng một vectơ bit. Chẳng hạn, một bộ cộng đầy đủ có 8 trạng thái đầu vào riêng biệt. Thuật toán sẽ học một bộ cộng đầy đủ hoàn hảo chỉ sau 8 mẫu đào tạo riêng biệt. Không chỉ vậy, nhưng sau đó bạn có thể đưa ra câu trả lời và dự đoán câu hỏi, hoặc đưa ra một phần câu trả lời và một phần của câu hỏi và điền vào phần còn lại.

Nếu dữ liệu đầu vào có nhiều bit, nó sẽ được tính toán khá nhiều và tốn nhiều bộ nhớ. Nhưng nếu bạn có rất ít mẫu, - hoặc vì vậy mục tiêu thiết kế là - nó sẽ cung cấp cho bạn gần những dự đoán tốt nhất có thể.

Bạn chỉ cần huấn luyện nó với các vectơ bit, bao gồm một vectơ bit trong đó các bit không xác định. Để có được một dự đoán, bạn cũng chỉ cần cung cấp cho nó một vectơ bit, bit nào không xác định và bit nào bạn muốn dự đoán.

Mã nguồn có sẵn tại đây: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.