Việc sử dụng đánh bóng trung bình để lựa chọn tính năng


9

Trong một bài báo tôi đang đọc gần đây tôi đã bắt gặp một số bit sau trong phần phân tích dữ liệu của họ:

Bảng dữ liệu sau đó được chia thành các mô và các dòng tế bào và hai phụ đề được đánh bóng trung bình riêng biệt (các hàng và cột được điều chỉnh lặp lại để có trung vị 0) trước khi được nối lại thành một bảng duy nhất. Cuối cùng chúng tôi đã chọn cho tập hợp con các gen có biểu hiện thay đổi ít nhất 4 lần so với trung vị trong mẫu này trong ít nhất ba trong số các mẫu được kiểm tra

Tôi phải nói rằng tôi không thực sự làm theo lý do ở đây. Tôi đã tự hỏi nếu bạn có thể giúp tôi trả lời hai câu hỏi sau đây:

  1. Tại sao nó rất mong muốn / hữu ích để điều chỉnh trung vị trong các bộ dữ liệu? Tại sao nó phải được thực hiện riêng cho các loại mẫu khác nhau?

  2. Làm thế nào điều này không sửa đổi dữ liệu thử nghiệm? Đây có phải là một cách đã biết để chọn một số gen / biến từ một tập hợp dữ liệu lớn, hay nó là adhoc?

Cảm ơn,


Bạn có thể vui lòng giải thích về loại dữ liệu mà bạn / họ đang xem không? Tôi nghĩ rằng đánh giá theo những gì bạn đã trích dẫn - với tôi - phương pháp này có vẻ rất đặc biệt.
suncoolsu

@suncoolsu: đó là dữ liệu microarray, nếu bạn quen thuộc với khái niệm này. Nếu không, có lẽ tôi có thể tóm tắt nó như; gen nào được biểu hiện, ở mức độ nào trong các mẫu nghiên cứu. Đây là một lời giải thích tốt hơn: vi.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu Hầu như chắc chắn dữ liệu Phân tích biểu hiện gen.
kriegar

Ok - tôi không chắc chắn, trình tự thế hệ tiếp theo cũng đang trở nên phổ biến.
suncoolsu

Câu trả lời:


10

Tukey Median Ba ​​Lan, thuật toán được sử dụng trong quá trình chuẩn hóa RMA của microarrays. Như bạn có thể biết, dữ liệu microarray khá ồn, do đó chúng cần một cách mạnh mẽ hơn để ước tính cường độ của đầu dò có tính đến các quan sát cho tất cả các đầu dò và microarrays. Đây là một mô hình điển hình được sử dụng để bình thường hóa cường độ của các đầu dò trên các mảng.

i = 1 , Lọ , I

Yij=μi+αj+ϵij
i=1,,Ij=1,,J

Trong đó là cường độ PM biến đổi l o g cho đầu dò i t h trên mảng j t h . ε i j là tiếng ồn xung quanh và họ có thể được giả định tương ứng với tiếng ồn trong hồi quy tuyến tính thông thường. Tuy nhiên, một giả định phân phối trên ε có thể hạn chế, do đó chúng tôi sử dụng Tukey Median Ba Lan để có được ước tính cho ^ μ i^ α j . Đây là một cách mạnh mẽ để bình thường hóa giữa các mảng, vì chúng tôi muốn tách tín hiệu, cường độ do đầu dò, từ hiệu ứng mảng,Yijlogithjthϵijϵμi^αj^ . Chúng ta có thể thu được tín hiệu bằng cách chuẩn hóa hiệu ứng mảng ^ α j cho tất cả các mảng. Do đó, chúng ta chỉ còn lại các hiệu ứng thăm dò cộng với một số nhiễu ngẫu nhiên.ααj^

Liên kết mà tôi đã trích dẫn trước khi sử dụng đánh bóng trung bình Tukey để ước tính các gen biểu hiện khác biệt hoặc các gen "thú vị" bằng cách xếp hạng theo hiệu ứng thăm dò. Tuy nhiên, bài báo đã khá cũ và có lẽ tại thời điểm đó mọi người vẫn đang cố gắng tìm ra cách phân tích dữ liệu microarray. Giấy phương pháp Bayesian theo kinh nghiệm không tham số của Efron xuất hiện năm 2001, nhưng có lẽ có thể không được sử dụng rộng rãi.

Tuy nhiên, bây giờ chúng tôi hiểu rất nhiều về microarrays (theo thống kê) và khá chắc chắn về phân tích thống kê của họ.

Dữ liệu microarray khá ồn và RMA (sử dụng Median Ba ​​Lan) là một trong những phương pháp chuẩn hóa phổ biến nhất, có thể là do tính đơn giản của nó. Các phương pháp phổ biến và tinh vi khác là: GCRMA, VSN. Điều quan trọng là bình thường hóa vì sự quan tâm là hiệu ứng thăm dò chứ không phải hiệu ứng mảng.

Như bạn mong đợi, phân tích có thể đã được hưởng lợi bằng một số phương pháp tận dụng lợi thế của việc mượn thông tin giữa các gen. Chúng có thể bao gồm, phương pháp Bayes hoặc Bayes theo kinh nghiệm. Có thể là bài báo mà bạn đang đọc đã cũ và những kỹ thuật này chưa xuất hiện cho đến lúc đó.

Về điểm thứ hai của bạn, có lẽ họ đang sửa đổi dữ liệu thử nghiệm. Nhưng, tôi nghĩ rằng, sửa đổi này là vì một lý do tốt hơn, do đó chính đáng. Lý do là

a) Dữ liệu microarray khá ồn. Khi sự quan tâm là hiệu ứng thăm dò, việc chuẩn hóa dữ liệu bằng RMA, GCRMA, VSN, v.v. là cần thiết và có thể tận dụng bất kỳ cấu trúc đặc biệt nào trong dữ liệu là tốt. Nhưng tôi sẽ tránh làm phần thứ hai. Điều này chủ yếu là vì nếu chúng ta không biết trước cấu trúc, tốt hơn là không áp đặt nhiều giả định.

b) Hầu hết các thí nghiệm microarray là thăm dò trong bản chất của chúng, nghĩa là, các nhà nghiên cứu đang cố gắng thu hẹp một vài bộ gen "thú vị" để phân tích hoặc thử nghiệm thêm. Nếu các gen này có tín hiệu mạnh, các sửa đổi như chuẩn hóa sẽ không (về cơ bản) ảnh hưởng đến kết quả cuối cùng.

Do đó, các sửa đổi có thể được biện minh. Nhưng tôi phải nhận xét, làm quá mức các chuẩn hóa có thể dẫn đến kết quả sai.


+1 Đây là một câu trả lời tốt hơn nhiều so với nỗ lực của tôi. Cảm ơn.
kriegar

@posedef. Tôi tự hỏi nếu có bất kỳ nhà thống kê liên quan đến phân tích thống kê của bài báo.
suncoolsu

cảm ơn bạn đã trả lời kỹ lưỡng Tôi nghĩ rằng thực tế đây là một bước tiền xử lý không được giải thích rõ (hoặc chỉ giả định là được biết đến nhiều) trong bài báo. Nói về điều này, bài báo được xuất bản năm 2000 (trong Tự nhiên) vì vậy tôi cho rằng họ đã có ít nhất một số nhà thống kê nhìn vào phương pháp của họ, nếu không tham gia viết. Nhưng tất nhiên tôi chỉ có thể suy đoán .. :)
posdef

@posedef. Ok- mát câu trả lời rất nhiều câu hỏi. Năm 2000 là lúc mọi người vẫn đang tìm cách phân tích dữ liệu microarray. FDR không ưa thích hồi đó :-)
suncoolsu

4

Bạn có thể tìm thấy một số manh mối trong trang 4 và 5 của điều này

yi,j=m+ai+bj+ei,j
maibjei,j

maibj

Ưu điểm của việc sử dụng trung vị là sự mạnh mẽ đối với một số lượng nhỏ các ngoại lệ; nhược điểm là bạn đang vứt bỏ thông tin có khả năng hữu ích nếu không có ngoại lệ.


aibjei,j

ni,j=niqj+ei,jlog(ni,j)=log(n)+log(pi)+log(qj)+ei,j

@Henry Thông tin nào được "ném ra" với đánh bóng trung bình khi không có "ngoại lệ" (và chính xác thì bạn có ý gì khi nói "ngoại lệ")? Rốt cuộc, bạn có thể xây dựng lại dữ liệu chính xác bằng phương pháp trung bình lớn, trung bình hàng và cột và phần dư, tất cả đều tạo thành đầu ra của đánh bóng trung bình. Nếu bạn có nghĩa là phần dư bị loại bỏ, thì theo nghĩa nào là "đánh bóng trung bình" (tương đương với OLS) có khác gì về vấn đề này không?
whuber

@whuber: Phần dư được giữ trong cả hai trường hợp. Đánh bóng trung bình tính đến việc quan sát cách xa trung tâm bao xa (theo một nghĩa nào đó, nó cân bằng trọng lượng của phần dư) trong khi đánh bóng trung bình chỉ nhìn vào việc chúng ở trên hay dưới trung tâm (theo một nghĩa nào đó, nó cân bằng số lượng dư). Vì vậy, thông tin trọng lượng không được sử dụng khi sử dụng trung bình làm trung tâm; điều này có thể tốt khi một số trọng lượng / số dư đáng kể không rõ ràng đến mức kết quả cho trung tâm không thể tin cậy được, nhưng liên quan đến việc không sử dụng thông tin nếu không.
Henry

@Henry Nếu bạn có thể khôi phục tất cả dữ liệu gốc từ đánh bóng, thì "thông tin" không được "sử dụng" như thế nào? BTW, đánh bóng trung bình không hành xử như bạn mô tả: phần dư của nó là sự khác biệt về giá trị , không phải trong hàng ngũ của dữ liệu.
whuber

3

Có vẻ như bạn đang đọc một bài báo có một số phân tích biểu hiện khác biệt gen. Đã thực hiện một số nghiên cứu liên quan đến chip microarray, tôi có thể chia sẻ những kiến ​​thức nhỏ (hy vọng chính xác) tôi có về việc sử dụng chất đánh bóng trung bình.

Sử dụng đánh bóng trung bình trong bước tóm tắt của tiền xử lý microarray là một cách tiêu chuẩn để loại bỏ dữ liệu của các ngoại lệ với các chip chỉ thăm dò kết hợp hoàn hảo (ít nhất là đối với RMA).

Đánh bóng trung bình cho dữ liệu microarray là nơi bạn có hiệu ứng chip và hiệu ứng thăm dò như các hàng và cột của bạn:

cho mỗi bộ thăm dò (bao gồm n số của cùng một đầu dò) trên x chip:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

Trong đó iv là giá trị cường độ

Do sự thay đổi của cường độ đầu dò, hầu như tất cả các phân tích dữ liệu microarray đều được xử lý trước bằng cách sử dụng một số loại hiệu chỉnh và chuẩn hóa nền trước khi tóm tắt.

Dưới đây là một số liên kết đến các chủ đề danh sách gửi thư bioC nói về việc sử dụng đánh bóng trung bình so với các phương pháp khác:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Dữ liệu từ các mô và các dòng tế bào thường được phân tích riêng vì khi tế bào được nuôi cấy, biểu hiện của chúng thay đổi đáng kể so với các mẫu mô được thu thập. Nếu không có nhiều giấy hơn, rất khó để nói liệu có xử lý các mẫu riêng biệt hay không là phù hợp.

Chuẩn hóa, hiệu chỉnh nền và các bước tóm tắt trong đường ống phân tích là tất cả các sửa đổi của dữ liệu thử nghiệm, nhưng ở trạng thái chưa được xử lý, hiệu ứng chip, hiệu ứng lô, hiệu ứng xử lý sẽ làm lu mờ bất kỳ tín hiệu nào để phân tích. Các thí nghiệm microarray này tạo ra danh sách các gen là ứng cử viên cho các thí nghiệm tiếp theo (qPCR, v.v.) để xác nhận kết quả.

Theo như ad hoc, hãy hỏi 5 người về sự khác biệt cần thiết để một gen được coi là biểu hiện khác biệt và bạn sẽ đưa ra ít nhất 3 câu trả lời khác nhau.


Cảm ơn các cập nhật về câu trả lời của bạn, tôi nghĩ rằng tôi đang bắt đầu có một ý tưởng bây giờ. Vì vậy, nếu tôi hiểu chính xác, đánh bóng trung bình được sử dụng để đánh giá sự biến đổi kỹ thuật liên quan đến đầu dò và chip? ... trước khi thử nghiệm được tổng hợp tối đa 1 ma trận giữ các giá trị biểu hiện cho các gen trong các điều kiện khác nhau?
posdef

@posedef từ sự hiểu biết của tôi có. Đối với mỗi đầu dò trên một con chip (các đầu dò của cùng một chuỗi), có các đầu dò nằm rải rác trong suốt. plmimagegallery.bmbolstad.com cho một số hình ảnh giả của chip. Ngoài sự biến đổi trong một chip đơn, còn có sự biến đổi giữa các chip. Do tính biến thiên kỹ thuật, các thuật toán được chạy trên các giá trị cường độ thô để thu được một "giá trị biểu thức" duy nhất cho đầu dò. Ma trận của các giá trị này sau đó phù hợp để xác định xem các gen được biểu hiện khác nhau trong các điều kiện khác nhau.
kriegar
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.