Tukey Median Ba Lan, thuật toán được sử dụng trong quá trình chuẩn hóa RMA của microarrays. Như bạn có thể biết, dữ liệu microarray khá ồn, do đó chúng cần một cách mạnh mẽ hơn để ước tính cường độ của đầu dò có tính đến các quan sát cho tất cả các đầu dò và microarrays. Đây là một mô hình điển hình được sử dụng để bình thường hóa cường độ của các đầu dò trên các mảng.
i = 1 , Lọ , I
Ytôi j= μTôi+ αj+ εtôi j
i = 1 , góc , tôij = 1 , ... , J
Trong đó là cường độ PM biến đổi l o g cho đầu dò i t h trên mảng j t h . ε i j là tiếng ồn xung quanh và họ có thể được giả định tương ứng với tiếng ồn trong hồi quy tuyến tính thông thường. Tuy nhiên, một giả định phân phối trên ε có thể hạn chế, do đó chúng tôi sử dụng Tukey Median Ba Lan để có được ước tính cho ^ μ i và ^ α j . Đây là một cách mạnh mẽ để bình thường hóa giữa các mảng, vì chúng tôi muốn tách tín hiệu, cường độ do đầu dò, từ hiệu ứng mảng,Ytôi jl o gTôit hjt hεtôi jεμTôi^αj^ . Chúng ta có thể thu được tín hiệu bằng cách chuẩn hóa hiệu ứng mảng ^ α j cho tất cả các mảng. Do đó, chúng ta chỉ còn lại các hiệu ứng thăm dò cộng với một số nhiễu ngẫu nhiên.ααj^
Liên kết mà tôi đã trích dẫn trước khi sử dụng đánh bóng trung bình Tukey để ước tính các gen biểu hiện khác biệt hoặc các gen "thú vị" bằng cách xếp hạng theo hiệu ứng thăm dò. Tuy nhiên, bài báo đã khá cũ và có lẽ tại thời điểm đó mọi người vẫn đang cố gắng tìm ra cách phân tích dữ liệu microarray. Giấy phương pháp Bayesian theo kinh nghiệm không tham số của Efron xuất hiện năm 2001, nhưng có lẽ có thể không được sử dụng rộng rãi.
Tuy nhiên, bây giờ chúng tôi hiểu rất nhiều về microarrays (theo thống kê) và khá chắc chắn về phân tích thống kê của họ.
Dữ liệu microarray khá ồn và RMA (sử dụng Median Ba Lan) là một trong những phương pháp chuẩn hóa phổ biến nhất, có thể là do tính đơn giản của nó. Các phương pháp phổ biến và tinh vi khác là: GCRMA, VSN. Điều quan trọng là bình thường hóa vì sự quan tâm là hiệu ứng thăm dò chứ không phải hiệu ứng mảng.
Như bạn mong đợi, phân tích có thể đã được hưởng lợi bằng một số phương pháp tận dụng lợi thế của việc mượn thông tin giữa các gen. Chúng có thể bao gồm, phương pháp Bayes hoặc Bayes theo kinh nghiệm. Có thể là bài báo mà bạn đang đọc đã cũ và những kỹ thuật này chưa xuất hiện cho đến lúc đó.
Về điểm thứ hai của bạn, có lẽ họ đang sửa đổi dữ liệu thử nghiệm. Nhưng, tôi nghĩ rằng, sửa đổi này là vì một lý do tốt hơn, do đó chính đáng. Lý do là
a) Dữ liệu microarray khá ồn. Khi sự quan tâm là hiệu ứng thăm dò, việc chuẩn hóa dữ liệu bằng RMA, GCRMA, VSN, v.v. là cần thiết và có thể tận dụng bất kỳ cấu trúc đặc biệt nào trong dữ liệu là tốt. Nhưng tôi sẽ tránh làm phần thứ hai. Điều này chủ yếu là vì nếu chúng ta không biết trước cấu trúc, tốt hơn là không áp đặt nhiều giả định.
b) Hầu hết các thí nghiệm microarray là thăm dò trong bản chất của chúng, nghĩa là, các nhà nghiên cứu đang cố gắng thu hẹp một vài bộ gen "thú vị" để phân tích hoặc thử nghiệm thêm. Nếu các gen này có tín hiệu mạnh, các sửa đổi như chuẩn hóa sẽ không (về cơ bản) ảnh hưởng đến kết quả cuối cùng.
Do đó, các sửa đổi có thể được biện minh. Nhưng tôi phải nhận xét, làm quá mức các chuẩn hóa có thể dẫn đến kết quả sai.