Làm thế nào để đánh giá độ lặp lại của các kết quả đa biến và phương pháp cụ thể?


8

Phương pháp "A" mô tả các mẫu sinh học bằng cách sử dụng "dấu vân tay" đa biến bao gồm khoảng 30 biến khác nhau. Các biến khác nhau cho thấy phân phối điển hình khác nhau và nhiều trong số chúng tương quan chặt chẽ với nhau. Từ kinh nghiệm trước đây, người ta cho rằng chúng ta không thể chuyển đổi nhiều biến thành phân phối bình thường.

Phương pháp "B" được thiết kế để trở thành phiên bản cải tiến của phương pháp "A" và chúng tôi muốn so sánh độ lặp lại của hai phương thức này. Nếu chúng ta đang xử lý một biến duy nhất, chúng ta sẽ thực hiện các phân tích độc lập của một số mẫu và sử dụng ANOVA để so sánh giữa phương thức với phương sai giữa các phương thức. Nhưng ở đây, chúng tôi đang xử lý các đầu ra đa biến và chúng tôi không muốn thực hiện một phân tích cho mỗi biến. Các phương pháp chính xác cho câu hỏi này là gì?

Nghị quyết

Câu trả lời bởi gui11aume của câu trả lời , cung cấp thông tin hữu ích và có giá trị. Tôi sẽ điều chỉnh "ứng dụng xuôi dòng" từ câu trả lời của gui11aume sau 7 phân tích một chiều theo đề xuất của AdamO.


(Đây là cách tiếp cận của tôi. Xin vui lòng cho tôi biết mức độ hợp pháp của nó.) Còn về việc sử dụng phương pháp giảm kích thước mạnh mẽ để giảm dữ liệu đa biến thành một chiều duy nhất và phân tích nó?
David D

1
David, vấn đề này nghe có vẻ như bạn muốn thực hiện phân rã phương sai về kết quả đa biến nhưng tiêu đề dường như cho thấy bạn đang theo đuổi điều gì khác. Bạn có thể làm rõ? Ngoài ra, bạn có thể nói gì thêm về dữ liệu bạn đang phân tích không?
Macro

David, bạn có thể giải thích rõ ràng hơn những gì bạn có nghĩa là "lặp lại"? Tôi nghi ngờ đó là similart với những gì chúng tôi (lĩnh vực của tôi là phân tích hóa học của các bộ dữ liệu quang phổ [mẫu sinh học]) thường gọi tính ổn định (của sth. Wrt. Sth.), Ví dụ: tính ổn định của các dự đoán hoặc tham số mô hình (hai loại rất khác biệt của ổn định!) wrt. sang các mẫu mới / trao đổi 10% số mẫu, ...
cbeleites không hài lòng với SX

1
Ngoài ra, 30 biến đầu ra có giống nhau (về mặt lý thuyết) cho cả hai phương thức không?
cbeleites không hài lòng với SX

1
Wrt. để giảm kích thước của bạn: bạn sẽ gặp rủi ro khi đo lường nhiều đặc điểm của phương pháp giảm kích thước hơn so với đầu vào của nó. Chắc chắn bạn sẽ mất bất kỳ thông tin trực giao nào với hướng được chụp bởi một chiều được giữ lại.
cbeleites không hài lòng với SX

Câu trả lời:


7

Điều này nhắc nhở tôi về chẩn đoán ung thư, trong đó chữ ký biểu hiện gen cũ được thay thế bằng những cái mới hơn, tất nhiên được cho là tốt hơn. Nhưng làm thế nào để chứng tỏ rằng họ tốt hơn?

Dưới đây là một vài gợi ý để so sánh độ lặp lại của các phương thức.

1. Sử dụng phân tích quán tính đồng (CIA).
CIA nên được quảng cáo nhiều hơn, thật không may, nó không được sử dụng rộng rãi (ví dụ không có trang Wikipedia). CIA là một phương pháp hai bảng hoạt động theo cùng một nguyên tắc như phân tích chính tắc (CA), nhằm tìm kiếm một cặp điểm số tuyến tính với mối tương quan tối đa giữa hai bộ phép đo đa chiều. Ưu điểm của nó so với CA là bạn có thể làm điều đó ngay cả khi bạn có nhiều kích thước hơn các quan sát. Bạn có thể đo cả hai phương thức trên cùng một mẫu để có được hai bảng được ghép gồm 30 cột vànquan sát. Cặp thành phần chính đầu tiên cần được tương quan mạnh (nếu các phương thức thực sự đo lường cùng một thứ). Nếu phương pháp B tốt hơn, phương sai dư phải nhỏ hơn phương sai dư của phương pháp A. Với phương pháp này, bạn giải quyết cả thỏa thuận của phương pháp và sự bất đồng của chúng, mà bạn hiểu là nhiễu.

2. Sử dụng một khoảng cách .
Bạn có thể sử dụng khoảng cách Euclide trong 30 chiều giữa thử nghiệm và kiểm tra lại để đo độ lặp lại của phương pháp. Bạn tạo một mẫu điểm số đó cho từng phương pháp và bạn có thể so sánh các mẫu với thử nghiệm Wilcoxon.

3. Sử dụng ứng dụng xuôi dòng.
Bạn có thể nhận được những dấu vân tay này để đưa ra quyết định, hoặc phân loại bệnh nhân hoặc vật liệu sinh học. Bạn có thể đếm các thỏa thuận bất đồng giữa các thử nghiệm và thử nghiệm lại cho cả hai phương pháp và so sánh chúng với thử nghiệm Wilcoxon.

Phương pháp 3 là đơn giản nhất, nhưng cũng dễ nhất. Ngay cả đối với đầu vào chiều cao, các quyết định thường khá đơn giản. Và tuy nhiên vấn đề phức tạp của chúng tôi là, hãy nhớ rằng thống kê là khoa học của quyết định.

Về câu hỏi trong bình luận của bạn.

Điều gì về việc sử dụng một phương pháp giảm kích thước mạnh mẽ để giảm dữ liệu đa biến thành một chiều duy nhất và phân tích nó?

Tuy nhiên, việc giảm kích thước sẽ mạnh mẽ, có liên quan đến việc mất phương sai. Nếu có một cách để biến dấu vân tay đa biến của bạn thành một điểm số duy nhất nắm bắt gần như toàn bộ phương sai của nó, thì chắc chắn, đây là điều tốt nhất để làm. Nhưng tại sao đầu tiên là dấu vân tay đa biến?

Tôi giả định từ bối cảnh của OP rằng dấu vân tay là đa biến chính xác bởi vì khó có thể giảm kích thước của nó hơn nữa mà không mất thông tin. Trong trường hợp đó, độ lặp lại của chúng trên một điểm duy nhất không phải là một proxy tốt cho độ lặp lại tổng thể, bởi vì bạn có thể bỏ qua phần lớn phương sai (gần 29/30 trong trường hợp xấu nhất).


1. bạn gần như đúng về việc áp dụng bài kiểm tra này. 2. Về khoảng cách Mahalanobis, tôi không hiểu làm thế nào nó có thể được sử dụng để đánh giá độ lặp lại. Bạn có đề xuất tính toán ma trận hiệp phương sai cho tất cả các điểm trong tất cả các phương thức TOGETHER và sau đó so sánh các phương thức bằng cách lấy mẫu MD bằng ma trận đó không? 3. Ứng dụng xuôi dòng thực sự là một lựa chọn có giá trị, tuy nhiên nó sẽ không làm giảm tính chiều
David D

Về điểm 2. bạn nói đúng là khó áp dụng khoảng cách Mahalanobis. Tôi loại bỏ nó khỏi câu trả lời.
gui11aume

@ gui11aume: đầu vào đa biến có thể là đa biến vì đó là dữ liệu đo thô, tức là variates = kênh đo (của một mảng cảm biến, quang phổ kế, ...). Trong trường hợp này, bản chất đa biến xuất phát từ bản chất của phép đo (mặc dù từ một góc độ khác thường giảm chiều nhất định đã được áp dụng trong các hình thức lựa chọn này chip cảm biến hay này đặc biệt dải quang phổ)
cbeleites không hài lòng với SX

@ gui11aume: Cũng sử dụng cách tiếp cận thứ 3 của bạn để so sánh các phân loại. Nhưng: Tôi đã đọc từ câu hỏi và nhận xét về việc giảm kích thước rằng ứng dụng xuôi dòng này (trong thực tế giảm thiểu giảm thiểu mạnh mẽ) có lẽ không có sẵn (hoặc ít nhất là nên tự so sánh 30 biến thể).
cbeleites không hài lòng với SX

@ gui11aume: một sự khác biệt đo lường sự tương tự, nhưng IMHO bạn cũng cần kiểm tra hướng của độ lệch, bị mất bởi khoảng cách.
cbeleites không hài lòng với SX

3

Tôi giả sử từ câu hỏi và nhận xét của bạn rằng 30 biến đầu ra không thể (dễ dàng) hoặc không nên chuyển đổi thành một biến số duy nhất.

Một ý tưởng để xử lý dữ liệu của là bạn có thể thực hiện hồi quy của và ngược lại. Kiến thức bổ sung (ví dụ: phương sai trong tập A tương ứng với phương sai trong tập B) có thể giúp hạn chế mô hình ánh xạ và / hoặc với việc giải thích.X A ( n × p A ) X B ( n × p B ) iiXA(n×pA)XB(n×pB)XA(n×pA)XB(n×pB)ii

Vì vậy, những gì về PCA đa khối (hoặc -PLS) đưa ý tưởng này đi xa hơn? Đối với các phương pháp này, cả dấu vân tay đa biến cho cùng một mẫu (hoặc cùng một cá nhân) được phân tích cùng nhau dưới dạng các biến độc lập, có hoặc không có khối phụ thuộc thứ ba.

R. Brereton: "Hóa học để nhận dạng mẫu" thảo luận về một số kỹ thuật trong chương cuối ("So sánh các mẫu khác nhau") và googling sẽ dẫn bạn đến một số bài báo, cũng giới thiệu. Lưu ý rằng các tình huống của bạn nghe có vẻ tương tự như các vấn đề trong đó các phép đo phổ và di truyền được phân tích cùng nhau (hai ma trận có sự tương ứng theo hàng so với phân tích, ví dụ như chuỗi thời gian trong đó phân tích khối dữ liệu được phân tích).

Đây là một bài báo liên quan đến phân tích đa khối: Sahar Hassani: Phân tích dữ liệu -omics: Công cụ giải đoán và xác thực đồ họa trong các phương pháp đa khối .

Ngoài ra, có thể đây là điểm khởi đầu tốt sang một hướng khác: Hoefsloot et.al., Phân tích dữ liệu nhiều trang: Phân tích thành phần đồng thời ANOVA và Phương pháp liên quan, trong: Phân tích dữ liệu hóa học và hóa học toàn diện (Tôi không có quyền truy cập vào nó , chỉ thấy trừu tượng)


1

30 phân tích một chiều chắc chắn là một lựa chọn và sẽ là một loại phân tích "bảng 2" lý tưởng, trong đó hiệu suất tổng thể được tóm tắt một cách hợp lý. Đây có thể là trường hợp Phương pháp B tạo ra 20 yếu tố đầu tiên với độ chính xác được cải thiện đôi chút trong khi 10 yếu tố cuối cùng có nhiều thay đổi. Bạn có vấn đề suy luận khi sử dụng một không gian được sắp xếp một phần: chắc chắn nếu tất cả 30 yếu tố chính xác hơn trong B, thì B là một phương pháp tốt hơn. Nhưng có khu vực "xám" và với số lượng lớn các yếu tố, nó gần như được đảm bảo để hiển thị trên thực tế.

Nếu mục tiêu của nghiên cứu này là dựa trên một phân tích duy nhất, điều quan trọng là phải xem xét trọng số của từng kết quả và ứng dụng điểm cuối của chúng. Nếu 30 biến này được sử dụng trong phân loại, dự đoán và / hoặc phân cụm dữ liệu quan sát, thì tôi muốn xem xác thực các kết quả này và so sánh A / B trong phân loại (sử dụng thứ gì đó như bảng phân tầng rủi ro hoặc tỷ lệ phần trăm sai lệch) , dự đoán (sử dụng MSE) và phân cụm (sử dụng một cái gì đó như xác nhận chéo). Đây là cách xử lý thích hợp cho vùng màu xám mà bạn không thể nói B tốt hơn về mặt phân tích, nhưng hoạt động tốt hơn nhiều trong thực tế.


1

Tôi sẽ thử một ANOVA đa biến dựa trên phép thử hoán vị ( PERMANOVA ). Một analisis phong chức (dựa trên kết quả phân tích độ dài gradient) cũng có thể giúp đỡ.


1
Trong R có chức năng adonis trong gói Vegan thực hiện ANOVA đa biến hoán vị. Điều này sẽ tạo ra một thử nghiệm thống kê để cho bạn biết liệu phương pháp A có khác với phương pháp B. Gói này xuất phát từ hệ sinh thái thực vật nơi bạn đếm nhiều loài (các biến) trong các ô nhỏ khác nhau. Liên quan đến điều này là AMOVA, phân tích phương sai phân tử , trong đó các biến là dữ liệu phân tử. Đối với điều này, bạn có thể sử dụng gói R ade4, nhưng có phần mềm trực tuyến và miễn phí khác mà bạn có thể tìm thấy tại liên kết.
Jdub

0

Nếu bạn có thể giả sử tính quy tắc đa biến (mà bạn nói là không thể), bạn có thể thực hiện phép thử Hotelling T2 về sự bằng nhau của các vectơ trung bình để xem bạn có thể yêu cầu sự khác biệt giữa các phân phối hay không. Tuy nhiên, mặc dù bạn không thể làm điều đó nhưng về mặt lý thuyết bạn vẫn có thể so sánh các bản phân phối để xem chúng có khác nhau nhiều không. Chia không gian 30 chiều thành các lưới hình chữ nhật. Sử dụng những cái này như thùng 30 chiều. Đếm số lượng vectơ rơi vào mỗi thùng và áp dụng kiểm tra chi bình phương để xem các bản phân phối có giống nhau không. Vấn đề với đề xuất này là nó đòi hỏi phải lựa chọn các thùng một cách thận trọng để che các điểm dữ liệu theo một cách thích hợp. Ngoài ra, lời nguyền về chiều khiến chúng ta khó xác định sự khác biệt giữa các bản phân phối đa biến mà không có số lượng điểm rất lớn trong mỗi nhóm. Tôi nghĩ những gợi ý mà gui11aume đưa ra là hợp lý. Tôi không nghĩ những người khác là. Vì việc so sánh các bản phân phối là không khả thi trong 30 chiều với một mẫu điển hình, một số hình thức so sánh hợp lệ của các vectơ trung bình dường như là phù hợp với tôi.


1
Chào Michael. Bạn có phiền làm rõ những gì bạn đang đề xuất liên quan đến binning? Có vẻ như bạn đang đề xuất tách riêng từng chiều và sau đó phân loại thành các thùng. Nhưng, giả sử chúng ta có hai thùng mỗi chiều, đó là thùng. Điều đó không giống như một ứng cử viên tốt cho bài kiểm tra . Vì vậy, những gì bạn đang đề nghị? χ 2230>109χ2
Đức hồng y

Ngoài ra, theo đề xuất của bạn, không rõ cách thức tạo thùng nên được thực hiện: mỗi thùng có cùng số lượng trường hợp, cùng phạm vi, cùng một phạm vi nhật ký, v.v.?
Boris Gorelik

@cardinal Không có gì tôi nói là xây dựng các thùng hình chữ nhật 30 chiều. Tôi làm bài kiểm tra chi bình phương thông thường để so sánh hai bản phân phối.
Michael R. Chernick

2
Sau khi suy nghĩ nhiều hơn, tôi nghĩ rằng đề xuất của tôi sẽ không hoạt động ở các chiều cao vì (1) mặc dù lựa chọn thùng hợp lý là thực tế ở 1, 2 và có thể 3 chiều, nhưng dường như tôi không xác định được các thùng đó trong 30 chiều có thể được thực hiện (2) vì lời nguyền về chiều, ngay cả khi lựa chọn đó có thể đạt được điểm trong 30 chiều trải rộng đến mức khó có thể phát hiện ra sự khác biệt giữa các bản phân phối mà không có số lượng điểm rất lớn. Vì vậy, hồng y làm cho một số điểm tốt.
Michael R. Chernick

1
Tôi cần phải có được cụ thể hơn; bởi "ứng dụng ngây thơ", ý tôi là người ta không thể đơn giản áp dụng bài kiểm tra tiêu chuẩn ngay lập tức. Ít nhất một số điều chỉnh cho mức độ tự do phải được thực hiện, mặc dù đôi khi xác định mức độ tự do nên là gì không phải là một vấn đề hoàn toàn đơn giản.
Đức hồng y
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.