Nếu mục tiêu của tôi là kiểm tra sự thay đổi tuyệt đối của các tỷ lệ, tôi có thể so sánh trực tiếp các tỷ lệ mà không cần chuyển đổi nhật ký không?


7

Các tỷ lệ (ví dụ = / ) thường được sử dụng (ví dụ: thay đổi lần trong biểu hiện mRNA hoặc protein, chỉ số khối cơ thể [BMI], v.v.). Nhiều người khuyên rằng các biến được mã hóa theo tỷ lệ (ví dụ: thay đổi lần) nên được chuyển đổi nhật ký vì chúng bị lệch nhiều về bên phải. Tuy nhiên, tỷ lệ ( / ) là những thay đổi tương đối và phân phối tỷ lệ không bình thường (en.wikipedia.org/wiki/Ratio_distribution). Nếu cả và là lognatural, thì log ( / ) là bình thường (là / lognatural sau khi lấy độ lệch truyền lại vào tài khoản?)ZYXYXXYYXYX

Các so sánh giữa các tỷ lệ chuyển đổi nhật ký là những thay đổi tương đối của những thay đổi tương đối (tức là tỷ lệ). Hơn nữa, sự cần thiết của chuyển đổi nhật ký cho các biến lệch phải ( ) đã được đặt câu hỏi. Ví dụ, một bài báo gần đây ( http://www.ncbi.nlm.nih.gov/pubmed/22806695 ) cảnh báo về việc lạm dụng chuyển đổi nhật ký cho một biến. Một số lời khuyên là log ( ) đảm bảo phân phối bình thường chỉ khi là bất thường. Cụ thể, nó không đảm bảo tính quy tắc ngay cả đối với các biến bị lệch phải. Hơn nữa, tính chống nhật ký của E (log ( )) là giá trị trung bình hình học (GM) của , luôn nhỏ hơn E ( ) và các thử nghiệm về sự khác biệt của E (YYYYYYY ) và GM là khác nhau. Cuối cùng, GM không mạnh hơn cũng như ít có khả năng bị ảnh hưởng bởi các ngoại lệ.

Một bài báo khác ( http://econtent.ooserefe.com/doi/10.1027/1614-2241/a000110 ) cho thấy các kiểm tra t trên các biến thô thực hiện tốt ngay cả đối với các biến phân phối lognormally. Bài báo thứ 3 ( http://link.springer.com/article/10.1023%2FB%3AEEST.0000011364.71236.f8 ) cho thấy hiệu suất của kiểm tra t trên các tỷ lệ và kiểm tra t trên các tỷ lệ chuyển đổi log là tương tự nhau.

Vì vậy, câu hỏi trở thành kết quả của sự quan tâm. Bởi vì log ( ) phải được chuyển đổi ngược lại thành các đơn vị ban đầu để có ý nghĩa và do sai lệch truyền lại, tôi nghĩ rằng các thử nghiệm của E ( ) có ý nghĩa hơn.ZZ

May mắn thay, các thử nghiệm tham số (ví dụ: thử nghiệm t) rất mạnh đối với việc vi phạm giả định về tính quy tắc một khi tính không đồng nhất được tính đến (ví dụ thử nghiệm t của Welch). Ví dụ, bài báo này ( http://www.ncbi.nlm.nih.gov/pubmed/24738055 ) khuyên bạn nên sử dụng ANOVA để kiểm tra sự khác biệt giữa các thay đổi về nếp gấp thô trong quá trình miễn dịch.

Vì vậy, câu hỏi của tôi là: Nếu mục tiêu của tôi là kiểm tra sự thay đổi tuyệt đối của các tỷ lệ, tôi có thể so sánh trực tiếp các tỷ lệ mà không cần chuyển đổi nhật ký không?

Tham khảo: Trong hồi quy tuyến tính, khi nào thì thích hợp để sử dụng nhật ký của một biến độc lập thay vì các giá trị thực tế?


Tui bỏ lỡ điều gì vậy? Nếu và là log-normal, thì chắc chắn cũng là log-normal ...? XYX/Y
M Turgeon

@Turgeon: Có, log (Y / X) là bình thường. Nhưng tôi không chắc liệu Y / X có bất thường hay không khi tính đến độ lệch truyền lại. Tôi nghĩ rằng trang Wikipedia phải giải thích về ý tưởng này.
KuJ

can I compare the ratios directly without log transformation?Trong ít nhất là trường hợp sau đây và ngầm, bạn đang thực hiện "so sánh" các tỷ lệ. Đó là khi bạn tính toánχ2thống kê của một bảng dự phòng. Một cách để đặt công thức của nó làrc[OijGij]N, Ở đâu Oijlà nỗi ám ảnh. tự do trong tế bào vàGijtỷ lệ của nó với tần số dự kiến ​​ở đó. Và, do đó, khi bạn tính khoảng cách bình phương (bình phương) giữa các hàng i và i 'trong bảng, bạn đang tính toán sự khác biệt giữa các tỷ lệ:dii=1/Nc[O.j(GijGij)2].
ttnphns

Câu trả lời:


9

Không chỉ phân phối các tỷ lệ chưa được dịch có hình dạng kỳ lạ không phù hợp với các giả định của phân tích thống kê truyền thống, nhưng không có sự giải thích tốt về sự khác biệt trong hai tỷ lệ. Nếu bạn có thể tìm thấy một ví dụ trong đó sự khác biệt về hai tỷ lệ có ý nghĩa, khi các tỷ lệ không biểu thị tỷ lệ của tổng thể, vui lòng mô tả tình huống như vậy.

Là một biến được sử dụng trong phân tích thống kê, các tỷ lệ có vấn đề quan trọng là các biện pháp bất đối xứng, nghĩa là, vấn đề rất lớn là giá trị nào ở mẫu số. Sự bất đối xứng này làm cho việc thêm hoặc bớt các tỷ lệ gần như vô nghĩa. Tỷ lệ log là đối xứng, và có thể được cộng và trừ.

Người ta có thể dành nhiều thời gian để lo lắng về việc phân phối thống kê kiểm tra có gì hoặc sửa lỗi cho "sự lạ" của phân phối, nhưng điều quan trọng trước tiên là chọn một thước đo hiệu ứng có các đặc tính toán học và thực tế phù hợp. Các tỷ lệ hầu như luôn có nghĩa là được so sánh bằng cách lấy tỷ lệ của tỷ lệ hoặc nhật ký của nó (nghĩa là chênh lệch gấp đôi trong nhật ký của các phép đo ban đầu).


Kính gửi giáo sư Frank Harrell: Cảm ơn bạn đã trả lời tử tế. Tôi đã sửa đổi câu hỏi. Hai ví dụ: 1. BMI không bình thường ( ncbi.nlm.nih.gov/pubmed/26973438 ) và có thể hoặc không thể bất thường. Nếu có, thì log (BMI) là bình thường. Nếu không, thì log (BMI) không bình thường. Tuy nhiên, log (BMI) hiếm khi được sử dụng. 2. Thay đổi lần (Y1 / X, Y2 / X) của protein hoặc gen của hai nhóm thử nghiệm (Y1, Y2) được so sánh với nhóm đối chứng (X). Do đó, sự khác biệt trong hai tỷ lệ là có ý nghĩa nhưng sự khác biệt tương đối không phải vì cả hai nhóm thử nghiệm được chuẩn hóa bằng một điều khiển chung.
KuJ

2
Logic đó không đúng. Giả sử BMI là biến phụ thuộc, nó sẽ hoạt động tốt hơn khi đăng nhập so với khi không đăng nhập, liên quan đến các giả định mô hình tuyến tính, mặc dù tốt hơn là cân nặng mô hình được điều chỉnh theo chiều cao và cân nặng ban đầu. Thực tế là những thay đổi về biểu hiện protein được so sánh không có nghĩa là bạn trừ đi hai lần thay đổi. Biện pháp phù hợp hơn sẽ là lấy tỷ lệ thay đổi lần. Bình thường hóa là một vấn đề khác hoàn toàn. Việc thực hành các bước chuẩn hóa riêng biệt không tốt về mặt thống kê vì nó giả định các điều khiển được đo mà không có lỗi.
Frank Harrell

1. Bạn có nghĩa là GM tốt hơn trung bình số học của các tỷ lệ hoặc thay đổi lần (mặc dù các tỷ lệ hoặc thay đổi lần gấp có thể không bình thường và các cảnh báo được đưa ra bởi bài báo thứ 1)? 2. Bài viết này ( link.springer.com/article/ ( ) cho thấy hiệu suất của kiểm tra t trên các tỷ lệ và kiểm tra t trên các tỷ lệ chuyển đổi log là tương tự nhau. Cảm ơn bạn.
KuJ

1
Bài báo đó là kịch tính không chính xác sau đó. log (Y / X) là toán học một hàm đối xứng và sự phân bố của các tỷ lệ log là nhiều hơn đối xứng hơn sự phân bố của các tỷ lệ.
Frank Harrell

4
Tôi sẽ nhấn mạnh những gì không phải là một phần của lời khuyên tuyệt vời này. Cho dù các tỷ lệ là chính xác hoặc thậm chí xấp xỉ bất thường trước và chính xác hoặc thậm chí gần như bình thường sau khi chuyển đổi không thể dự đoán trước hoặc nói chung, và may mắn thay là khá thứ yếu. Điểm mấu chốt là tỷ lệ của các số dương thường bị sai lệch quá mức cho rằngX<Y bản đồ đến 0<X/Y<1X>Y bản đồ đến X/Y>1việc vẽ các dữ liệu chưa được xử lý, sử dụng chúng trong các mô hình và suy nghĩ về chúng hầu như luôn khó xử hơn nhiều so với làm việc với logarit của chúng.
Nick Cox

6

Câu trả lời từ @FrankHarrell, và các bình luận liên quan từ anh ấy và @NickCox, trả lời câu hỏi một cách đáng ngưỡng mộ. Tôi sẽ thêm rằng sự tập trung ngầm vào hình dạng phân phối thô của các yếu tố dự đoán và các biến kết quả bị đặt sai chỗ; trong mô hình tuyến tính, điều quan trọng là tuyến tính của mối quan hệ của các yếu tố dự đoán với kết quả và phân phối phần dư.

Tôi cũng muốn thêm thông tin về hai bài báo được trích dẫn trong câu hỏi ban đầu có thể giải thích một số nguồn về khó khăn mà OP cảm nhận được. Điều quan trọng là đánh giá các bài viết một cách nghiêm túc, không chỉ chấp nhận chúng vì chúng đã được xuất bản.

Bài viết được trích dẫn về lạm dụng chuyển đổi nhật ký của Feng et al lưu ý đúng một số lạm dụng có thể xảy ra với chuyển đổi nhật ký, nhưng có xu hướng để lại ấn tượng rằng nên tránh chuyển đổi nhật ký thay vì sử dụng thông minh. Ví dụ, bài báo viết:

sử dụng các phép biến đổi nói chung và phép biến đổi nhật ký nói riêng có thể khá khó khăn trong thực tế để đạt được các mục tiêu mong muốn

với những khó khăn bị cáo buộc ghi nhận như:

không có mối quan hệ một-một giữa giá trị trung bình ban đầu và giá trị trung bình của dữ liệu được chuyển đổi nhật ký ... không thể cảm nhận được về mặt khái niệm để so sánh sự biến đổi của dữ liệu với đối tác được chuyển đổi của nó ... so sánh phương tiện của hai mẫu không giống như so sánh các phương tiện của các phiên bản chuyển đổi của họ

và kết luận:

thay vì cố gắng tìm một phân phối và / hoặc chuyển đổi phù hợp để phù hợp với dữ liệu, người ta có thể xem xét từ bỏ mô hình cổ điển này hoàn toàn ...

Tôi không thấy rằng những khó khăn bị cáo buộc được ghi nhận trong bài báo đó cung cấp lý do để tránh sử dụng thông minh logarit hoặc các biến đổi khác. Những người khác đã ghi nhận thiếu sót nghiêm trọng hơn trong bài báo đó. Bland, Altman và Rohlf đã viết một phản hồi trực tiếp, Để bảo vệ các biến đổi logarit . Các phản ứng đầy đủ rõ ràng là phía sau một tường phí, nhưng tôi tin rằng các dấu ngoặc kép sau sẽ tạo nên sử dụng hợp lý:

Tuy nhiên, họ không minh họa bài viết của mình bằng bất kỳ dữ liệu thực tế nào và dường như chủ yếu bỏ qua bối cảnh áp dụng chuyển đổi nhật ký ... Họ cũng trích dẫn ra khỏi bối cảnh những người họ chỉ trích ... Feng et al. cũng nói 'Mặc dù được xác định rõ về mặt thống kê, đại lượng Exp (E (log X)) không có giải thích trực quan và sinh học.' Chúng tôi thấy không có vấn đề trong trực giác liên quan đến nó. Mặc dù biểu thức có vẻ phức tạp, nó chỉ đơn giản là ý nghĩa hình học.

Bland, Altman và Rohlf kết luận:

Chuyển đổi log là một công cụ có giá trị trong phân tích dữ liệu sinh học và lâm sàng. Chúng tôi không nghĩ rằng bất kỳ ai cũng nên nản lòng khi sử dụng nó bởi bài báo gây tranh cãi và gây hiểu lầm này.

Bài báo "khuyên nên sử dụng ANOVA để kiểm tra sự khác biệt giữa các khác biệt về nếp gấp thô (FD) trong phương pháp miễn dịch" đối phó với một số khó khăn kỹ thuật trong việc thực hiện đo mật độ của cái gọi là "blots phương tây" (những khó khăn mà tôi nhận thấy đau đớn) , tuy nhiên, đề xuất gần như hoàn toàn ở cuối bài viết "Xác định giá trị P trung bình và P liên quan cho các bản sao sinh học bằng cách nhập FD từ bước (2) ở trên vào gói phần mềm phân tích thống kê như PRISM hoặc Phân tích CNTT "Dường như không nhận được đánh giá rất quan trọng. (Nó cũng không loại trừ khả năng chuyển đổi các giá trị FD trong phân tích thống kê.)

Một gợi ý sử dụng FD thô thực sự mâu thuẫn với ý tưởng được trình bày trước đó trong bài báo rằng phân tích này là "một phương pháp rất giống với qPCR", hoặc phản ứng chuỗi polymerase định lượng. Phân tích thống kê của qPCR được thực hiện tốt nhất trên các giá trị của "chu kỳ đến ngưỡng" hoặcCtcác giá trị. NhữngCt giá trị có trực tiếp log2mối quan hệ với số lượng ban đầu của chuỗi axit nucleic được phân tích. Lưu ý thêm về định lượng axit nucleic, biểu đồ MA được sử dụng rộng rãi trong phân tích microarray là một biểu đồ Bland-Altman về các phép biến đổi logarit của dữ liệu biểu thức. Khi sai số tỷ lệ thuận với các giá trị quan tâm, phép biến đổi logarit có thể có nhiều ý nghĩa.


Cảm ơn bạn đã giải thích chi tiết của bạn. Câu trả lời của bạn giúp tôi hiểu vấn đề này rõ ràng hơn.
KuJ

Phân tích xuất sắc. Thật đáng ngạc nhiên khi bài báo mà bạn mổ xẻ đã được xuất bản. Nó chứa đầy những lý lẽ và lời khuyên tồi. Làm thế nào để làm việc trên quy mô nhật ký là hoàn toàn cơ bản và thuộc về mỗi văn bản giới thiệu.
Nick Cox

1

Nếu cả hai XY là bình thường với số không có nghĩa, sau đó tỷ lệ X/Y theo một phân phối Cauchy với mật độ

p(x)=1πγγ2(xx0)2+γ2

Ở đâu x0 là tham số vị trí, là loại thước đo tính trung tâm của khối lượng và γnửa chiều rộng, là loại độ lệch chuẩn cho Cauchy. Nó không có ý nghĩa, không có phương sai và không có khoảnh khắc cao hơn.


Nếu X bằng 0, thì Y / X không xác định.
KuJ

1
@KuJ Kể từ khi XYlà biến ngẫu nhiên, xác suất một trong hai sẽ chính xác bằng 0 là 0.
horaceT

Nếu nó không có ý nghĩa, không có phương sai và không có thời điểm cao hơn, làm thế nào chúng ta có thể làm các bài kiểm tra thống kê?
KuJ

1
@KuJ Chính xác câu hỏi tương tự đã được hỏi. Xem số liệu thống kê.stackexchange.com/questions / 172101 / Google
horaceT
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.