Sử dụng ANOVA trên tỷ lệ phần trăm?


13

Tôi có một bảng có bốn nhóm (4 nhóm BMI) là biến độc lập (yếu tố). Tôi có một biến phụ thuộc là "tỷ lệ mẹ hút thuốc trong thai kỳ".

Được phép sử dụng ANOVA cho việc này hay tôi phải sử dụng chi-vuông hoặc một số thử nghiệm khác?

Câu trả lời:


21

Có một sự khác biệt giữa việc có một biến nhị phân là biến phụ thuộc của bạn và có tỷ lệ là biến phụ thuộc của bạn.

  • Biến phụ thuộc nhị phân :

    • Điều này nghe có vẻ như những gì bạn có. (nghĩa là mỗi người mẹ đều hút thuốc hoặc không hút thuốc)
    • Trong trường hợp này tôi sẽ không sử dụng ANOVA. Hồi quy logistic với một số dạng mã hóa (có lẽ là mã hóa giả) cho biến dự báo phân loại là lựa chọn rõ ràng nếu bạn đang khái niệm biến nhị phân là biến phụ thuộc (nếu không bạn có thể thực hiện chi bình phương).
  • Tỷ lệ là biến phụ thuộc :

    • Điều này không giống như những gì bạn có. (nghĩa là bạn không có dữ liệu về tỷ lệ tổng thời gian thức dậy mà người mẹ hút thuốc trong khi mang thai trong mẫu phụ nữ mang thai hút thuốc).
    • Trong trường hợp này, ANOVA và các phương pháp mô hình tuyến tính tiêu chuẩn nói chung có thể hoặc không hợp lý cho mục đích của bạn. Xem câu trả lời của @Ben Bolker để thảo luận về các vấn đề.

Đối với biến phụ thuộc nhị phân, trong trường hợp tôi chỉ có dữ liệu tóm tắt cho tỷ lệ nhị phân (nghĩa là # trong các nhóm A, B và C và # thành công trong nhóm A, B và C), chứ không phải dữ liệu thô thực tế, làm thế nào chúng ta có thể sử dụng hồi quy logistic? Tôi chỉ quen với việc sử dụng nó với dữ liệu thô.
Bryan

15

Nó phụ thuộc vào mức độ đóng của các câu trả lời trong các nhóm khác nhau đến 0 hoặc 100%. Nếu có rất nhiều giá trị cực trị (tức là nhiều giá trị được xếp chồng lên 0 hoặc 100%) thì điều này sẽ khó khăn. (Nếu bạn không biết "mẫu số", tức là số lượng đối tượng được tính tỷ lệ phần trăm, thì bạn không thể sử dụng phương pháp tiếp cận bảng dự phòng.) Nếu các giá trị trong các nhóm hợp lý hơn, thì bạn có thể chuyển đổi biến phản ứng (ví dụ biến đổi arcsine-vuông-root hoặc có lẽ là logit cổ điển). Có nhiều cách tiếp cận kiểm tra giả thuyết đồ họa (ưu tiên) và không giả thuyết (ít ưu tiên hơn) để quyết định liệu dữ liệu chuyển đổi của bạn có đáp ứng các giả định của ANOVA một cách đầy đủ (tính đồng nhất của phương sai và tính quy tắc hay không, trước đây quan trọng hơn phương pháp sau). Kiểm tra đồ họa: boxplots (tính đồng nhất của phương sai) và các ô QQ (tính quy tắc) [cái sau nên được thực hiện trong các nhóm, hoặc trên phần dư]. Các thử nghiệm giả thuyết Null: ví dụ: thử nghiệm Bartlett hoặc Fligner (tính đồng nhất của phương sai), Shapiro-Wilk, Jarque-Bera, v.v.


11

Bạn cần có dữ liệu thô, sao cho biến phản hồi là 0/1 (không hút thuốc, hút thuốc). Sau đó, bạn có thể sử dụng hồi quy logistic nhị phân. Nó không đúng để nhóm BMI thành các khoảng. Các điểm cắt không chính xác, có thể không tồn tại và bạn không chính thức kiểm tra xem BMI có liên quan đến hút thuốc hay không. Bạn hiện đang kiểm tra xem liệu BMI với phần lớn thông tin bị loại bỏ có liên quan đến việc hút thuốc hay không. Bạn sẽ thấy rằng đặc biệt là các khoảng BMI bên ngoài khá không đồng nhất.


2
@Frank - tại sao nó "không đúng" với nhóm BMI? điều này có vẻ hoàn toàn hợp lý, miễn là kết quả được giải thích phù hợp. Bạn cũng có thể đang thử nghiệm, ví dụ, liệu "thiếu cân" "cân nặng khỏe mạnh" "thừa cân" và "béo phì" có liên quan đến hút thuốc hay không, trong đó các thuật ngữ này được xác định bởi các phạm vi của BMI. Tôi thấy không có "sai" ở đây.
xác suất

Tôi tin rằng OP đang làm việc với một bộ dữ liệu hướng dẫn chung và có thể không có BMI thô. Mặc dù nói chung không lý tưởng để phân biệt các hồi quy liên tục nhưng nó không "không chính xác". Nó thậm chí có thể hữu ích để sử dụng điều này khi chúng tôi nghi ngờ các phép đo là ồn ào và không có cách nào khác. Thật vậy, giả thuyết thực sự mà chúng tôi muốn kiểm tra là liệu béo phì có liên quan đến hút thuốc hay không; BMI chỉ là một cách để đo lường béo phì (và có vấn đề từ những gì tôi hiểu).
JMS

4
Ngay cả khi các phép đo ồn, phân tích các biến là liên tục là vượt trội. Phân loại BMI tạo ra nhiều vấn đề hơn các lựa chọn phân tích khác nhau có thể khắc phục. Trong thực tế, các ước tính khi phân loại không còn có một giải thích khoa học. Một đại lượng khoa học là một ý nghĩa bên ngoài thí nghiệm hiện tại. Bạn sẽ thấy rằng các ước tính nhóm (ví dụ: tỷ lệ cược đăng nhập rằng Y = 1 cho các khoảng X cao và thấp) là các chức năng của toàn bộ các chỉ số BMI được quan sát. Ví dụ: nếu bạn thêm các chỉ số BMI cực kỳ cao hoặc cực thấp vào mẫu, "hiệu ứng" sẽ mạnh hơn.
Frank Mitchell

Đối với những người đã cài đặt R và RStudio, một bản trình diễn tương tác có thể được tìm thấy tại biostat.mc.vanderbilt.edu/BioMod - xem phần đánh dấu MỚI màu xanh lá cây. Bạn phải tải tập lệnh vào RStudio và cũng cài đặt gói Hmisc.
Frank Harrell

"Ngay cả khi các phép đo ồn, phân tích các biến là liên tục là vượt trội" Điều này không chính xác (tính tổng quát của nó, đó là - thường là đúng). Ví dụ, hãy tưởng tượng bạn có một hiệp phương sai liên tục trong đó sai số trong phép đo tăng theo cường độ của nó. Tất nhiên, điều tốt nhất để làm là mô hình hóa lỗi, hoặc có được các phép đo tốt hơn, v.v. Nhưng để nói rằng nó không chính xác chỉ đơn giản là một tuyên bố quá mạnh để đưa ra.
JMS

3

Nếu bạn chọn thực hiện ANOVA thông thường trên dữ liệu tỷ lệ, điều quan trọng là phải xác minh giả định về phương sai lỗi đồng nhất. Nếu (như phổ biến với dữ liệu tỷ lệ phần trăm), phương sai lỗi không phải là hằng số, một cách thay thế thực tế hơn là thử hồi quy beta, có thể giải thích cho sự không đồng nhất này trong mô hình. Dưới đây là một bài viết thảo luận về nhiều cách khác nhau để xử lý một biến trả lời là tỷ lệ phần trăm hoặc tỷ lệ: http://www.ime.usp.br/~sferrari/beta.pdf

Nếu bạn sử dụng R, gói betareg có thể hữu ích.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.