Câu trả lời:
Có một sự khác biệt giữa việc có một biến nhị phân là biến phụ thuộc của bạn và có tỷ lệ là biến phụ thuộc của bạn.
Biến phụ thuộc nhị phân :
Tỷ lệ là biến phụ thuộc :
Nó phụ thuộc vào mức độ đóng của các câu trả lời trong các nhóm khác nhau đến 0 hoặc 100%. Nếu có rất nhiều giá trị cực trị (tức là nhiều giá trị được xếp chồng lên 0 hoặc 100%) thì điều này sẽ khó khăn. (Nếu bạn không biết "mẫu số", tức là số lượng đối tượng được tính tỷ lệ phần trăm, thì bạn không thể sử dụng phương pháp tiếp cận bảng dự phòng.) Nếu các giá trị trong các nhóm hợp lý hơn, thì bạn có thể chuyển đổi biến phản ứng (ví dụ biến đổi arcsine-vuông-root hoặc có lẽ là logit cổ điển). Có nhiều cách tiếp cận kiểm tra giả thuyết đồ họa (ưu tiên) và không giả thuyết (ít ưu tiên hơn) để quyết định liệu dữ liệu chuyển đổi của bạn có đáp ứng các giả định của ANOVA một cách đầy đủ (tính đồng nhất của phương sai và tính quy tắc hay không, trước đây quan trọng hơn phương pháp sau). Kiểm tra đồ họa: boxplots (tính đồng nhất của phương sai) và các ô QQ (tính quy tắc) [cái sau nên được thực hiện trong các nhóm, hoặc trên phần dư]. Các thử nghiệm giả thuyết Null: ví dụ: thử nghiệm Bartlett hoặc Fligner (tính đồng nhất của phương sai), Shapiro-Wilk, Jarque-Bera, v.v.
Bạn cần có dữ liệu thô, sao cho biến phản hồi là 0/1 (không hút thuốc, hút thuốc). Sau đó, bạn có thể sử dụng hồi quy logistic nhị phân. Nó không đúng để nhóm BMI thành các khoảng. Các điểm cắt không chính xác, có thể không tồn tại và bạn không chính thức kiểm tra xem BMI có liên quan đến hút thuốc hay không. Bạn hiện đang kiểm tra xem liệu BMI với phần lớn thông tin bị loại bỏ có liên quan đến việc hút thuốc hay không. Bạn sẽ thấy rằng đặc biệt là các khoảng BMI bên ngoài khá không đồng nhất.
Nếu bạn chọn thực hiện ANOVA thông thường trên dữ liệu tỷ lệ, điều quan trọng là phải xác minh giả định về phương sai lỗi đồng nhất. Nếu (như phổ biến với dữ liệu tỷ lệ phần trăm), phương sai lỗi không phải là hằng số, một cách thay thế thực tế hơn là thử hồi quy beta, có thể giải thích cho sự không đồng nhất này trong mô hình. Dưới đây là một bài viết thảo luận về nhiều cách khác nhau để xử lý một biến trả lời là tỷ lệ phần trăm hoặc tỷ lệ: http://www.ime.usp.br/~sferrari/beta.pdf
Nếu bạn sử dụng R, gói betareg có thể hữu ích.