Biến tỷ lệ như dữ liệu đếm - đúng hay không?


10

Trong bài báo này (có sẵn miễn phí qua trung tâm PubMed), các tác giả sử dụng hồi quy nhị thức âm tính để mô hình hóa điểm số trên một công cụ sàng lọc 10 mục ghi được 0-40. Thủ tục này giả định dữ liệu đếm, rõ ràng không phải là trường hợp ở đây. Tôi muốn ý kiến ​​của bạn về việc phương pháp này có được chấp nhận hay không, bởi vì đôi khi tôi sử dụng cùng một công cụ hoặc những công cụ tương tự trong công việc của mình. Nếu không, tôi muốn biết nếu có bất kỳ lựa chọn thay thế chấp nhận được. Thêm chi tiết dưới đây:

Thang đo được sử dụng là Kiểm tra nhận dạng rối loạn sử dụng rượu (AUDIT), một bộ câu hỏi gồm 10 mục được thiết kế như một công cụ sàng lọc rối loạn sử dụng rượu và uống rượu độc hại / có hại. Nhạc cụ được chấm từ 0 đến 40 và kết quả thường bị lệch nhiều.

Theo hiểu biết của tôi, sử dụng dữ liệu đếm giả định rằng tất cả các giá trị "được tính" là độc lập với nhau - bệnh nhân đến phòng cấp cứu mỗi ngày, số người tử vong trong một nhóm nhất định, v.v. - tất cả đều độc lập với nhau, v.v. mặc dù phụ thuộc vào các biến cơ bản. Hơn nữa, tôi nghĩ rằng không thể có số lượng tối đa được phép khi sử dụng dữ liệu đếm, mặc dù tôi nghĩ rằng giả định này có thể được nới lỏng khi mức tối đa lý thuyết là rất cao khi so sánh với mức tối đa quan sát được trong dữ liệu?

Khi sử dụng thang đo AUDIT, chúng tôi không có số liệu thực sự. Chúng tôi có 10 mục với tổng điểm tối đa là 40, mặc dù điểm cao đó hiếm khi được nhìn thấy trong thực tế. Điểm số trên các mục tương quan tự nhiên với nhau.

Do đó, các giả định cần thiết để sử dụng dữ liệu đếm bị vi phạm. Nhưng đây có phải là một cách tiếp cận chấp nhận được? Làm thế nào nghiêm trọng là vi phạm của các giả định? Có những trường hợp nhất định theo đó phương pháp này có thể được coi là dễ chấp nhận hơn? Có bất kỳ lựa chọn thay thế nào cho phương pháp này không liên quan đến việc giảm biến tỷ lệ thành các loại không?

Câu trả lời:


4

Công cụ AUDIT thực chất là thang đo Likert. Một bộ câu hỏi (mục Likert), với câu trả lời thường theo thang điểm năm, được thiết kế để đạt được một số hiện tượng cơ bản. Tổng số câu trả lời cho tập hợp các câu hỏi, thang đo Likert, sau đó được sử dụng làm thước đo của hiện tượng cơ bản. Mặc dù các mặt hàng của Likert thường ở mức độ "không đồng ý mạnh mẽ" với "đồng ý mạnh mẽ", nhưng ứng dụng để đo lường xu hướng " A l Alcohol U se D isaries" trong " Tôi làm răng T est" này rất đơn giản.

Như đã lưu ý trong trang Wikipedia thang đo Likert , "Liệu các mục Likert riêng lẻ có thể được coi là dữ liệu cấp độ giữa chừng hay liệu chúng có nên được coi là dữ liệu phân loại theo thứ tự hay không là chủ đề của sự bất đồng đáng kể trong tài liệu, với niềm tin mạnh mẽ về những gì các phương pháp áp dụng nhất. " Tranh chấp này có lẽ bắt nguồn từ hầu hết hơn 80 năm kể từ khi Likert lần đầu tiên đề xuất thang đo: mỗi bước dọc theo thang đo có tương đương, cả trong và giữa các hạng mục tạo nên thang đo không? Vấn đề đã được giải quyết trên Cross xác thực, như trong câu trả lời cho câu hỏi này , một trong những câu hỏi sớm nhất được hỏi trên trang web này.

Nếu bạn chấp nhận ý tưởng rằng thang đo có các bước thống nhất (hoặc đủ gần để thống nhất cho ứng dụng trong tay, có thể tính trung bình bằng cách thêm 10 mục khác nhau, như trong AUDIT), thì có thể có một số cách tiếp cận để phân tích. Một là xem xét phản hồi trên thang đo là một loạt các bước được chọn hoặc không được chọn để di chuyển lên thang đo, với cùng một xác suất di chuyển lên từng bước.

Điều này cho phép người ta nghĩ về " dữ liệu thang đo Likert n điểm như n thử nghiệm từ quy trình nhị thức ", như trong một câu hỏi năm 2010 từ @MikeLawrence. Mặc dù các câu trả lời cho câu hỏi đó không hỗ trợ quá nhiều cho ý tưởng đó, nhưng không khó để nhanh chóng tìm thấy một nghiên cứu năm 2014 đã sử dụng và mở rộng phương pháp này thành công để phân biệt các quần thể phụ với các xác suất nhị thức khác nhau. Mặc dù quy trình nhị thức thường được sử dụng để mô hình hóa dữ liệu đếm, do đó, nó có thể được sử dụng để mô hình số, số đếm, các bước mà một cá nhân thực hiện theo thang đo "Rối loạn sử dụng rượu".

Như @Scortchi đã lưu ý trong câu trả lời cho câu hỏi được liên kết trong đoạn thứ hai, một hạn chế của mô hình nhị thức là nó áp đặt một mối quan hệ cụ thể giữa giá trị trung bình và phương sai của câu trả lời. Các nhị thức tiêu cực để loại bỏ việc mà hạn chế, với sự mất mát của việc giải thích dễ dàng được cung cấp bởi các mô hình nhị thức đơn giản. Trong phân tích, tham số phụ cần phải phù hợp chỉ sử dụng thêm một mức độ tự do. Ngược lại, cố gắng chỉ định các xác suất khác nhau cho mỗi trong số 40 bước của mục Likert và tổng của chúng vào thang đo Likert sẽ rất khó khăn.

Như @MatthewGraves đã lưu ý trong câu trả lời của mình cho câu hỏi này, liệu mô hình nhị thức âm tính có phù hợp hay không được trả lời tốt nhất bằng cách kiểm tra các phần dư. Trong nghiên cứu ban đầu đã phát triển AUDIT, giá trị từ 8 điểm trở lên trên thang điểm 40 có độ đặc hiệu và độ nhạy khá hợp lý để phân biệt những người được chẩn đoán là "sử dụng rượu độc hại hoặc có hại" trên 6 quốc gia khác nhau. Vì vậy, có lẽ một mô hình nhị thức hai dân số dựa trên các nhóm dân số có rủi ro cao và rủi ro thấp, tương tự như nghiên cứu năm 2014 được liên kết ở trên, sẽ tốt hơn.

Những người quan tâm đến AUDIT đặc biệt nên kiểm tra nghiên cứu ban đầu đó. Ví dụ, mặc dù nhu cầu uống nước buổi sáng dường như có thể đo lường một thứ gì đó hoàn toàn khác với tần suất uống, như @SeanEaster phỏng đoán, uống buổi sáng có mối tương quan trung bình có trọng số là 0,73 với thang đo lượng rượu. (Kết quả đó không gây ngạc nhiên cho những người có bạn bị rối loạn sử dụng rượu.) AUDIT dường như là một ví dụ điển hình về sự đánh đổi cần thiết để phát triển một công cụ có thể được sử dụng đáng tin cậy trên nhiều nền văn hóa.


Cảm ơn bạn đã trả lời tốt. Khi xem xét dữ liệu AUDIT của riêng tôi với hơn 20000 cá nhân, hình dạng trông gần giống với phân phối nhị thức âm nên có thể sử dụng giả định phân phối đó, hoặc có thể sử dụng mô hình bán chuẩn? Nếu chúng ta sử dụng phân phối nhị thức bằng cách xem xét các điểm là k thành công trong số 40 thử nghiệm bernoulli, chúng ta sẽ không gặp vấn đề nghiêm trọng với quá mức? Có vẻ như vậy trong dữ liệu của tôi. Quasi-binomial có thể là một thay thế?
JonB

Phần lớn phụ thuộc vào lý do tại sao bạn lập mô hình điểm 0-40 AUDIT và cách giải thích theo kinh nghiệm mà bạn muốn đặt vào kết quả. Nếu tất cả những gì bạn muốn là mối quan hệ của điểm AUDIT với các biến khác, chỉ với việc giải thích hạn chế các giá trị tham số phân phối, thì hãy sử dụng phân phối cung cấp các phần dư được xử lý tốt; đề nghị của bạn là hợp lý. Việc gắn một nhị thức duy nhất vào dữ liệu là có vấn đề, nhưng hỗn hợp 2 nhị thức (nhóm có nguy cơ cao và nhóm rủi ro thấp) với p khác nhau có thể là thông tin. Sử dụng phán đoán của bạn dựa trên kiến ​​thức của bạn về vấn đề này.
EdM

2

Các phân phối nhị thức âm được ưa thích cho các sự kiện rời rạc "lây nhiễm". Một phân phối Poisson được sử dụng khi các sự kiện rời rạc độc lập. Các bản phân phối này cũng khá dễ dàng để cắt bớt, bằng cách thay thế điểm bằng điểm , về cơ bản.x= =40x40

Như một nhận xét chung, các hương vị khác nhau của hồi quy có các giá trị khác nhau cho các tham số (nghĩa là chính quy) và các mô hình nhiễu khác nhau. Hồi quy bình phương tối thiểu tiêu chuẩn có mô hình nhiễu Gaussian, hồi quy nhị thức âm có mô hình nhiễu nhị thức âm, v.v. Thử nghiệm thực sự về việc liệu mô hình hồi quy có phù hợp hay không là tiếng ồn còn lại có phân phối dự kiến ​​hay không.

Vì vậy, bạn có thể áp dụng hồi quy nhị thức âm cho dữ liệu của mình, tính toán phần dư và sau đó vẽ chúng trên biểu đồ xác suất nhị thức âm và nhận biết mô hình có phù hợp hay không. Nếu tiếng ồn được cấu trúc theo một cách khác, thì chúng ta cần tìm kiếm một mô hình tiếng ồn phù hợp với cấu trúc đó chặt chẽ hơn.

Lý do từ mô hình tổng quát đến cấu trúc nhiễu là hữu ích - nếu chúng ta biết dữ liệu là số nhân thay vì phụ gia, chẳng hạn, chúng ta tiếp cận với logic bất thường thay vì thông thường - nhưng nếu mô hình phát sinh dự kiến ​​và cấu trúc nhiễu không đồng ý, đi với dữ liệu, không phải là kỳ vọng.


Thật thú vị, tôi không biết rằng các sự kiện có thể là "truyền nhiễm". Bạn có ý nghĩa gì khi thay thế x = 40 bằng x> = 40, trong thực tế? Làm thế nào để tôi thực hiện một âm mưu xác suất nhị thức âm trong R? Tôi cho rằng bạn không có nghĩa là phần dư âm so với giá trị được trang bị? Bạn có nghĩa là giống như một âm mưu QQ?
JonB

@JonB Giả sử bạn có nhị thức âm với r = 1 và xác suất thành công p = .9. Xác suất sống sót sau 40 thử nghiệm chính xác là 0,148%; xác suất sống sót sau 40 thử nghiệm trở lên là 1,48%. Vì vậy, người ta có thể xác định xác suất được hình thành tốt trên miền [0,40] bằng cách sử dụng nhị thức âm cho [0,39] và sau đó đặt [40] sao cho tổng hợp thành một, vì phân phối nhị thức âm là tốt hình thành là xác suất mà nó 40 hoặc nhiều hơn.
Matthew Graves

@JonB Chính xác, ý tôi là giống như một cốt truyện QQ. Tôi đã không làm điều đó trong R trước đây, nhưng tôi hy vọng liên kết này sẽ giúp ích.
Matthew Graves

1
Tôi đã làm một thí nghiệm trên một số dữ liệu với điểm AUDIT. Khi tạo một biểu đồ qq, tôi cần tạo một vectơ kết quả ngẫu nhiên từ phân phối nhị thức âm. Mu / theta được đưa ra bởi mô hình hồi quy của tôi, nhưng làm thế nào tôi có thể biết "kích thước" để sử dụng là gì? Tôi xin lỗi nếu đây là một câu hỏi dành riêng cho R .. Dù sao, bạn có một tài liệu tham khảo hay không mà tôi có thể đọc thêm về việc áp dụng nhị thức âm (và các phân phối khác) cho các loại thang đo này được xây dựng bằng cách tóm tắt một số mục đo lường của quá trình tương tự?
JonB

Tôi đã làm một số thí nghiệm bổ sung bây giờ. Tôi mô phỏng một tập dữ liệu với hai biến: x và y. 50% là x = 0, 50% là x = 1. Những người x = 0 có xác suất 0,2 cho y = 1 và những người x = 1 có xác suất 0,4 cho y = 1. Sau đó tôi đã chạy một hồi quy logistic và đã xem xét các phần dư. Không nhìn phân phối nhị phân ở tất cả. Trong thực tế, họ (tất nhiên) đảm nhận 4 giá trị cụ thể. Bạn có chắc chắn rằng mô hình dư phải luôn phù hợp với giả định phân phối? Bởi vì trong trường hợp này, nó rõ ràng sai.
JonB
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.