Làm thế nào để xử lý dữ liệu đếm (dữ liệu phân loại), khi nó đã được chuyển đổi thành tỷ lệ?


9

Tôi đang làm việc trên dữ liệu nhiễm bệnh và tôi bối rối không biết nên xử lý dữ liệu là "phân loại" hay "liên tục".

  • "Số lượng nhiễm trùng"
    • số trường hợp nhiễm trùng được tìm thấy trong một khoảng thời gian cụ thể, số lượng được tạo ra từ dữ liệu phân loại (tức là số bệnh nhân được gắn thẻ là "bị nhiễm")
  • "Ngày nằm trên giường bệnh nhân"

    • tổng số ngày ở trong phòng bệnh của tất cả các bệnh nhân trong phòng bệnh đó, một lần nữa, số lượng được tạo ra từ dữ liệu phân loại (tức là số bệnh nhân được gắn thẻ là "ở trong khu vực cụ thể đó")
  • "nhiễm trùng trên mỗi ngày bệnh nhân"

    • "số lượng nhiễm trùng" / "ngày nằm trên giường bệnh nhân" cả hai đều là dữ liệu đếm ban đầu, nhưng giờ trở thành một tỷ lệ

Câu hỏi:

  • Tôi có thể sử dụng Chi-Square ở đây để đánh giá xem sự khác biệt về "nhiễm trùng trên mỗi ngày nằm trên giường bệnh nhân" có ý nghĩa thống kê hay không?

Cập nhật

Tôi đã thấy rằng tôi có thể so sánh tỷ lệ mới mắc (hoặc gọi là tỷ lệ nhiễm), nhưng làm một cái gì đó như "chênh lệch tỷ lệ mới mắc" (IRD) hoặc "tỷ lệ tỷ lệ mới mắc" (IRR). (Tôi tìm thấy nó từ đây )

  • Sự khác biệt giữa IRD và t-test là gì?
  • Có bất kỳ kiểm tra thống kê bổ sung cho IRR?

1
Tôi nghĩ hỏi riêng một câu hỏi khác tốt hơn nhiều so với việc cập nhật câu hỏi trước đó của bạn.

Câu trả lời:


4

Đối với tôi nó không hoàn toàn phù hợp để sử dụng một bài kiểm tra chi bình phương ở đây.

Tôi đoán những gì bạn muốn làm là như sau: Bạn có các phường hoặc phương pháp điều trị khác nhau hoặc bất kỳ loại biến danh nghĩa nào khác (nghĩa là các nhóm) phân chia dữ liệu của bạn. Đối với mỗi người trong các nhóm mà bạn thu thập các Đếm Nhiễmngày bệnh nhân giường ngủ để tính nhiễm mỗi ngày giường bệnh nhân . Biết bạn muốn kiểm tra sự khác biệt giữa các nhóm, phải không?

Nếu vậy, một phân tích về phương sai (ANOVA, trong trường hợp có nhiều hơn hai nhóm) hoặc kiểm tra t (trong trường hợp hai nhóm) có thể phù hợp được đưa ra bởi các lý do trong bài của Srikant Vadali (và nếu các giả định về tính đồng nhất của phương sai và kích thước nhóm so sánh cũng được đáp ứng) và beginnerthẻ nên được thêm vào.


7

Tôi không chắc chắn dữ liệu của bạn trông như thế nào, hoặc vấn đề chính xác của bạn là gì, nhưng tôi giả sử bạn có một bảng với các tiêu đề và loại sau:

phường (phân loại), nhiễm trùng (số nguyên), bệnh nhân-ngày-giường (số nguyên hoặc liên tục).

và bạn muốn biết liệu tỷ lệ lây nhiễm có khác nhau về mặt thống kê cho các phường khác nhau không?

Một cách để làm điều này là sử dụng mô hình Poisson:

Nhiễm trùng ~ Poisson (Ngày nằm trên giường bệnh nhân * tỷ lệ nhiễm trùng ở phường)

Điều này có thể đạt được bằng cách sử dụng glm Poisson, với chức năng liên kết nhật ký và nhật ký của ngày bệnh nhân nằm trên giường. Trong R, mã sẽ trông giống như:

glm(infections ~ ward + offset(log(patient-bed-days)), family=poisson())

2

Nếu bạn đang xem xét tiến hành Poisson hoặc hồi quy có liên quan trên dữ liệu này (với biến kết quả là tỷ lệ), hãy nhớ bao gồm một thuật ngữ bù cho những ngày nằm trên giường bệnh vì về mặt kỹ thuật nó sẽ trở thành "phơi nhiễm" với số lượng của bạn.

Tuy nhiên, trong trường hợp đó, bạn cũng có thể muốn xem xét chỉ sử dụng số lượng nhiễm trùng (không phải tỷ lệ) làm biến số phụ thuộc của mình và bao gồm các ngày nằm trên giường bệnh nhân như một đồng biến. Tôi đang làm việc trên một tập dữ liệu có số đếm tương tự so với quyết định tỷ lệ và có vẻ như việc chuyển đổi biến phụ thuộc của bạn thành tỷ lệ dẫn đến giảm độ biến thiên, tăng độ lệch và độ lệch chuẩn lớn hơn tương ứng. Điều này làm cho khó khăn hơn để phát hiện bất kỳ hiệu ứng đáng kể.

Ngoài ra, xem ra nếu dữ liệu của bạn bị cắt ngắn hoặc không bị thổi phồng và thực hiện các điều chỉnh thích hợp.


Tôi nghĩ rằng câu trả lời này liên quan trực tiếp nhất đến câu hỏi trong tiêu đề của bài đăng, "Làm thế nào để xử lý dữ liệu đếm (dữ liệu phân loại), khi nó đã được chuyển đổi thành tỷ lệ?"
N Brouwer

1

Từ quan điểm thuần túy kỹ thuật, bạn không thể vì tỷ lệ "nhiễm trùng trên mỗi ngày nằm trên giường bệnh nhân" của bạn không phải là một biến số liên tục. Ví dụ: một giá trị phi lý sẽ không bao giờ xuất hiện trong tập dữ liệu của bạn. Tuy nhiên, bạn có thể bỏ qua vấn đề kỹ thuật này và làm bất kỳ thử nghiệm nào có thể phù hợp với bối cảnh của bạn. Theo cách tương tự, mức thu nhập là rời rạc nhưng hầu như mọi người đều coi chúng là liên tục.

Nhân tiện, nó không hoàn toàn rõ ràng lý do tại sao bạn muốn làm một hình vuông chi nhưng tôi giả sử có một số bối cảnh lý do tại sao điều đó có ý nghĩa với bạn.


1

Xét nghiệm chi bình phương có vẻ không phù hợp. Như những người khác đã nói, với điều kiện là có một số mức giá hợp lý khác nhau, bạn có thể coi dữ liệu là liên tục và thực hiện hồi quy hoặc ANOVA. Sau đó, bạn sẽ muốn xem xét phân phối của phần dư.


0

Một cách tiến hành là xây dựng các mô hình null khác nhau, mỗi mô hình giả định các yếu tố độc lập với nhau. Giả định độc lập thường làm cho những điều này dễ dàng để xây dựng. Sau đó, mật độ chung dự đoán là sản phẩm của mật độ biên. Ở mức độ dữ liệu thực tế phù hợp với những điều này, bạn biết các yếu tố là độc lập. Nếu chúng lớn hơn hoặc nhỏ hơn dự đoán chung, bạn có thể suy ra chúng cùng thay đổi tích cực hoặc tiêu cực. Hãy cẩn thận để xem xét số lượng quan sát trong từng trường hợp và bạn có thể thực hiện điều đó một cách chính thức bằng cách coi dân số là siêu âm mở rộng. Đây là tất cả theo tinh thần của Thử nghiệm chính xác của Fisher, nhưng Fisher thực sự đã xây dựng nó để các tình huống chung hơn có thể được mô hình hóa. Xem, ví dụ, Phân tích đa biến rời rạc: Lý thuyết và thực hành, của Yvonne M. Giám mục,

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.