Làm sạch dữ liệu có thể làm xấu đi kết quả phân tích thống kê?


17

Sự gia tăng số lượng các trường hợp và tử vong xảy ra trong dịch bệnh (số lượng tăng đột ngột) do sự lưu hành vi-rút (như Vi-rút West Nile ở Hoa Kỳ năm 2002) hoặc giảm sức đề kháng của người hoặc nhiễm bẩn thực phẩm hoặc nước hoặc tăng số lượng muỗi. Những dịch bệnh này sẽ xuất hiện dưới dạng ngoại lệ có thể xảy ra cứ sau 1 đến 5 năm. Bằng cách loại bỏ các ngoại lệ này, chúng tôi sẽ loại bỏ bằng chứng về dịch bệnh tạo thành một phần quan trọng trong dự báo và hiểu bệnh.

Là làm sạch dữ liệu cần thiết trong khi xử lý các ngoại lệ gây ra bởi dịch bệnh?

Nó sẽ cải thiện kết quả hoặc làm xấu đi kết quả phân tích thống kê?

Câu trả lời:


12

Nó thực sự phụ thuộc vào mục đích nghiên cứu của bạn. Theo tôi, có thể có một số:

  1. Bạn muốn hiểu các yếu tố điển hình gây ra các trường hợp và tử vong và không bị ảnh hưởng bởi các giai đoạn dịch bệnh và các yếu tố gây ra dịch bệnh (vì vậy bạn quan tâm đến điển hình không phải là xác suất chính) - trong trường hợp này bạn rõ ràng cần phải loại bỏ dịch bệnh các giai đoạn từ dữ liệu, vì chúng nhằm mục đích nghiên cứu các ngoại lệ cho đến những gì bạn muốn kết luận
  2. Bạn có thể muốn bao gồm các thay đổi dịch bệnh vào các mô hình của mình (ví dụ: các mô hình chuyển đổi chế độ, mọi liên kết tốt và đề xuất mô hình từ cộng đồng đều được chào đón ở đây), vì bạn muốn biết xác suất xảy ra thời gian dịch bệnh (và cũng mất bao lâu nó sẽ kéo dài), để kiểm tra tính ổn định và dự báo - trong trường hợp này, bạn không loại trừ các giai đoạn dịch bệnh, nhưng tìm kiếm các mô hình phức tạp hơn thay vì sử dụng công cụ đo kinh tế lượng búa hoặc một cái gì đó tương tựÔiLS
  3. Mục tiêu chủ yếu của bạn là phát hiện các đợt dịch bệnh và theo dõi chúng trong thời gian thực - đó là một lĩnh vực đặc biệt về kinh tế lượng, một số đồng nghiệp của tôi đang làm việc tại Đại học Vilnius (chắc chắn, bạn muốn có nhiều quan sát dịch bệnh để đối phó )

Vì vậy, nếu mục tiêu chủ yếu của bạn là 2, việc xóa dữ liệu sẽ gây ra kết luận sai về dự báo trong tương lai, tức là hiệu suất dự báo không chính xác. Cũng đúng là trường hợp thứ 2 không nhất thiết phải đưa ra dự báo tốt hơn, nhưng ít nhất bạn có thể đưa ra kết luận về xác suất của thời kỳ dịch và độ dài của chúng. Điều này cực kỳ quan trọng đối với các nhà toán học chuyên gia tính toán, vì vậy có thể bạn là người?


Câu trả lời tuyệt vời và đơn giản. Bạn có một kiến ​​thức đáng giá ở độ tuổi trẻ.
DrWho

15

Cá nhân tôi sẽ không gọi đây là "làm sạch dữ liệu". Tôi nghĩ về việc làm sạch dữ liệu theo nghĩa chỉnh sửa dữ liệu - làm sạch sự không nhất quán trong bộ dữ liệu (ví dụ: một bản ghi đã báo cáo tuổi 1000 hoặc một người 4 tuổi là cha mẹ đơn thân, v.v.).

Sự hiện diện của một hiệu ứng thực trong dữ liệu của bạn không làm cho nó trở nên "lộn xộn" (ngược lại, sự hiện diện của các hiệu ứng thực sự sẽ làm cho nó trở nên phong phú) - mặc dù nó có thể làm cho nhiệm vụ toán học của bạn tham gia nhiều hơn. Tôi sẽ đề nghị rằng dữ liệu sẽ được "làm sạch" theo cách này nếu đó là cách khả thi duy nhất để có được một dự đoán. Nếu có một cách khả thi mà không vứt bỏ thông tin, thì hãy sử dụng thông tin đó.

Có vẻ như bạn có thể được hưởng lợi từ một số loại phân tích theo chu kỳ, với điều kiện bạn nói rằng hiệu ứng này xuất hiện định kỳ (giống như một "chu kỳ kinh doanh").

Theo quan điểm của tôi, nếu bạn đang xem dự báo một cái gì đó, thì việc loại bỏ một hiệu ứng thực sự khỏi nguồn đó chỉ có thể làm cho dự đoán của bạn tồi tệ hơn. Điều này là do bạn đã "vứt bỏ" chính những thông tin mà bạn muốn dự đoán một cách hiệu quả!

Điểm khác là có thể khó xác định bao nhiêu ca tử vong là do dịch bệnh, và mức độ gây ra bởi các biến động thông thường.

Theo thuật ngữ thống kê, dịch bệnh có vẻ như vậy, theo quan điểm của bạn, nó là một "phiền toái" cho những gì bạn thực sự muốn phân tích. Vì vậy, bạn không đặc biệt quan tâm đến nó, nhưng bạn cần bằng cách nào đó giải thích nó trong phân tích của bạn. Một cách "nhanh và bẩn" để thực hiện việc này trong cài đặt hồi quy là bao gồm một chỉ báo cho các năm / giai đoạn dịch như một biến hồi quy. Điều này sẽ cung cấp cho bạn một ước tính trung bình về ảnh hưởng của dịch bệnh (và mặc nhiên giả định rằng ảnh hưởng là như nhau đối với mỗi dịch). Tuy nhiên, phương pháp này chỉ hoạt động để mô tả hiệu ứng, bởi vì trong dự báo, biến hồi quy của bạn không xác định (bạn không biết giai đoạn nào trong tương lai sẽ là dịch bệnh).

Một cách khác để giải thích cho dịch là sử dụng mô hình hỗn hợp với hai thành phần: một mô hình cho phần dịch và một mô hình cho phần "thông thường". Mô hình sau đó tiến hành theo hai bước: 1) phân loại một giai đoạn là dịch hoặc bình thường, sau đó 2) áp dụng mô hình mà nó được phân loại.


(+1) đề xuất tốt đẹp, mặc dù nhiều thủ thuật không bẩn thỉu hơn có thể có thể.
Dmitrij Celov

+1; Đối với hậu thế, tôi muốn đưa ra nhận xét sau: Bạn nêu rõ "xóa hiệu ứng chính hãng ... chỉ có thể làm cho dự đoán của bạn tệ hơn". Trong bối cảnh, bạn rõ ràng đúng, tuy nhiên, trong trường hợp chung, điều này không nhất thiết đúng. (Tôi đang nghĩ về 'sự đánh đổi sai lệch thiên vị', một vấn đề lớn trong mô hình dự đoán.) Một lần nữa, tôi nghĩ rằng bạn đang ở đây, và tôi biết bạn biết về sự đánh đổi sai lệch; Tôi muốn đề cập đến nó cho bất kỳ ai gặp câu trả lời này trong tương lai và có thể hiểu sai câu nói đó.
gung - Tái lập Monica

5

Để cho bạn một câu trả lời chung cho câu hỏi của bạn, hãy để tôi nói một trong những người quản lý chung cũ của tôi: cơ hội nghiên cứu được tìm thấy trong các ngoại lệ của mô hình bạn đang phù hợp.

Tình huống tương tự như thí nghiệm đã thực hiện Robert Millikan của tôi trong việc xác định điện tích của một electron. Nhiều thập kỷ sau khi giành giải thưởng Nobel cho thí nghiệm của mình, các ghi chú của ông đã được kiểm tra và người ta thấy rằng ông đã ném ra một số lượng lớn các điểm dữ liệu vì họ không đồng ý với kết quả mà ông đang tìm kiếm. Đó có phải là khoa học xấu?

Nếu bạn tìm thấy một vài ngoại lệ, thì có thể chúng là do "sự suy giảm thống kê". Tuy nhiên, nếu bạn tìm thấy nhiều hơn một số ngoại lệ, bạn cần khám phá dữ liệu của mình chặt chẽ hơn. Nếu bạn không thể quy kết một nguyên nhân cho sự suy giảm, thì bạn không hiểu quy trình và một mô hình thống kê sẽ không giải quyết được vấn đề của bạn. Mục đích của một mô hình là tóm tắt một quy trình, mô hình sẽ không tóm tắt một cách kỳ diệu một quy trình mà người thực nghiệm không hiểu.


Đó là xu hướng của con người. Robert Millikan cũng không ngoại lệ. Tôi rất vui vì rất nhiều điều mới đã được khai sáng và triết lý đằng sau một mô hình thống kê được nhấn mạnh.
DrWho

5

Vai trò của "làm sạch dữ liệu" là xác định khi nào "luật (mô hình) của chúng tôi không hoạt động". Điều chỉnh cho Outliers hoặc các điểm dữ liệu bất thường phục vụ để cho phép chúng tôi có được "ước tính mạnh mẽ" về các tham số trong mô hình hiện tại mà chúng tôi đang giải trí. Các "ngoại lệ" này nếu không được xử lý cho phép làm biến dạng không mong muốn trong các tham số mô hình vì ước tính được "điều khiển để giải thích các điểm dữ liệu này" "không hoạt động theo mô hình giả định của chúng tôi". Nói cách khác, có rất nhiều sự hoàn vốn về mặt giải thích Sum of Squares bằng cách tập trung vào các "baddies". Các điểm được xác định theo kinh nghiệm cần được làm sạch cần được xem xét kỹ lưỡng để có khả năng phát triển / đề xuất các yếu tố nguyên nhân không có trong mô hình hiện tại.

Làm thế nào để đánh giá hiệu quả can thiệp ở một tiểu bang so với một tiểu bang khác bằng tỷ lệ tử vong hàng năm?

Làm khoa học là tìm kiếm các mẫu lặp đi lặp lại.

Để phát hiện sự bất thường là xác định các giá trị không tuân theo các mẫu lặp đi lặp lại. Làm thế nào khác bạn sẽ biết rằng một điểm đã vi phạm mô hình đó? Trong thực tế, quá trình phát triển, hiểu, tìm và kiểm tra các ngoại lệ phải được lặp đi lặp lại. Đây không phải là một suy nghĩ mới.

Sir Frances Bacon, viết trên Novum Organum khoảng 400 năm trước cho biết: Lỗi Lỗi về Tự nhiên, Thể thao và Quái vật sửa chữa sự hiểu biết liên quan đến những điều thông thường, và tiết lộ các hình thức chung. Vì ai biết cách tự nhiên sẽ dễ dàng nhận thấy những sai lệch của cô ấy; và mặt khác, bất cứ ai biết về di truyền sẽ mô tả chính xác hơn về cách của cô ấy.

Chúng tôi thay đổi các quy tắc của chúng tôi bằng cách quan sát khi các quy tắc hiện tại thất bại.

Nếu thực sự các ngoại lệ được xác định là tất cả các xung và có hiệu ứng (kích thước) tương tự thì chúng tôi đề xuất những điều sau đây (trích từ một poster khác)

"Một cách" nhanh và bẩn "để thực hiện điều này trong cài đặt hồi quy là bao gồm một chỉ báo cho các năm / giai đoạn dịch như một biến hồi quy. Điều này sẽ cho bạn ước tính trung bình về ảnh hưởng của dịch bệnh (và mặc nhiên giả định ảnh hưởng là Tuy nhiên, cách tiếp cận này chỉ có tác dụng để mô tả hiệu ứng, bởi vì trong dự báo, biến hồi quy của bạn không xác định (bạn không biết giai đoạn nào trong tương lai sẽ là dịch). "

Điều này nếu khóa học yêu cầu các dị thường riêng lẻ (năm xung) có tác dụng tương tự. Nếu chúng khác nhau thì một biến portmanteau được mô tả ở trên sẽ không chính xác.


@IrishStat: Giải thích tuyệt vời và một trích dẫn đáng nhớ. Bạn giữ vững thâm niên và chuyên môn của bạn. Bạn có thể vui lòng mở rộng tuyên bố "kiến thức chờ đợi để được khám phá" của bạn với tài liệu tham khảo cho câu hỏi trước đây của tôi stats.stackexchange.com/questions/8358/...
DrWho

1
@DrWHO: Việc xác định LEVEL SHift vào năm 2014 đã khắc phục một âm mưu còn sót lại trông rất tệ là một ví dụ về "kiến thức đang chờ được khám phá" khi nó tiết lộ sự chậm trễ rõ ràng giữa ngày thay đổi chính sách và ngày thực hiện / thực hiện đầy đủ. tuyên bố rằng một sự thay đổi cấp độ (bước) vĩnh viễn đã được thực hiện đầy đủ vào năm 2004 (năm 11/17) phản ánh ngày thực tế trong đó như ngày de jure là một vài năm trước đó.
IrishStat

@IrishStat: Cảm ơn bạn đã làm rõ. Rất khó để thuyết phục các nhà hoạch định chính sách, bác sĩ và cộng đồng rằng một phương pháp điều trị cụ thể có thể có những thay đổi mạnh mẽ trong kết quả bệnh. Phải mất nhiều thập kỷ. Sự thay đổi cấp độ này đã được nhìn thấy trong năm 2004 phản ánh sự chậm trễ trong việc chấp nhận một cái gì đó mới. Có phải tốt hơn là để lại sự thay đổi Cấp độ hoặc coi nó là ngoại lệ cho các tính toán về Tỷ lệ tử vong trong trường hợp của Trạng thái 1 trong khi xử lý các số liệu thống kê câu hỏi.stackexchange.com/questions / 8353 / từ
DrWho

1
Nhận xét của tôi ở trên đáng lẽ phải là LEVEL SHift vào năm 2004. Xin lỗi về sự nhầm lẫn.
AilenStat

1
@DrWHO: Trả lời câu hỏi của bạn "Tốt hơn hết là bạn nên thay đổi Cấp độ hoặc coi đó là ngoại lệ cho các tính toán Tỷ lệ Tử vong Trường hợp của Trạng thái 1 trong khi xử lý câu hỏi". Nếu bạn không đối xử với nó thì người ta có thể nói đơn giản là STATE1 có Thay đổi cấp độ thay đổi vào năm 2004 trong khi STATE2 không vì thế mà chúng khác nhau nhưng người ta không thể đặt xác suất cho tuyên bố đó. Sau khi xử lý STATE1 cho Dịch chuyển cấp, người ta đã bình thường hóa dữ liệu để thay đổi trạng thái vào năm 2004. Dữ liệu đã được chuẩn hóa (dữ liệu đã được làm sạch) có thể được so sánh với dữ liệu đã chuẩn hóa của STATE2 mà không mất tính tổng quát.
IrishStat

5

Một trong những phương pháp được sử dụng phổ biến nhất để tìm dịch bệnh trong dữ liệu hồi cứu thực ra tìm kiếm các ngoại lệ - ví dụ, nhiều nhà nghiên cứu về cúm chủ yếu tập trung vào phần dư của các mô hình được trang bị của họ, chứ không phải là các mô hình, để xem những nơi "ngày" trong, hết ngày "dự đoán của mô hình thất bại - một trong những cách mà mô hình có thể thất bại là với sự xuất hiện của một dịch bệnh.

Tuy nhiên, điều bắt buộc là bạn phải phân biệt giữa việc săn lùng các ngoại lệ trong kết quả của mình - có lẽ không phải là ý tưởng tuyệt vời nhất - và điều mà hầu hết mọi người gọi là "làm sạch dữ liệu". Ở đây, bạn đang tìm kiếm các ngoại lệ không phải vì chúng đại diện cho một vấn đề thống kê, mà bởi vì chúng làm tăng các vấn đề về chất lượng dữ liệu.

Ví dụ, trong một tập dữ liệu tôi có, có một biến để khởi phát bệnh. Đối với một chủ đề, ngày này là vào tháng 11 năm 1929. Tôi có nghĩ điều này là đúng không? Không. Điều này cho thấy vấn đề về chất lượng dữ liệu cần được khắc phục - trong trường hợp này là sửa ngày dựa trên thông tin khác về chủ đề. Loại làm sạch dữ liệu này sẽ tích cực cải thiện chất lượng kết quả thống kê của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.