Làm thế nào để xử lý dữ liệu không tồn tại (không thiếu)?


11

Tôi chưa bao giờ thực sự tìm thấy bất kỳ văn bản hay ví dụ hay nào về cách xử lý dữ liệu 'không tồn tại' cho các đầu vào cho bất kỳ loại phân loại nào. Tôi đã đọc rất nhiều về dữ liệu bị thiếu nhưng những gì có thể được thực hiện về dữ liệu không thể hoặc không tồn tại liên quan đến các đầu vào đa biến. Tôi hiểu đây là một câu hỏi rất phức tạp và sẽ thay đổi tùy thuộc vào phương pháp đào tạo được sử dụng ...

Ví dụ: nếu cố gắng dự đoán laptime cho một số vận động viên với dữ liệu chính xác tốt. Trong số nhiều đầu vào, các biến có thể có trong số nhiều là:

  1. Biến đầu vào - Người chạy lần đầu (Y / N)
  2. Biến đầu vào - Thời gian trễ trước đó (0 - 500 giây)
  3. Biến đầu vào - Tuổi
  4. Biến đầu vào - Chiều cao. . . nhiều biến đầu vào hơn, v.v.

& Dự đoán đầu ra - Laptime dự đoán (0 - 500 giây)

Một "biến thiếu" cho '2.Preingly laptime' có thể được tính toán theo nhiều cách nhưng '1. Người chạy lần đầu 'sẽ luôn bằng N. Nhưng đối với 'DỮ LIỆU TUYỆT VỜI' cho người chạy lần đầu (trong đó '1. Người chạy lần đầu' = Y) tôi nên đưa ra giá trị / cách xử lý nào cho '2. Laptime trước '?

Ví dụ: gán '2. Laptime trước đó là -99 hoặc 0 có thể làm phân phối đáng kể và làm cho nó trông giống như một người chạy mới đã hoạt động tốt.

Các phương pháp đào tạo hiện tại của tôi đã sử dụng hồi quy Logistic, cây SVM, NN & Quyết định


Tôi nên thêm rằng tôi đã loại bỏ các vận động viên mới từ cả dữ liệu đào tạo và dự đoán vì sự không chắc chắn vốn có nhưng sẽ đánh giá cao bất kỳ phương pháp nào tốt hơn 'Bỏ qua'
osknows

Câu trả lời:


6

Thay vì gán giá trị đặc biệt cho lần chạy trước không tồn tại của vòng chạy trước, chỉ cần sử dụng thuật ngữ tương tác cho thời gian vòng đua trước với nghịch đảo của hình nộm người chạy lần đầu tiên:

Yi=β0+β1FTRi+β2(NFTRi)×PLTi+...

đây

  • Yi là biến đầu vào của bạn,
  • ... là các biến khác của bạn,
  • FTRi là hình nộm cho người chạy lần đầu tiên,
  • PLTi là thời gian vòng đua trước và
  • NFTRi là giả cho người chạy lần đầu không bằng 1, khi và 0 khác.FTRi=0

Sau đó, mô hình cho người chạy lần đầu tiên sẽ là:

Yi=(β0+β1)+...

và cho những người không chạy lần đầu:

Yi=β0+β2PLTi+...

8

Đối với hồi quy logistic phù hợp với khả năng tối đa, miễn là bạn có cả (1) và (2) trong mô hình, thì không có vấn đề gì về giá trị "mặc định" mà bạn đưa ra cho người chạy mới cho (2), ước tính cho (1) sẽ điều chỉnh cho phù hợp.

Ví dụ: đặt là biến chỉ báo cho "là người chạy mới" và là biến "thời gian trễ trước đó tính bằng giây". Sau đó, dự đoán tuyến tính là:X1X2

η=α+β1X1+β2X2+

Nếu mặc định cho là 0, thì công cụ dự đoán tuyến tính cho người chạy mới là:X2

η=α+β1+

trong khi đối với một người chạy hiện có, nó sẽ là:

η=α+β2X2+

Bây giờ giả sử bạn thay đổi mặc định cho từ 0 thành -99. Sau đó, dự đoán tuyến tính cho một người chạy mới bây giờ là:X2

η=α+β199β2+

nhưng đối với một người chạy hiện có, nó sẽ vẫn như vậy. Vì vậy, tất cả những gì bạn đã làm là xác định lại mô hình, sao cho và vì khả năng tối đa là bất biến đối , các ước tính sẽ điều chỉnh tương ứng.β199β2=β1

Tất nhiên, nếu bạn không sử dụng khả năng tối đa (nghĩa là bạn đang sử dụng một số loại hình phạt hoặc trước các tham số), thì bạn sẽ nhận được các giá trị khác nhau trừ khi bạn điều chỉnh hình phạt / trước đó. Và nếu mô hình là phi tuyến tính (ví dụ: cây SVM, NN & Quyết định), thì đối số này hoàn toàn không hoạt động.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.