Bối cảnh: Tôi đang phát triển một hệ thống phân tích dữ liệu lâm sàng để lọc ra những dữ liệu có thể là lỗi chính tả.
Những gì tôi đã làm cho đến nay:
Để định lượng tính hợp lý, nỗ lực của tôi cho đến nay là bình thường hóa dữ liệu và sau đó tính giá trị hợp lý cho điểm p dựa trên khoảng cách của nó với các điểm dữ liệu đã biết trong tập D (= tập huấn luyện):
Với định lượng đó, sau đó tôi có thể chọn ngưỡng phân tách dữ liệu hợp lý khỏi dữ liệu hợp lý. Tôi đang sử dụng python / numpy.
Vấn đề của tôi:
- Thuật toán này không thể phát hiện các kích thước độc lập. Lý tưởng nhất là tôi có thể đưa bất cứ điều gì tôi biết về bản ghi vào thuật toán và để nó tự tìm ra rằng chiều X không ảnh hưởng đến tính hợp lý của bản ghi.
- Thuật toán không thực sự hoạt động đối với các giá trị rời rạc như booleans hoặc chọn đầu vào. Chúng có thể được ánh xạ trên các giá trị liên tục, nhưng điều ngược lại là Chọn 1 gần với Chọn 2 hơn là Chọn 3.
Câu hỏi:
Những loại thuật toán nào tôi nên xem xét cho nhiệm vụ này? Dường như có rất nhiều lựa chọn bao gồm các phương pháp thống kê, dựa trên cụm và dựa trên lân cận gần nhất. Ngoài ra, tôi gặp khó khăn khi tìm các bài báo liên quan đến việc phát hiện sự bất thường của sự phức tạp này.
Bất kỳ lời khuyên được đánh giá cao.
[Chỉnh sửa] Ví dụ:
Giả sử dữ liệu bao gồm Chiều cao của một người, Trọng lượng của một người và Dấu thời gian - vì vậy đó là Dữ liệu 3D. Trọng lượng và Chiều cao tương quan, nhưng dấu thời gian là hoàn toàn độc lập. Nếu tôi chỉ xem xét khoảng cách euclide, tôi sẽ phải chọn một ngưỡng nhỏ để phù hợp với hầu hết dữ liệu xác thực chéo của mình. Lý tưởng nhất là thuật toán sẽ bỏ qua kích thước dấu thời gian, bởi vì nó không liên quan để xác định xem một bản ghi có hợp lý hay không, bởi vì dấu thời gian không tương quan với các kích thước khác theo bất kỳ cách nào. Bất kỳ dấu thời gian là hợp lý.
Mặt khác, người ta có thể tạo nên các ví dụ trong đó dấu thời gian có vấn đề. Ví dụ: giá trị Y cho tính năng X có thể hợp lý khi được đo trước một ngày nhất định, nhưng không phải sau một ngày nhất định.