tl; dr
- Cách được đề xuất để đối phó với
discrete
dữ liệu khi thực hiện phát hiện bất thường là gì? - Cách được đề xuất để đối phó với
categorical
dữ liệu khi thực hiện phát hiện bất thường là gì? - Câu trả lời này gợi ý sử dụng dữ liệu rời rạc để chỉ lọc kết quả.
- Có lẽ thay thế giá trị thể loại bằng cơ hội quan sát điện áp?
Giới thiệu
Đây là lần đầu tiên tôi đăng bài ở đây, vì vậy xin vui lòng, nếu bất cứ điều gì có vẻ không đúng về mặt kỹ thuật, trong định dạng hoặc sử dụng các định nghĩa chính xác, tôi đều muốn biết những gì nên được sử dụng thay thế.
Trở đi
Gần đây tôi đã tham gia lớp học máy học của Andrew Ng
Để phát hiện bất thường, chúng tôi đã được dạy để xác định các tham số phân phối Bình thường / Gaussian cho một tính năng / biến đã cho, trong một tập dữ liệu, sau đó xác định xác suất của một tập hợp giá trị của ví dụ đào tạo được chọn cho phân phối Gaussian cụ thể, và sau đó lấy sản phẩm của xác suất của các tính năng.
phương pháp
Chọn các tính năng / biến mà chúng tôi nghĩ sẽ giải thích hoạt động được đề cập: { x 1 , x 2 , Hoài , x i }
Điều chỉnh các tham số của Gaussian cho từng tính năng: σ2=1
Đối với mỗi ví dụ đào tạo, , tính:
Sau đó, chúng tôi gắn cờ là một sự bất thường ( ), được đưa ra:
Điều này cho chúng ta phương pháp để xác định xem một ví dụ có cần kiểm tra thêm không.
Những câu hỏi của tôi)
Điều này có vẻ tốt cho các biến / tính năng liên tục, nhưng dữ liệu rời rạc không được xử lý.
Điều gì về các biến giả, ví dụ như một tính năng cờ giới tính, có thể được gọi là [IsMale]
có thể có giá trị ? Để tính đến một tính năng giả, chúng ta sẽ sử dụng phân phối nhị thức thay vì tính ?p ( x )
Những gì về dữ liệu phân loại như màu xe? Mặc dù chúng ta có thể ánh xạ màu thành các giá trị số, ví dụ: , việc phân phối một tính năng phân loại như vậy có thể gần với thống nhất (nghĩa là có khả năng là bất kỳ màu nào), và hơn nữa, như bất kỳ ánh xạ số xảy ra (nghĩa là có giá trị , v.v.) không phải là thứ tự, có ý nghĩa gì khi thử và biến đổi bất kỳ phân phối tần số không bình thường nào cho các màu được phân phối bình thường (thậm chí có vấn đề gì không phải là thứ tự? ?)? Ví dụ, với tôi, sẽ không có ý nghĩa gì khi thực hiện chuyển đổi vì dữ liệu không liên tục cũng không theo quy tắc. Vì vậy, có lẽ tốt nhất là tìm một phân phối rời rạc phù hợp với tính năng này, trái ngược với việc "tra tấn" dữ liệu để phù hợp với Gaussian?
Câu hỏi: (cập nhật: 2015-11-24)
Các biến nhị phân có thể được mô hình hóa với phân phối xác suất nhị thức và trở thành một yếu tố khác trong tính toán không?Các biến phân loại có nên được mô hình hóa với phân phối xác suất rời rạc thay vì Gaussian và trở thành một yếu tố khác trong phép tính ?Có phương pháp nào khác hoàn toàn có tính đến những gì tôi đang hỏi ở đây mà tôi có thể nghiên cứu / tìm hiểu thêm không?- Cách được đề xuất để đối phó với
discrete
dữ liệu khi thực hiện phát hiện bất thường là gì? - Cách được đề xuất để đối phó với
categorical
dữ liệu khi thực hiện phát hiện bất thường là gì?
Chỉnh sửa: 2017-05-03
- Câu trả lời này gợi ý sử dụng dữ liệu rời rạc để chỉ lọc kết quả.
- Có lẽ thay thế giá trị thể loại bằng cơ hội quan sát điện áp?