Phát hiện bất thường với các tính năng giả (và các tính năng rời rạc / phân loại khác)


18

tl; dr

  • Cách được đề xuất để đối phó với discretedữ liệu khi thực hiện phát hiện bất thường là gì?
  • Cách được đề xuất để đối phó với categoricaldữ liệu khi thực hiện phát hiện bất thường là gì?
  • Câu trả lời này gợi ý sử dụng dữ liệu rời rạc để chỉ lọc kết quả.
  • Có lẽ thay thế giá trị thể loại bằng cơ hội quan sát điện áp?

Giới thiệu

Đây là lần đầu tiên tôi đăng bài ở đây, vì vậy xin vui lòng, nếu bất cứ điều gì có vẻ không đúng về mặt kỹ thuật, trong định dạng hoặc sử dụng các định nghĩa chính xác, tôi đều muốn biết những gì nên được sử dụng thay thế.

Trở đi

Gần đây tôi đã tham gia lớp học máy học của Andrew Ng

Để phát hiện bất thường, chúng tôi đã được dạy để xác định các tham số phân phối Bình thường / Gaussian cho một tính năng / biến đã cho, trong một tập dữ liệu, sau đó xác định xác suất của một tập hợp giá trị của ví dụ đào tạo được chọn cho phân phối Gaussian cụ thể, và sau đó lấy sản phẩm của xác suất của các tính năng.xTôi

phương pháp

Chọn các tính năng / biến mà chúng tôi nghĩ sẽ giải thích hoạt động được đề cập: { x 1 , x 2 , Hoài , x i }xTôi

{x1,x2,Giáo dục,xTôi}

Điều chỉnh các tham số của Gaussian cho từng tính năng: σ2=1

μj= =1mΣTôi= =1mxj(Tôi)
σ2= =1mΣTôi= =1m(xj(Tôi)-μj)2

Đối với mỗi ví dụ đào tạo, x , tính:

p(x)=j=1n p(xj;μj,σj2)

Sau đó, chúng tôi gắn cờ là một sự bất thường ( y=1 ), được đưa ra:

y={1p(x)<ϵ0p(x)ε

Điều này cho chúng ta phương pháp để xác định xem một ví dụ có cần kiểm tra thêm không.

Những câu hỏi của tôi)

Điều này có vẻ tốt cho các biến / tính năng liên tục, nhưng dữ liệu rời rạc không được xử lý.

Điều gì về các biến giả, ví dụ như một tính năng cờ giới tính, có thể được gọi là [IsMale]có thể có giá trị ? Để tính đến một tính năng giả, chúng ta sẽ sử dụng phân phối nhị thức thay vì tính ?p ( x )0,1p(x)

Những gì về dữ liệu phân loại như màu xe? Mặc dù chúng ta có thể ánh xạ màu thành các giá trị số, ví dụ: , việc phân phối một tính năng phân loại như vậy có thể gần với thống nhất (nghĩa là có khả năng là bất kỳ màu nào), và hơn nữa, như bất kỳ ánh xạ số xảy ra (nghĩa là có giá trị , v.v.) không phải là thứ tự, có ý nghĩa gì khi thử và biến đổi bất kỳ phân phối tần số không bình thường nào cho các màu được phân phối bình thường (thậm chí có vấn đề gì không phải là thứ tự? ?)? Ví dụ, với tôi, sẽ không có ý nghĩa gì khi thực hiện chuyển đổi vì dữ liệu không liên tục cũng không theo quy tắc. Vì vậy, có lẽ tốt nhất là tìm một phân phối rời rạcred1,btôibạne2red1tôiog() phù hợp với tính năng này, trái ngược với việc "tra tấn" dữ liệu để phù hợp với Gaussian?

Câu hỏi: (cập nhật: 2015-11-24)

  • Các biến nhị phân có thể được mô hình hóa với phân phối xác suất nhị thức và trở thành một yếu tố khác trong tính toán không?p(x)
  • Các biến phân loại có nên được mô hình hóa với phân phối xác suất rời rạc thay vì Gaussian và trở thành một yếu tố khác trong phép tính ?p(x)
  • Có phương pháp nào khác hoàn toàn có tính đến những gì tôi đang hỏi ở đây mà tôi có thể nghiên cứu / tìm hiểu thêm không?
  • Cách được đề xuất để đối phó với discretedữ liệu khi thực hiện phát hiện bất thường là gì?
  • Cách được đề xuất để đối phó với categoricaldữ liệu khi thực hiện phát hiện bất thường là gì?

Chỉnh sửa: 2017-05-03

  • Câu trả lời này gợi ý sử dụng dữ liệu rời rạc để chỉ lọc kết quả.
  • Có lẽ thay thế giá trị thể loại bằng cơ hội quan sát điện áp?

<từ chối trách nhiệm> Tôi là người có nền tảng chỉ số đủ nguy hiểm. </ từ chối trách nhiệm> Vì vậy, hãy để nguy hiểm .... Trực giác của tôi đồng ý với bạn rằng Gaussian không phải là cách để xử lý dữ liệu không liên tục. Đối với dữ liệu liên tục, một giá trị trên dòng số có một loại mối quan hệ khác với tất cả các giá trị khác so với số trên một số nguyên hoặc biến nhị phân. Phân phối nhị thức mô tả các biến nhị phân. Phân phối đa cực mô tả các biến đa cực. Không phải tất cả các thành viên gia đình theo cấp số nhân?
EngrStudent - Phục hồi Monica


Một cái khác có thể thêm vào bất kỳ cuộc thảo luận nào: Chủ đề: ngoại lệ phân loại?
Adrian Torrie

@iValueValue trong công thức thứ tư của bạn là gì? Có phải ? pp(x;μ,σ2)= =1σ2πe-(x-μ)22σ2
Alessandro Jacopson

@uvts_cvs có, hàm mật độ xác suất của gaussaian là những gì được sử dụng.
Adrian Torrie

Câu trả lời:


4

Nói chung, đối với cả các tính năng phân loại * & phân loại, phương pháp này không đặc biệt phù hợp với phân tích ngoại lệ. Vì không có cường độ liên quan đến các yếu tố dự đoán phân loại, chúng tôi đang làm việc với:

  • Tần suất của danh mục được quan sát trong dữ liệu toàn cầu
  • Tần suất của danh mục được quan sát trong không gian con của dữ liệu

Lưu ý rằng cả hai phẩm chất này đều không thể được phân tích một cách cô lập, vì phương pháp Gaussian của bạn yêu cầu. Thay vào đó, chúng ta cần một phương pháp bối cảnh hóa các tính năng phân loại & xem xét tính chất tương quan của dữ liệu.

Dưới đây là một số kỹ thuật cho dữ liệu thuộc tính phân loại & hỗn hợp, dựa trên Phân tích ngoại lệ của Aggarwal:

  • SS= =Qkλk2QkTQkE= =QkλkE
  • Nếu bạn có các tính năng phân loại hoàn toàn, hãy khớp mô hình hỗn hợp với dữ liệu phân loại thô. Điểm bất thường có xác suất phát sinh thấp nhất.
  • Sử dụng mã hóa một nóng cho các yếu tố dự đoán phân loại và phân tích biến tiềm ẩn tùy ý ** cho các biến thứ tự với ánh xạ liên tục không rõ ràng
    • Chuẩn hóa các tính năng không một nóng (các tính năng một nóng đã được chuẩn hóa hoàn toàn) và thực hiện Phân tích thành phần chính . Thực hiện giảm kích thước bằng cách sử dụng các thành phần chính hàng đầu (hoặc cách tiếp cận PCA mềm trong đó các hàm riêng được cân bằng giá trị riêng) và chạy phương pháp phân tích ngoại lệ liên tục điển hình (ví dụ: mô hình hỗn hợp hoặc phương pháp Gaussian của bạn)
    • Thực hiện phân tích dựa trên góc. Đối với mỗi quan sát, tính tương tự cosine giữa tất cả các cặp điểm. Các quan sát có phương sai nhỏ nhất của những điểm tương đồng này (được gọi là "Yếu tố ngoại lệ dựa trên góc") rất có thể là ngoại lệ. Có thể yêu cầu phân tích cuối cùng về phân phối theo kinh nghiệm của ABOF để xác định đâu là bất thường.
    • Nếu bạn đã gắn nhãn các ngoại lệ: Điều chỉnh mô hình dự đoán với dữ liệu được thiết kế (hồi quy logistic, SVM, v.v.).

* Các tính năng riêng biệt có thể có thể được xử lý xấp xỉ trong phương thức Gaussian của bạn. Trong các điều kiện phù hợp, một tính năng có thể được xấp xỉ bằng một phân phối bình thường (ví dụ: biến ngẫu nhiên nhị thức với npq> 3). Nếu không, xử lý chúng như các lệnh được mô tả ở trên.

** Điều này tương tự với ý tưởng của bạn về "thay thế giá trị danh mục bằng tỷ lệ phần trăm cơ hội quan sát"


K= =1

@Akababa Bạn có thể, ví dụ, tính toán MLE trên các tham số đa phương thức bằng thuật toán EM. Giả sử tính độc lập của RV đa phương, cách tiếp cận này khái quát hóa cho các bộ dự đoán phân loại tùy ý. Ví dụ ở đây
khol

0

Toán học lớp Andrew Ng xử lý dữ liệu "rời rạc" giống như nó xử lý dữ liệu "không rời rạc". Tất cả những gì chúng ta phải làm là ước tính theo kinh nghiệm các tham số phân phối bình thường và nó có thể được thực hiện hoàn hảo cho dữ liệu rời rạc.

Nếu bạn nghĩ về nó, học máy luôn xử lý các dữ liệu rời rạc: số lượng điểm dữ liệu không phải là vô hạn và số bit được xử lý bởi máy tính không phải là vô hạn.

Nếu các điểm dữ liệu rời rạc có thể được so sánh với nhau thì không có sự khác biệt cơ bản nào đối với các phương pháp học máy khi xử lý, giả sử, chiều dài: 1,15 ft 1,34 ft 3,4 ft

hoặc có bao nhiêu nhánh trên cây: 1 2 3 5

Bạn có thể tính tổng và trung bình dấu phẩy động hoặc toàn bộ số giống nhau.

Bây giờ, để dữ liệu phân loại. Điểm dữ liệu phân loại không thể so sánh {xe vs xe máy với thuyền). Làm thế nào để chúng ta xử lý này?

Số lượng danh mục phải có ít nhất hai để có ý nghĩa, nếu không thì điểm nào trong tính năng không đổi? Trong trường hợp có 2 danh mục, chúng tôi có thể biểu thị một tính năng danh mục dưới dạng một tính năng nhị phân {0, 1}. 0 và 1 có thể được sử dụng cho toán học, vì vậy hãy xem ở trên.

Nếu số lượng danh mục (K) là [3 .. inf], chúng tôi ánh xạ tính năng duy nhất của chúng tôi sang K tính năng loại trừ lẫn nhau nhị phân. Ví dụ: danh mục "xe máy" trở thành sự kết hợp của các tính năng nhị phân {IsCar: 0, IsMotor Motorcycle: 1, IsBoat: 0}, Điểm thuyền trở thành {IsCar: 0, IsMotor Motorcycle: 0, IsBoat: 1}, v.v.

Chúng tôi có thể ước tính các tham số phân phối theo kinh nghiệm từ các tính năng mới này. Chúng tôi chỉ đơn giản là sẽ có nhiều kích thước hơn, đó là tất cả.


1
Điều này đang giải thích về mã hóa giả nhưng đó không phải là câu trả lời cho câu hỏi
Pieter
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.