Làm thế nào để Naive Bayes làm việc với các biến liên tục?


14

Theo hiểu biết của tôi (rất cơ bản), Naive Bayes ước tính xác suất dựa trên tần số lớp của từng tính năng trong dữ liệu đào tạo. Nhưng làm thế nào để tính toán tần số của các biến liên tục? Và khi thực hiện dự đoán, làm thế nào để phân loại một quan sát mới có thể không có cùng giá trị của bất kỳ quan sát nào trong tập huấn luyện? Nó sử dụng một số loại đo khoảng cách hoặc tìm 1NN?


Dưới đây là so sánh cạnh nhau giữa Naive Bayes rời rạc và liên tục: datascience.stackexchange.com/a/47031/67328
Esmailian

Câu trả lời:


10

Có nhiều cách để thực hiện phân loại Bayes ngây thơ (NBC). Một kỹ thuật phổ biến trong NBC là mã hóa lại các giá trị tính năng (biến) thành các phần tư, sao cho các giá trị nhỏ hơn phần trăm thứ 25 được gán 1, 25 đến 50 a 2, 50 đến 75 a 3 và lớn hơn phần trăm 75 của a 4. Do đó, một đối tượng sẽ gửi một số đếm vào bin Q1, Q2, Q3 hoặc Q4. Tính toán chỉ được thực hiện trên các thùng phân loại. Số lượng thùng (xác suất) sau đó dựa trên số lượng mẫu có giá trị biến nằm trong một thùng nhất định. Ví dụ: nếu một tập hợp các đối tượng có giá trị rất cao cho tính năng X1, thì điều này sẽ dẫn đến rất nhiều số lượng bin trong thùng cho Q4 của X1. Mặt khác, nếu một tập hợp các đối tượng khác có giá trị thấp cho tính năng X1, thì các đối tượng đó sẽ gửi rất nhiều số đếm vào thùng cho Q1 của tính năng X1.

Đó thực sự không phải là một tính toán thực sự thông minh, đó là một cách để phân biệt các giá trị liên tục thành rời rạc và khai thác sau đó. Chỉ số Gini và mức tăng thông tin có thể được tính toán dễ dàng sau khi rời rạc để xác định các tính năng nào có nhiều thông tin nhất, tức là tối đa (Gini).

Tuy nhiên, hãy lưu ý rằng có nhiều cách để thực hiện NBC và nhiều cách khác nhau hoàn toàn. Vì vậy, bạn chỉ cần nói rõ cái nào bạn thực hiện trong một bài nói chuyện hoặc trên giấy.


2

Trái tim của Naive Bayes là giả định có điều kiện anh hùng:

P(xX,C)=P(xC)

Không có cách nào phải rời rạc. Ví dụ: Gaussian Naive Bayes giả định mỗi loại có giá trị trung bình và phương sai khác nhau: mật độ .xCp(xC=i)=ϕ(μi,σi2)

Có nhiều cách khác nhau để ước tính các tham số, nhưng thông thường người ta có thể:

  • Sử dụng khả năng tối đa với dữ liệu được dán nhãn. (Trong trường hợp phân phối bình thường, ước tính khả năng tối đa của giá trị trung bình và phương sai về cơ bản là giá trị trung bình mẫu và phương sai mẫu.)
  • Một cái gì đó giống như thuật toán EM với dữ liệu không ghi nhãn.
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.