(Tôi là người mới về thống kê. Tôi là nhà toán học và lập trình viên và tôi đang cố gắng xây dựng một cái gì đó giống như bộ lọc thư rác Bayes ngây thơ.)
Tôi đã nhận thấy ở nhiều nơi rằng mọi người có xu hướng phá vỡ mẫu số trong phương trình từ Định lý Bayes. Vì vậy, thay vì điều này:
Chúng tôi được trình bày với điều này:
Bạn có thể thấy rằng quy ước này được sử dụng trong bài viết Wikipedia này và trong bài viết sâu sắc này của Tim Peters.
Tôi bị bối rối bởi điều này. Tại sao mẫu số bị phá vỡ như thế này? Làm thế nào mà giúp mọi thứ? Điều gì quá phức tạp khi tính toán , trong trường hợp bộ lọc thư rác sẽ là gì?The probability that the word "cheese" appears in an email, regardless of whether it's spam or not