Trên thực tế, tôi có một vấn đề trở nên nhỏ hơn khi dữ liệu tăng lên. Một trong những ứng dụng của tôi ghi lại các thuộc tính của một sản phẩm cụ thể, nói là phô mai. Các thuộc tính là CheeseType, Brand, Country, Area, MilkType, v.v ... Mỗi tháng hoặc lâu hơn, tôi nhận được một danh sách các loại phô mai mới xuất hiện trên thị trường trong thời gian đó, cùng với các thuộc tính của chúng. Bây giờ, những thuộc tính này được gõ bằng tay bởi một nhóm người. Một số người mắc lỗi chính tả hoặc chỉ không biết giá trị cho tất cả các thuộc tính.
Khi bạn thực hiện tìm kiếm trong cơ sở dữ liệu của mình, tôi cố gắng dự đoán từ thống kê xem phô mai có vị như thế nào, dựa trên các thuộc tính này. Điều gì xảy ra, là với mỗi thuộc tính, tôi kết thúc với một loạt các giá trị; một số là hợp lệ một số không hợp lệ. Loại bỏ hoặc sửa những cái không hợp lệ này chỉ có thể nếu tôi có đủ dữ liệu. Đó là về việc tạo ra sự khác biệt giữa giá trị thực và tiếng ồn, mà không loại bỏ các giá trị hiếm nhưng hợp lệ.
Như bạn có thể tưởng tượng, với âm lượng thấp, tiếng ồn quá quan trọng để khắc phục mọi thứ đúng cách. Nếu bạn có 5 trường hợp của Cheddar, 1 của Brie, 1 của Bri và 1 của Chedar, làm thế nào để tôi biết cái nào đúng và cái nào là lỗi đánh máy? Với âm lượng lớn hơn, các lỗi chính tả có xu hướng giữ ở mức rất thấp, nhưng các giá trị hiếm gặp có một vài mức tăng quan trọng, khiến chúng thoát khỏi tiếng ồn (được hỗ trợ bởi kinh nghiệm). Trong trường hợp này, tôi có thể tưởng tượng 50000 Cheddar, 3000 Brie, 5 Bri, 15 Chedar chẳng hạn.
Vì vậy, có, một số vấn đề tự giải quyết cuối cùng, khi bạn có đủ dữ liệu.