Bộ dữ liệu Iris xứng đáng được sử dụng rộng rãi trong toàn bộ khoa học thống kê, đặc biệt là để minh họa các vấn đề khác nhau trong đồ họa thống kê, thống kê đa biến và học máy.
Chứa 150 quan sát, nó nhỏ nhưng không tầm thường.
Nhiệm vụ mà nó đặt ra là phân biệt giữa ba loài Iris từ các phép đo cánh hoa và cánh hoa của chúng rất đơn giản nhưng đầy thách thức.
Dữ liệu là dữ liệu thực, nhưng rõ ràng có chất lượng tốt. Về nguyên tắc và trong thực tế, các bộ dữ liệu thử nghiệm có thể được tổng hợp và điều đó có thể cần thiết hoặc hữu ích để đưa ra luận điểm. Tuy nhiên, rất ít người phản đối dữ liệu thực.
Dữ liệu được sử dụng bởi nhà thống kê nổi tiếng người Anh Ronald Fisher vào năm 1936. (Sau đó, ông được phong tước và trở thành Ngài Ronald.) Ít nhất một số giáo viên thích ý tưởng về một tập dữ liệu có liên kết với một người rất nổi tiếng trong lĩnh vực này. Dữ liệu ban đầu được công bố bởi nhà thực vật học có đầu óc thống kê Edgar S. Anderson, nhưng nguồn gốc trước đó không làm giảm sự liên kết.
Sử dụng một vài bộ dữ liệu nổi tiếng là một trong những truyền thống chúng tôi truyền lại, chẳng hạn như nói với mỗi thế hệ mới rằng Sinh viên làm việc cho Guinness hoặc nhiều nhà thống kê nổi tiếng đã bỏ rơi với nhau. Điều đó nghe có vẻ giống quán tính, nhưng khi so sánh các phương pháp cũ và mới và khi đánh giá bất kỳ phương pháp nào, thường được coi là hữu ích để thử chúng trên các bộ dữ liệu đã biết, do đó duy trì sự liên tục trong cách chúng tôi đánh giá các phương pháp.
Cuối cùng, nhưng không kém phần quan trọng, bộ dữ liệu Iris có thể được ghép nối một cách thoải mái với hình ảnh của những bông hoa có liên quan, ví dụ như từ mục Wikipedia hữu ích trên tập dữ liệu .
Chú thích. Làm bit của bạn cho tính chính xác sinh học trong việc trích dẫn các nhà máy liên quan một cách cẩn thận. Iris setosa , Iris Verscolor và Iris virginica là ba loài (không phải giống, như trong một số tài khoản thống kê); nhị phân của chúng nên được trình bày bằng chữ in nghiêng, như ở đây; và Iris là tên chi và các tên khác chỉ ra các loài cụ thể nên bắt đầu bằng chữ hoa và chữ thường tương ứng.