Những khía cạnh nào của bộ dữ liệu Iris Iris làm cho nó thành công như một bộ dữ liệu ví dụ / giảng dạy / kiểm tra


28

Bộ dữ liệu "Iris" có lẽ quen thuộc với hầu hết mọi người ở đây - đó là một trong những bộ dữ liệu kiểm tra chính tắc và bộ dữ liệu ví dụ cho tất cả mọi thứ, từ trực quan hóa dữ liệu đến học máy. Ví dụ, tất cả mọi người trong câu hỏi này đã kết thúc việc sử dụng nó cho một cuộc thảo luận về các biểu đồ phân tán được phân tách bằng cách xử lý.

Điều gì làm cho tập dữ liệu Iris rất hữu ích? Chỉ là nó đã ở đó đầu tiên? Nếu ai đó đang cố gắng tạo ra một ví dụ / tập dữ liệu thử nghiệm hữu ích, họ có thể rút ra bài học gì từ nó?


13
Nhỏ nhưng không tầm thường. Đơn giản nhưng đầy thách thức. Dữ liệu thực. Danh tiếng của Fisher, mặc dù đó không phải là dữ liệu của anh ấy. Truyền thống. Quán tính. Liên tục. Bạn có thể tìm thấy hình ảnh hoa để đánh vần nó.
Nick Cox

Và bây giờ nó chạy như đồng hồ.
Michael M

Tôi muốn nói @NickCox là đúng trên nhãn hiệu.
Marc Claesen

@NickCox Bạn muốn mở rộng về điều đó một chút như một câu trả lời?
Fomite

6
Bộ dữ liệu 'iris' có thể được sử dụng để phân tích phân biệt, cũng như phân loại không giám sát (phân cụm dựa trên mô hình hoặc không có mô hình) cho mục đích minh họa. Câu hỏi này xứng đáng được tham khảo chéo về các bộ dữ liệu tốt để minh họa các khía cạnh cụ thể của phân tích thống kê là gì?
chl

Câu trả lời:


40

Bộ dữ liệu Iris xứng đáng được sử dụng rộng rãi trong toàn bộ khoa học thống kê, đặc biệt là để minh họa các vấn đề khác nhau trong đồ họa thống kê, thống kê đa biến và học máy.

  • Chứa 150 quan sát, nó nhỏ nhưng không tầm thường.

  • Nhiệm vụ mà nó đặt ra là phân biệt giữa ba loài Iris từ các phép đo cánh hoa và cánh hoa của chúng rất đơn giản nhưng đầy thách thức.

  • Dữ liệu là dữ liệu thực, nhưng rõ ràng có chất lượng tốt. Về nguyên tắc và trong thực tế, các bộ dữ liệu thử nghiệm có thể được tổng hợp và điều đó có thể cần thiết hoặc hữu ích để đưa ra luận điểm. Tuy nhiên, rất ít người phản đối dữ liệu thực.

  • Dữ liệu được sử dụng bởi nhà thống kê nổi tiếng người Anh Ronald Fisher vào năm 1936. (Sau đó, ông được phong tước và trở thành Ngài Ronald.) Ít nhất một số giáo viên thích ý tưởng về một tập dữ liệu có liên kết với một người rất nổi tiếng trong lĩnh vực này. Dữ liệu ban đầu được công bố bởi nhà thực vật học có đầu óc thống kê Edgar S. Anderson, nhưng nguồn gốc trước đó không làm giảm sự liên kết.

  • Sử dụng một vài bộ dữ liệu nổi tiếng là một trong những truyền thống chúng tôi truyền lại, chẳng hạn như nói với mỗi thế hệ mới rằng Sinh viên làm việc cho Guinness hoặc nhiều nhà thống kê nổi tiếng đã bỏ rơi với nhau. Điều đó nghe có vẻ giống quán tính, nhưng khi so sánh các phương pháp cũ và mới và khi đánh giá bất kỳ phương pháp nào, thường được coi là hữu ích để thử chúng trên các bộ dữ liệu đã biết, do đó duy trì sự liên tục trong cách chúng tôi đánh giá các phương pháp.

  • Cuối cùng, nhưng không kém phần quan trọng, bộ dữ liệu Iris có thể được ghép nối một cách thoải mái với hình ảnh của những bông hoa có liên quan, ví dụ như từ mục Wikipedia hữu ích trên tập dữ liệu .

Chú thích. Làm bit của bạn cho tính chính xác sinh học trong việc trích dẫn các nhà máy liên quan một cách cẩn thận. Iris setosa , Iris VerscolorIris virginica là ba loài (không phải giống, như trong một số tài khoản thống kê); nhị phân của chúng nên được trình bày bằng chữ in nghiêng, như ở đây; và Iris là tên chi và các tên khác chỉ ra các loài cụ thể nên bắt đầu bằng chữ hoa và chữ thường tương ứng.


3
(+1) Cảm ơn bạn đã mở rộng bình luận của bạn thành một câu trả lời.
Đức hồng y

5
Tôi sẽ cho thêm +1 nếu tôi có thể cho một quan điểm nguyên tắc về tính đúng đắn sinh học.
Fomite

6

Bộ dữ liệu đủ lớn và thú vị để không tầm thường, nhưng đủ nhỏ để "vừa trong túi của bạn" và không làm chậm thử nghiệm với nó.

Tôi nghĩ một khía cạnh quan trọng là nó cũng dạy về sự phù hợp quá mức. Không có đủ cột để cho điểm hoàn hảo: chúng ta thấy điều này ngay lập tức khi chúng ta nhìn vào các biểu đồ phân tán và chúng chồng lên nhau và chạy vào nhau. Vì vậy, bất kỳ phương pháp học máy nào đạt được điểm hoàn hảo đều có thể được coi là đáng ngờ.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.