Dữ liệu kiểm tra so với dữ liệu đào tạo


7

Tôi đang đọc cuốn sách của giám mục về nhận dạng mẫu và học máy. Đi qua phần giới thiệu, tôi không chắc mình có nhận được sự khác biệt giữa hai thuật ngữ "dữ liệu thử nghiệm" và "dữ liệu đào tạo" được sử dụng rộng rãi hay không. Là dữ liệu đào tạo dữ liệu bạn sẽ có sau giai đoạn tiền xử lý còn được gọi là trích xuất tính năng? Trong đó dữ liệu thử nghiệm là đầu vào ban đầu. Tôi có đúng không

Câu trả lời:


6

Đây là vấn đề.

Với thuật toán học mờ đục, bạn phải tìm hiểu xem thuật toán của bạn đã thực sự học được điều gì đó về cấu trúc sâu hơn phổ biến cho khu vực vấn đề mong muốn (giả sử có một số được tìm thấy), hoặc vừa học cách nhận ra một số đầu vào cụ thể và nhổ ra câu trả lời mong muốn chỉ dành cho những đầu vào đó (tương tự như học sinh chỉ "ghi nhớ bài kiểm tra" nhưng không có đầu mối nào khác). Cái sau không hữu ích lắm khi dữ liệu huấn luyện chỉ bao gồm một phần rất nhỏ của không gian vấn đề mong muốn.

Vì vậy, để tìm hiểu, bạn huấn luyện thuật toán của mình trên một bộ dữ liệu cho đến khi nó đưa ra câu trả lời đúng. Sau đó, bạn thay đổi đầu vào thành một số dữ liệu thử nghiệm khác nhau mà thuật toán được đào tạo chưa từng thấy trước đây và xem liệu nó vẫn có thể cung cấp cho bạn câu trả lời hữu ích hay chỉ thực sự hiệu quả đối với những thứ duy nhất trong tập huấn luyện ban đầu. Đó là tập dữ liệu thử nghiệm.

Nếu bạn có dữ liệu trong thế giới thực, việc chia thành hai tập khác nhau và không để thuật toán nhìn thấy tập kiểm tra trong quá trình đào tạo là điều phổ biến. Tương tự như việc giáo viên khóa các câu hỏi cho đến khi kết thúc học kỳ.


6

Khi bạn sử dụng thuật toán học máy trên các tập dữ liệu, bạn sử dụng một phần dữ liệu (tập huấn luyện) để huấn luyện thuật toán của bạn (nghĩa là trích xuất tính năng). Sau khi đào tạo hoàn tất, bạn sẽ cần đánh giá hiệu suất của thuật toán được đào tạo và bạn thực hiện điều này bằng cách áp dụng nó cho dữ liệu mới, đó là phần thứ hai của dữ liệu gốc của bạn (dữ liệu thử nghiệm).

Với chiến lược này, bạn sẽ có thể đánh giá liệu thuật toán được đào tạo của bạn có thực sự trích xuất các tính năng hợp lệ của dữ liệu của bạn hay không (nghĩa là nó hoạt động tốt trên dữ liệu đào tạo và trên dữ liệu thử nghiệm) hoặc nếu nó được "chồng chéo" hoặc "quá mức" (nghĩa là , nó chỉ thực hiện tốt trên dữ liệu đào tạo và xấu về dữ liệu thử nghiệm).

Để biết thêm thông tin, xem wikipedia về tập huấn luyện , tập kiểm traxác nhận chéo .


Tôi đọc những bài viết trên WP nhưng không thể so sánh giữa hai bài. Cảm ơn bạn cho câu trả lời của bạn nào.
Gigili

0

Để trả lời trực tiếp các câu hỏi của OP: "Dữ liệu đào tạo có phải là dữ liệu bạn sẽ có sau giai đoạn tiền xử lý còn được gọi là trích xuất tính năng không?

Không, điều đó (tức là trích xuất tính năng) không phải là thứ tạo ra một tập hợp dữ liệu "dữ liệu huấn luyện". Bạn sẽ phải trích xuất các tính năng giống như dữ liệu huấn luyện từ dữ liệu thử nghiệm của mình. Dưới đây là một tập hợp các bước để phân biệt các thuật ngữ này:

  1. Lấy dữ liệu thô. [Bộ này bao gồm dữ liệu đào tạo / xác nhận / kiểm tra].
  2. Phân chia dữ liệu trong phân tách đào tạo / xác nhận / kiểm tra.
  3. Sử dụng các dữ liệu đào tạo chỉ để phù hợp / phân loại dữ liệu bằng cách sử dụng mô hình như SVM, mạng nơron, vv
  4. Bây giờ sử dụng dữ liệu kiểm tra / xác nhận để kiểm tra mức độ tốt của mô hình bạn có.

Trong đó dữ liệu thử nghiệm là đầu vào ban đầu. Tôi có đúng không

Dữ liệu kiểm tra là dữ liệu bạn để qua một bên trong khi chọn / tìm hiểu các tham số của mô hình của bạn. Sau này bạn sử dụng dữ liệu này để kiểm tra mức độ tốt của một mô hình bạn có. Giả định chính là phân phối dữ liệu thử nghiệm của bạn giống như phân phối dữ liệu đào tạo của bạn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.