Sự thật mặt đất là gì


29

Trong bối cảnh của Machine Learning , tôi đã thấy thuật ngữ Ground Truth được sử dụng rất nhiều. Tôi đã tìm kiếm rất nhiều và tìm thấy định nghĩa sau trong Wikipedia :

Trong học máy, thuật ngữ "sự thật mặt đất" dùng để chỉ tính chính xác của phân loại tập huấn đối với các kỹ thuật học có giám sát. Điều này được sử dụng trong các mô hình thống kê để chứng minh hoặc bác bỏ các giả thuyết nghiên cứu. Thuật ngữ "mặt đất" dùng để chỉ quá trình thu thập dữ liệu mục tiêu (có thể chứng minh) thích hợp cho thử nghiệm này. So sánh với tiêu chuẩn vàng.

Lọc thư rác Bayes là một ví dụ phổ biến của việc học có giám sát. Trong hệ thống này, thuật toán được dạy thủ công sự khác biệt giữa thư rác và không thư rác. Điều này phụ thuộc vào sự thật cơ bản của các thông điệp được sử dụng để huấn luyện thuật toán - sự không chính xác trong sự thật cơ bản sẽ tương quan với sự không chính xác trong kết quả của thư rác / không phải thư rác.

Vấn đề là tôi thực sự không thể hiểu ý nghĩa của nó. Đó có phải là nhãn được sử dụng cho từng đối tượng dữ liệu hoặc hàm mục tiêu cung cấp nhãn cho từng đối tượng dữ liệu hoặc có thể là thứ gì khác không?

Câu trả lời:


25

Sự thật cơ bản là những gì bạn đã đo cho biến mục tiêu của mình cho các ví dụ đào tạo và kiểm tra.

Gần như tất cả thời gian bạn có thể coi điều này giống như nhãn hiệu.

Trong một số trường hợp, nó không chính xác giống như nhãn. Chẳng hạn, nếu bạn tăng tập dữ liệu của mình, có một sự khác biệt tinh tế giữa sự thật nền tảng (số đo thực tế của bạn) và cách các ví dụ tăng liên quan đến nhãn bạn đã gán. Tuy nhiên, sự khác biệt này thường không phải là một vấn đề.

Sự thật mặt đất có thể sai. Đây là một phép đo, và có thể có lỗi trong đó. Trong một số kịch bản ML, nó cũng có thể là một phép đo chủ quan trong đó rất khó xác định một sự thật khách quan tiềm ẩn - ví dụ như ý kiến ​​chuyên gia hoặc phân tích, mà bạn đang hy vọng tự động hóa. Bất kỳ mô hình ML nào bạn đào tạo sẽ bị giới hạn bởi chất lượng của sự thật mặt đất được sử dụng để đào tạo và kiểm tra nó, và đó là một phần của lời giải thích trên trích dẫn Wikipedia. Đó cũng là lý do tại sao các bài báo được xuất bản về ML nên bao gồm các mô tả đầy đủ về cách dữ liệu được thu thập.


Trong quá trình đào tạo, gt (ví dụ: trong các vấn đề phân đoạn ví dụ) có thể được sửa đổi hoặc tạo dựa trên thông tin thu được (ví dụ từ bản đồ điểm số) từ các tính năng không?
Alex

@Alex: Không thường xuyên. Có thể có một số trường hợp trong đó một đầu ra được sửa đổi hoặc quy trình bán tự động tạo ra sự thật nền tảng cho thuật toán tiếp theo trong một đường ống dẫn. Tuy nhiên, nếu bạn đang đề cập đến một thuật toán sửa đổi các mục tiêu của riêng mình thông qua một số quy tắc, thì đó thường không được coi là một sự thật mới - thay vào đó, sự thật cơ bản sẽ là các phân đoạn ban đầu được cung cấp cho đào tạo. Bất kỳ sàng lọc tự động thông minh thay vào đó sẽ là một phần của mô hình.
Neil Slater

Một sàng lọc với sự tương tác của con người, hoặc đã đề cập đến dữ liệu phi hình ảnh gốc (ví dụ: một số hình ảnh nguồn được tạo bằng mô hình 3D, do đó có thể tạo phân đoạn "đúng" tốt hơn nhiều) có thể là sự thật mới. Mặc dù bạn có thể muốn tách ý tưởng về sự thật mặt đất thế hệ 1 được sử dụng để xây dựng mô hình đầu tiên khỏi sự thật mặt đất thế hệ 2 đã được lặp lại và được sử dụng để xây dựng một mô hình thứ hai, ngay cả khi mô hình thứ hai là cùng một kiến ​​trúc đào tạo về phản hồi.
Neil Slater

'được đào tạo về phản hồi' - gần gũi, nhưng không chính xác. Nếu bạn đã xem mô hình FCN, lớp cuối cùng là bản đồ điểm được cắm vào chức năng mất bản ghi mềm mềm cùng với bản đồ gt. Những gì tôi làm là lấy bản đồ điểm số, trích xuất một số dữ liệu từ nó (ví dụ: số lượng các đốm nhị phân argmax) và (bằng cách nào đó) sửa đổi mặt nạ gt trước khi cắm nó vào hàm mất. Làm thế nào là hợp pháp này?
Alex

@Alex: Đó là một phần trong mô hình của bạn, và không phải sự thật mới. Trừ khi bạn quyết định, tùy ý, mục tiêu của một mô hình mới là tìm hiểu chức năng kết hợp của bạn. Trong trường hợp đó là sự thật cơ bản cho mô hình mới - tuy nhiên, bạn chắc chắn nên lưu ý nguồn dữ liệu phức tạp này, vì nó đã được sửa đổi từ phép đo ban đầu theo cách tự động.
Neil Slater

2

Sự thật cơ bản: Đó là thực tế bạn muốn mô hình của bạn dự đoán.

Nó có thể có một số nhiễu nhưng bạn muốn mô hình của mình tìm hiểu mô hình cơ bản trong dữ liệu gây ra sự thật cơ bản này. Thực tế, mô hình của bạn sẽ không bao giờ có thể dự đoán được sự thật mặt đất vì sự thật mặt đất cũng sẽ có một số nhiễu và không có mô hình nào cho độ chính xác hàng trăm phần trăm nhưng bạn muốn mô hình của mình càng gần càng tốt.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.