Tóm tắt tiểu sử
Số liệu lỗi (một thuật ngữ thích hợp được sử dụng trong tiêu đề câu hỏi) định lượng mức độ phù hợp của mô hình tuyến tính hoặc phi tuyến.
Nó tổng hợp các lỗi riêng lẻ trong một tập hợp các quan sát (trường hợp dữ liệu huấn luyện). Trong sử dụng điển hình, một hàm lỗi được áp dụng cho sự khác biệt giữa vectơ biến phụ thuộc được dự đoán bởi mô hình và các quan sát thực nghiệm. Những khác biệt này được tính toán cho mỗi quan sát và sau đó tổng hợp. 1
Tại sao khoảng cách bình phương?
Legendre, người đầu tiên công bố phương pháp tổng bình phương để đo sức khỏe của người mẫu (Paris 1705) đã tuyên bố chính xác rằng bình phương trước khi tính tổng là thuận tiện. Tại sao anh ấy viết điều đó?
Người ta có thể sử dụng giá trị tuyệt đối của lỗi hoặc giá trị tuyệt đối của khối của nó, nhưng sự gián đoạn của đạo hàm của giá trị tuyệt đối làm cho hàm KHÔNG trơn tru. Các hàm KHÔNG trơn tru tạo ra những khó khăn không cần thiết khi sử dụng đại số tuyến tính để rút ra các dạng đóng (biểu thức đại số đơn giản).
Các hình thức đóng thuận tiện khi người ta muốn nhanh chóng và dễ dàng tính toán độ dốc và đánh chặn trong hồi quy tuyến tính. 2
Xuống dốc
Gradient gốc thường được sử dụng cho hồi quy phi tuyến. Không có khả năng tạo các biểu mẫu kín cho nhiều mô hình phi tuyến, phép lặp trở thành một phương pháp chi phối để xác nhận hoặc điều chỉnh mô hình.
Một sự hiểu biết trực quan về độ dốc gốc có thể đạt được bằng cách xem xét một người khát, mù tìm nước trên đất chỉ bằng cách thực hiện các bước tính toán. (Trong phần mềm, các bước này là các bước lặp.) Người mù chỉ có thể cảm nhận được hướng của độ cao độ dốc (hướng dốc) với bàn chân của họ để hạ xuống độ cao tối thiểu cục bộ. 3
Bất cứ ai nói rằng, "Bản thân chức năng không thành vấn đề", liên quan đến các ứng dụng thông thường của việc giảm độ dốc sẽ là một lựa chọn nguy hiểm cho hướng dẫn trong một chuyến thám hiểm đi bộ đường dài mù. Chẳng hạn, sự đối ứng của khoảng cách như một hàm lỗi có thể sẽ dẫn đến mất nước và tử vong của những người đi bộ đường dài.
Các tiêu chí lựa chọn cho các số liệu lỗi rất quan trọng nếu một người quan tâm đến tốc độ hội tụ của một giải pháp hoặc liệu giải pháp đó có bao giờ được tìm thấy hay không. 4
Do độ dốc của mặt phẳng (bề mặt tuyến tính) là một hằng số, nên việc sử dụng độ dốc gốc cho các mô hình tuyến tính là lãng phí. Người mù không cần tiếp tục lấy mẫu góc của bàn chân.
Dấu hiệu của số liệu lỗi
Tuyên bố, "Kết quả phải là dương nên độ lệch dương và âm vẫn được tính," là không chính xác. 5
Hiệu quả của các số liệu lỗi liên quan đến 1.0
Do đạo hàm riêng của số liệu lỗi bình phương nhỏ nhất liên quan đến lỗi tại bất kỳ điểm đã cho nào là không đổi, nên số liệu lỗi bình phương nhỏ nhất hội tụ tương tự trên và dưới 1.0.
Ghi chú
[1] Kích thước của các vectơ biến độc lập và phụ thuộc của mô hình, trong học máy, thường được gọi là các tính năng và nhãn tương ứng.
[2] Một chức năng trơn tru khác, chẳng hạn như lỗi đối với nguồn thứ tư cũng sẽ dẫn đến các dạng đóng cho độ dốc và đánh chặn, mặc dù chúng sẽ tạo ra kết quả hơi khác nhau nếu hệ số tương quan là khác không.
[3] Các thuật toán gốc dốc nói chung không đảm bảo tìm được mức tối thiểu toàn cầu. Trong ví dụ đưa ra, sẽ có thể trích dẫn một lỗ nhỏ tồn tại với nước trong đó. Tùy thuộc vào các đặc điểm bề mặt (địa hình), việc cảm nhận góc của bàn chân (xác định độ dốc) có thể phản tác dụng. Việc tìm kiếm có thể trở nên hỗn loạn. Để mở rộng sự tương tự trực quan, hãy xem xét tìm kiếm dưới cùng của cầu thang trong thạch bản tương đối của Escher's.
[4] Để một số liệu lỗi có khả năng hội tụ và do đó hữu ích trong hồi quy bất kể hướng của lỗi, dấu hiệu của số liệu là không liên quan. Đó là mỗi tập hợp các đạo hàm riêng của chỉ số lỗi liên quan đến tập khoảng cách tương ứng giữa các dự đoán và quan sát mô hình nên có giá trị dương để hồi quy theo hướng đa hướng. Nghe có vẻ phức tạp hơn, nhưng ngay cả tuyên bố sửa chữa này là một sự đơn giản hóa.
[5] Số liệu lỗi trong các ứng dụng giảm độ dốc thường được tính bằng cách sử dụng hàm lồi để tránh sự quá mức và dao động có thể và không hội tụ. Trong một số trường hợp, các hàm lỗi khác mà tổng bình phương được sử dụng. Sự lựa chọn của chức năng có liên quan đến một số yếu tố:
- Mô hình mà dữ liệu phù hợp
- Các yếu tố dự kiến sẽ ảnh hưởng hoặc thực sự ảnh hưởng đến độ lệch của các quan sát (dữ liệu huấn luyện) từ mô hình
- Tài nguyên tính toán liên quan đến kích thước của tập dữ liệu