Hồi quy tuyến tính: tại sao khoảng cách * bình phương * được sử dụng làm chỉ số lỗi?


7

Thông thường khi thực hiện dự đoán hồi quy tuyến tính và giảm độ dốc, số đo mức độ lỗi cho một dòng cụ thể sẽ được đo bằng tổng các giá trị khoảng cách bình phương.

Tại sao khoảng cách bình phương ?

Trong hầu hết các giải thích tôi đã nghe, họ cho rằng:

  • chức năng tự nó không quan trọng
  • kết quả phải dương nên độ lệch dương và âm vẫn được tính

Tuy nhiên, một abs()cách tiếp cận vẫn sẽ hiệu quả. Và không phải là bất tiện khi bình phương khoảng cách giảm thiểu kết quả khoảng cách cho khoảng cách thấp hơn 1?

Tôi khá chắc chắn ai đó đã xem xét điều này rồi - vậy tại sao khoảng cách bình phương lại là cách tiếp cận được sử dụng nhiều nhất cho hồi quy tuyến tính?


1
Cảm ơn bạn rất nhiều vì câu trả lời của bạn - tất cả đều rất thông tin theo một cách nào đó và tất cả chúng đều giải quyết các câu hỏi của tôi từ các quan điểm khác nhau. Tôi nghĩ rằng tôi sẽ thích cộng đồng này. :)
Alpha

1
Tôi đang bỏ phiếu để đóng câu hỏi này dưới dạng ngoài chủ đề (xem phạm vi được xác định trong trung tâm trợ giúp). Hiện tại, nó muốn chuyển sang Xác thực chéo để có câu trả lời.
Eric Platon

@EricPlaton, các chức năng được sử dụng để đánh giá mức độ phù hợp của mô hình đối với dữ liệu thực nghiệm là trọng tâm của việc học. Mặc dù hồi quy tuyến tính đã có hàng thế kỷ và có thể không phải là một lĩnh vực nghiên cứu quan trọng ngày nay, việc phân loại câu hỏi này thành chủ đề cho học máy giống như nói rằng sự bối rối khi chạm đất trước gia đình và các đồng nghiệp không liên quan gì đến việc học lái xe một chiếc xe đạp.
FauChristian

1
Nếu hàm không quan trọng, hội tụ f (e) = e ^ (- 2) sẽ như thế nào? Nếu hàm phải dương, tại sao f (e) = x ^ 2 - 10 ^ (100) sẽ tạo ra các công thức hồi quy tuyến tính giống như x ^ 2 + 10 ^ (100)? Tại sao người ta lại lãng phí thời gian để sử dụng độ dốc gốc cho mô hình tuyến tính? ... Bạn có thể muốn đặt câu hỏi về tính xác thực của các nguồn của chúng tôi.
FauChristian

Câu trả lời:


4

Tóm tắt tiểu sử

Số liệu lỗi (một thuật ngữ thích hợp được sử dụng trong tiêu đề câu hỏi) định lượng mức độ phù hợp của mô hình tuyến tính hoặc phi tuyến.

Nó tổng hợp các lỗi riêng lẻ trong một tập hợp các quan sát (trường hợp dữ liệu huấn luyện). Trong sử dụng điển hình, một hàm lỗi được áp dụng cho sự khác biệt giữa vectơ biến phụ thuộc được dự đoán bởi mô hình và các quan sát thực nghiệm. Những khác biệt này được tính toán cho mỗi quan sát và sau đó tổng hợp. 1

Tại sao khoảng cách bình phương?

Legendre, người đầu tiên công bố phương pháp tổng bình phương để đo sức khỏe của người mẫu (Paris 1705) đã tuyên bố chính xác rằng bình phương trước khi tính tổng là thuận tiện. Tại sao anh ấy viết điều đó?

Người ta có thể sử dụng giá trị tuyệt đối của lỗi hoặc giá trị tuyệt đối của khối của nó, nhưng sự gián đoạn của đạo hàm của giá trị tuyệt đối làm cho hàm KHÔNG trơn tru. Các hàm KHÔNG trơn tru tạo ra những khó khăn không cần thiết khi sử dụng đại số tuyến tính để rút ra các dạng đóng (biểu thức đại số đơn giản).

Các hình thức đóng thuận tiện khi người ta muốn nhanh chóng và dễ dàng tính toán độ dốc và đánh chặn trong hồi quy tuyến tính. 2

Xuống dốc

Gradient gốc thường được sử dụng cho hồi quy phi tuyến. Không có khả năng tạo các biểu mẫu kín cho nhiều mô hình phi tuyến, phép lặp trở thành một phương pháp chi phối để xác nhận hoặc điều chỉnh mô hình.

Một sự hiểu biết trực quan về độ dốc gốc có thể đạt được bằng cách xem xét một người khát, mù tìm nước trên đất chỉ bằng cách thực hiện các bước tính toán. (Trong phần mềm, các bước này là các bước lặp.) Người mù chỉ có thể cảm nhận được hướng của độ cao độ dốc (hướng dốc) với bàn chân của họ để hạ xuống độ cao tối thiểu cục bộ. 3

Bất cứ ai nói rằng, "Bản thân chức năng không thành vấn đề", liên quan đến các ứng dụng thông thường của việc giảm độ dốc sẽ là một lựa chọn nguy hiểm cho hướng dẫn trong một chuyến thám hiểm đi bộ đường dài mù. Chẳng hạn, sự đối ứng của khoảng cách như một hàm lỗi có thể sẽ dẫn đến mất nước và tử vong của những người đi bộ đường dài.

Các tiêu chí lựa chọn cho các số liệu lỗi rất quan trọng nếu một người quan tâm đến tốc độ hội tụ của một giải pháp hoặc liệu giải pháp đó có bao giờ được tìm thấy hay không. 4

Do độ dốc của mặt phẳng (bề mặt tuyến tính) là một hằng số, nên việc sử dụng độ dốc gốc cho các mô hình tuyến tính là lãng phí. Người mù không cần tiếp tục lấy mẫu góc của bàn chân.

Dấu hiệu của số liệu lỗi

Tuyên bố, "Kết quả phải là dương nên độ lệch dương và âm vẫn được tính," là không chính xác. 5

Hiệu quả của các số liệu lỗi liên quan đến 1.0

Do đạo hàm riêng của số liệu lỗi bình phương nhỏ nhất liên quan đến lỗi tại bất kỳ điểm đã cho nào là không đổi, nên số liệu lỗi bình phương nhỏ nhất hội tụ tương tự trên và dưới 1.0.

Ghi chú

[1] Kích thước của các vectơ biến độc lập và phụ thuộc của mô hình, trong học máy, thường được gọi là các tính năng và nhãn tương ứng.

[2] Một chức năng trơn tru khác, chẳng hạn như lỗi đối với nguồn thứ tư cũng sẽ dẫn đến các dạng đóng cho độ dốc và đánh chặn, mặc dù chúng sẽ tạo ra kết quả hơi khác nhau nếu hệ số tương quan là khác không.

[3] Các thuật toán gốc dốc nói chung không đảm bảo tìm được mức tối thiểu toàn cầu. Trong ví dụ đưa ra, sẽ có thể trích dẫn một lỗ nhỏ tồn tại với nước trong đó. Tùy thuộc vào các đặc điểm bề mặt (địa hình), việc cảm nhận góc của bàn chân (xác định độ dốc) có thể phản tác dụng. Việc tìm kiếm có thể trở nên hỗn loạn. Để mở rộng sự tương tự trực quan, hãy xem xét tìm kiếm dưới cùng của cầu thang trong thạch bản tương đối của Escher's.

[4] Để một số liệu lỗi có khả năng hội tụ và do đó hữu ích trong hồi quy bất kể hướng của lỗi, dấu hiệu của số liệu là không liên quan. Đó là mỗi tập hợp các đạo hàm riêng của chỉ số lỗi liên quan đến tập khoảng cách tương ứng giữa các dự đoán và quan sát mô hình nên có giá trị dương để hồi quy theo hướng đa hướng. Nghe có vẻ phức tạp hơn, nhưng ngay cả tuyên bố sửa chữa này là một sự đơn giản hóa.

[5] Số liệu lỗi trong các ứng dụng giảm độ dốc thường được tính bằng cách sử dụng hàm lồi để tránh sự quá mức và dao động có thể và không hội tụ. Trong một số trường hợp, các hàm lỗi khác mà tổng bình phương được sử dụng. Sự lựa chọn của chức năng có liên quan đến một số yếu tố:

  • Mô hình mà dữ liệu phù hợp
  • Các yếu tố dự kiến ​​sẽ ảnh hưởng hoặc thực sự ảnh hưởng đến độ lệch của các quan sát (dữ liệu huấn luyện) từ mô hình
  • Tài nguyên tính toán liên quan đến kích thước của tập dữ liệu

4

Dạng bình phương đôi khi được gọi là định mức Euclide hoặc định mức L2 . Một trong những tính chất rất hữu ích của nó là nó có đạo hàm được xác định dễ dàng, có thể được sử dụng trong phân tích toán học và được dịch khá dễ dàng thành mã.

Theo trực giác người ta cho rằng đó là lợi thế để phóng đại sự khác biệt theo giá trị của lỗi, bình phương nào. Bạn cũng có thể sử dụng quyền hạn 3 hoặc 4, nhưng đạo hàm phức tạp hơn.

Một số định mức khác nhau có thể được sử dụng, tùy theo hoàn cảnh cụ thể của vấn đề.


1
Một số gợi ý: Cũng trả lời câu hỏi thứ hai về khoảng cách thấp hơn 1. Hai yêu cầu bồi thường ở giữa câu hỏi không chính xác và cần được thách thức. Thuật ngữ Euclidean Norm có ý nghĩa mơ hồ theo những người ở Wolfram (và kiểm tra), do đó, Norm Norm có thể muốn là thuật ngữ viết tắt duy nhất được đề cập cho phương pháp lỗi bình phương nhỏ nhất.
FauChristian

2

Một biện minh xuất phát từ định lý giới hạn trung tâm. Nếu nhiễu trong dữ liệu của bạn là kết quả của tổng số nhiều hiệu ứng độc lập, thì nó sẽ có xu hướng được phân phối bình thường. Và thường được phân phối phương tiện mà khả năng dữ liệu tỉ lệ nghịch với mũ của vuông của khoảng cách đến trung bình.

Nói cách khác, tối thiểu hóa tổng bình phương của khoảng cách đến số tiền trung bình để tìm giá trị có khả năng nhất cho dòng giả định rằng lỗi được phân phối bình thường. Đây thường là một giả định hợp lý, nhưng tất nhiên không phải lúc nào cũng đúng.


1
Tiếng ồn lượng tử là tốn kém để tạo ra và hiếm. Hầu hết các sai lệch giữa các mô hình lý thuyết và dữ liệu thực nghiệm là có hệ thống, thường hỗn loạn, sở hữu các phân phối gần như không bình thường. Sử dụng hình vuông có thể được căn chỉnh phù hợp với chức năng Q như bạn đã nêu, nhưng đó không phải là lý do lịch sử hoặc hiện tại cho hình vuông. Các hàm liên tục cho phép ứng dụng đại số tuyến tính để tạo ra các dạng đóng cho độ dốc và chặn cho hồi quy tuyến tính. Ngay cả các chức năng (2, 4, ...) là liên tục. Các giá trị tuyệt đối của các hàm lẻ thì không.
FauChristian

2

Nó chỉ đơn giản xuất phát từ ước tính khả năng tối đa. trong đó chúng tôi tối đa hóa chức năng khả năng đăng nhập., để có cái nhìn chi tiết, hãy xem bài giảng này: Phương pháp khả năng tối đa cho hồi quy tuyến tính đơn giản .


Bình phương tối thiểu hoặc L2 Norm thường không được chọn vì xuất phát từ phương pháp khả năng tối đa. Sự phân phối lỗi trong thực tế hiếm khi được xác định và khi chúng được xác định hiếm khi bình thường. Đó là sự tiện lợi của việc sử dụng một đa thức lẻ (với đạo hàm đầu tiên liên tục) và do nhu cầu thấp về tài nguyên tính toán mà bình phương được sử dụng.
FauChristian

Vâng, đó sẽ là một câu trả lời tuyệt vời. Nhưng câu trả lời của tôi dựa nhiều hơn vào khía cạnh lý thuyết hoặc thống kê của hồi quy tuyến tính.
GeneX

1

Một lý do là dưới tính đồng nhất, định mức L2 tạo ra công cụ ước lượng không thiên vị tối thiểu (MVUE), xem Định lý Gauss-Markov. Điều đó có nghĩa là các giá trị được trang bị là các kỳ vọng có điều kiện với các biến giải thích, trong nhiều trường hợp là một thuộc tính đẹp. Hơn nữa nó là công cụ ước tính tốt nhất nếu tài sản trước đó là mong muốn.

Để đáp lại tuyên bố rằng chính hàm đó không quan trọng, các hàm khác nhau đưa ra các giải pháp với các thuộc tính rất khác nhau và rất nhiều nỗ lực đã tìm ra các hàm hình phạt thích hợp, ví dụ như hồi quy Ridge và LASSO. Các chức năng hình phạt không quan trọng.

chỉnh sửa: Để trả lời câu hỏi của bạn về khoảng cách thấp hơn 1, không có gì "sai" khi khoảng cách nhỏ hơn 1. Chúng tôi luôn muốn giảm thiểu khoảng cách và mất bình phương ở mọi nơi.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.