Tại sao tiêu chí thông tin của Akaike không được sử dụng nhiều hơn trong học máy?

Tôi vừa chạy vào "tiêu chí thông tin Akaike", và tôi nhận thấy số lượng lớn tài liệu này về lựa chọn mô hình (cũng có những thứ như BIC dường như tồn tại).

Tại sao các phương pháp học máy hiện đại không tận dụng các tiêu chí lựa chọn mô hình BIC và AIC này?

— tiếng vang
nguồn

bởi vì không ai tính toán khả năng?

— Aksakal

"Phương pháp học máy hiện đại" nghĩa là gì? Theo như tôi sử dụng AIC và BIC được sử dụng thường xuyên.

— Ferdi

Ngoài ra tại sao -1? Hãy nhớ rằng không có câu hỏi ngu ngốc nào - mỗi câu hỏi cố gắng làm sáng tỏ vũ trụ

— lặp lại

@echo: Tôi không downvote, nhưng tôi nghĩ rằng câu hỏi của bạn sẽ được cải thiện nếu bạn có thể cung cấp / hỗ trợ cho yêu cầu chính (phương pháp học máy đó tận dụng các tiêu chí lựa chọn mô hình BIC và AIC này)

— user603

@Aksakal Cảm ơn. Tôi nghĩ sẽ tốt hơn nếu các câu hỏi được xây dựng xung quanh một yêu cầu sâu rộng có thể tạo ra yêu cầu đó. Ý tôi là như một quy luật chung.

— user603

AIC và BIC được sử dụng, ví dụ như trong hồi quy từng bước. Chúng thực sự là một phần của một lớp "heuristic" lớn hơn, cũng được sử dụng. Ví dụ, DIC (Tiêu chí thông tin sai lệch) thường được sử dụng trong lựa chọn Mô hình Bayes.

Tuy nhiên, về cơ bản chúng là "heuristic". Mặc dù có thể chỉ ra rằng, cả AIC và BIC đều hội tụ một cách không có triệu chứng đối với các phương pháp xác thực chéo (tôi nghĩ AIC hướng tới CV rời rạc và BIC đối với một số phương pháp khác, nhưng tôi không chắc chắn) dưới mức phạt và phạt quá mức tương ứng. Tức là sử dụng AIC, bạn sẽ thường nhận được một mô hình, phức tạp hơn mức cần thiết, trong khi với BIC, bạn thường nhận được một mô hình quá đơn giản.

Vì cả hai đều liên quan đến CV, CV thường là lựa chọn tốt hơn, không gặp phải những vấn đề này.

Cuối cùng, có vấn đề về # các tham số cần thiết cho BIC và AIC. Với các xấp xỉ hàm tổng quát (ví dụ KNN) trên các đầu vào có giá trị thực, có thể "ẩn" các tham số, nghĩa là xây dựng một số thực chứa thông tin giống như hai số thực (ví dụ: giao nhau giữa các chữ số). Trong trường hợp đó, số lượng tham số thực tế là bao nhiêu? Mặt khác, với các mô hình phức tạp hơn, bạn có thể có các ràng buộc đối với các tham số của mình, giả sử bạn chỉ có thể điều chỉnh các tham số sao cho (xem ví dụ tại đây ). Hoặc bạn có thể không nhận dạng được, trong trường hợp đó, nhiều giá trị của các tham số thực sự cho cùng một mô hình. Trong tất cả các trường hợp này, chỉ đơn giản là đếm các tham số không đưa ra ước tính phù hợp. $\theta_1 > \theta_2$

Do nhiều thuật toán học máy hiện đại cho thấy các tính chất này (tức là xấp xỉ phổ quát, số lượng tham số không rõ ràng, không thể nhận dạng), AIC và BIC ít hữu ích hơn cho mô hình này, so với cái nhìn đầu tiên.

CHỈNH SỬA :

Một số điểm có thể được làm rõ:

Có vẻ như tôi đã sai khi xem xét ánh xạ bằng cách xen kẽ các chữ số là một sự lựa chọn giữa (xem tại đây ). Tuy nhiên, các chi tiết về lý do tại sao điều này không phải là một điều khó hiểu là một chút khó hiểu. Tuy nhiên, chúng tôi thực sự không cần một sự lựa chọn cho ý tưởng này để hoạt động (một sự từ chối là đủ). $\mathbb{R}\rightarrow\mathbb{R}^N$
Theo bằng chứng của Cantor (năm 1877) thì phải có một song ánh giữa . Mặc dù sự lựa chọn này không thể được định nghĩa rõ ràng, sự tồn tại của nó có thể được chứng minh (nhưng điều này đòi hỏi tiên đề chưa được chứng minh). Sự lựa chọn này vẫn có thể được sử dụng trong một mô hình lý thuyết (có thể không thực sự thực hiện mô hình này trong máy tính), để giải nén một tham số duy nhất thành một số tham số tùy ý. $\mathbb{R}\rightarrow\mathbb{R}^N$
Chúng tôi thực sự không cần ánh xạ giữa để trở thành một mệnh đề. Bất kỳ hàm tính toán nào là đủ để giải nén nhiều tham số từ một tham số. Các dự đoán như vậy có thể được hiển thị là tồn tại dưới dạng giới hạn đối với một chuỗi các chức năng khác (còn gọi là các đường cong lấp đầy không gian , ví dụ: đường cong Peano ). $\mathbb{R}\rightarrow\mathbb{R}^N$ $\mathbb{R}\rightarrow\mathbb{R}^N$
Bởi vì không phải bằng chứng của Cantor là mang tính xây dựng (nó chỉ đơn giản chứng minh sự tồn tại của mệnh đề mà không đưa ra ví dụ), cũng không phải là các đường cong lấp đầy không gian (vì chúng chỉ tồn tại dưới dạng giới hạn của các đối tượng xây dựng và do đó không phải là xây dựng), nên lập luận I thực hiện chỉ là một bằng chứng lý thuyết. Về lý thuyết, chúng ta chỉ có thể tiếp tục thêm các tham số vào một mô hình để giảm BIC dưới bất kỳ giá trị mong muốn nào (trên tập huấn luyện). Tuy nhiên, trong quá trình triển khai mô hình thực tế, chúng ta phải ước tính đường cong lấp đầy không gian, do đó lỗi xấp xỉ có thể cấm chúng ta thực sự làm như vậy (tôi chưa thực sự kiểm tra điều này).
Bởi vì tất cả điều này đòi hỏi tiên đề của sự lựa chọn, bằng chứng trở nên không hợp lệ nếu bạn không chấp nhận tiên đề này (mặc dù hầu hết các nhà toán học đều làm như vậy). Điều đó có nghĩa là, trong toán học xây dựng, điều này có thể không thể thực hiện được, nhưng tôi không biết toán học mang tính xây dựng đóng vai trò gì cho thống kê.
Nhận dạng về bản chất được liên kết với sự phức tạp chức năng. Nếu người ta chỉ cần lấy một mô hình tham số nhận dạng và thêm một tham số thừa (ví dụ: không được sử dụng ở bất cứ đâu), thì mô hình mới sẽ không thể nhận dạng được. Về cơ bản, người ta đang sử dụng một mô hình có sự phức tạp của để giải quyết một vấn đề mà có độ phức tạp . Tương tự, với các hình thức không nhận dạng khác. Lấy ví dụ về trường hợp hoán vị tham số không xác định được. Trong trường hợp đó, người ta đang sử dụng một mô hình có độ phức tạp của , tuy nhiên, vấn đề thực tế chỉ có độ phức tạp của một tập hợp các lớp tương đương so với $N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . Tuy nhiên, đây chỉ là một cuộc tranh luận không chính thức, tôi không biết về bất kỳ sự đối xử chính thức nào về khái niệm "phức tạp" này.

— LiKao
nguồn

Quan tâm để kêu gọi trong bài viết này thống kê.stackexchange.com/questions/325129 / Giả ? Tôi đã không có may mắn với nó trong một thời gian.

— Skander H. - Phục hồi Monica

@LiKao Bạn có thể trích dẫn tài liệu tham khảo về "kỹ thuật" của các tham số ẩn, như trường hợp các chữ số giao nhau.

— horaceT

@horaceT Thật không may, tôi không biết bất kỳ bài báo nào, ví dụ này. Trong các bài viết về MDL có khái niệm "độ phức tạp chức năng" (ví dụ: lpl.psy.ohio-state.edu/document/MNP.pdf xem eq 10). Thông thường ví dụ được thực hiện với các tham số bị ràng buộc (ví dụ: Researchgate.net/publication/, ). Tôi muốn xoay ví dụ khi thảo luận về điều này và chỉ ra rằng một tham số đơn phức tạp có thể thu được nhiều tham số đơn giản vì tôi thấy nó trực quan hơn.

— LiKao

@horaceT Ngoài ra, nếu bạn giống như một điều trị toán học hơn, hãy xem xét rằng nó được chứng minh rằng đường cong điền tồn tại, tức là có một song ánh . Song ánh này có thể dễ dàng được sử dụng để xác định bijections . Vì vậy, đối với bất kỳ mô hình nào có tham số, tôi có thể sử dụng để nhận vectơ chiều từ tham số duy nhất của mình, sau đó cung cấp vectơ này làm tham số cho mô hình tham sốĐiều này cho tôi một mô hình tham số tương đương chức năng . Lắp mô hình đó, tuy nhiên ít nhất sẽ rất phức tạp.

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$

— LiKao

@LiKao Điều này 'khá hấp dẫn. Xin tham khảo bằng chứng cho biết "đường cong nộp đơn". Tôi có thể thấy rằng các tham số bị ràng buộc có mức độ tự do "ít" hơn. Ngây thơ, nếu f (x, y) = 0, y chỉ là hàm của x; bạn chỉ cần đặt g (x) trong đó y. Bạn không thể làm những điều tương tự với tối ưu hóa bị ràng buộc.

— horaceT