Giả định iid về các cặp , , thường được đưa ra trong thống kê và trong học máy. Đôi khi vì một lý do chính đáng, đôi khi không thuận tiện và đôi khi chỉ vì chúng ta thường đưa ra giả định này. Để trả lời thỏa đáng nếu giả định là thực sự cần thiết, và hậu quả của việc không đưa ra giả định này là gì, tôi sẽ dễ dàng kết thúc việc viết một cuốn sách (nếu bạn dễ dàng kết thúc việc đó như thế). Ở đây tôi sẽ cố gắng đưa ra một cái nhìn tổng quan ngắn gọn về những gì tôi thấy là những khía cạnh quan trọng nhất.i = 1 , ... , N(Xi,yi)i=1,…,N
Một giả định cơ bản
Giả sử rằng chúng ta muốn tìm hiểu một mô hình xác suất của được cho , mà chúng ta gọi là . Chúng tôi không đặt bất kỳ giả định nào về mô hình này thành linh mục, nhưng chúng tôi sẽ đưa ra giả định tối thiểu rằng một mô hình như vậy tồn tại đến mứcX p ( y ∣ X )yXp(y∣X)
- phân phối có điều kiện của cho là .yi p ( y i ∣ X i )Xip(yi∣Xi)
Điều đáng chú ý về giả định này là phân phối có điều kiện của phụ thuộc vào chỉ thông qua . Đây là những gì làm cho mô hình hữu ích, ví dụ như để dự đoán. Giả định này là kết quả của phần phân phối giống hệt theo giả định iid, nhưng nó yếu hơn vì chúng tôi không đưa ra bất kỳ giả định nào về '.yiiXiXi
Sau đây, trọng tâm chủ yếu sẽ là vai trò của độc lập.
Làm người mẫu
Có hai cách tiếp cận chính để học một mô hình của được đưa ra . Một cách tiếp cận được gọi là mô hình phân biệt đối xử và phương pháp khác là mô hình thế hệ .yX
- Mô hình phân biệt đối xử : Chúng tôi mô hình trực tiếp , ví dụ mô hình hồi quy logistic, mạng lưới thần kinh, cây hoặc rừng ngẫu nhiên. Các giả thiết mô hình làm việc thông thường sẽ được rằng 's là có điều kiện độc lập cho các ' s, mặc dù kỹ thuật ước lượng dựa vào lấy mẫu con hoặc bootstrapping có ý nghĩa nhất dưới iid hoặc exchangeability giả thiết yếu (xem dưới đây). Nhưng nhìn chung, đối với mô hình phân biệt đối xử, chúng ta không cần phải đưa ra các giả định phân phối về 's. p(y∣X)yiXiXi
- Mô hình hóa tạo : Chúng tôi mô hình hóa phân phối chung, , của thông thường bằng cách mô hình hóa phân phối có điều kiện và lề phân phối . Sau đó, chúng tôi sử dụng công thức của Bayes để tính toán . Phân tích phân biệt tuyến tính và phương pháp Bayes ngây thơ là ví dụ. Các mô hình giả định làm việc thường sẽ giả định iid.p(X,y)(X,y)p(X∣y)p(y)p(y∣X)
Đối với cả hai phương pháp mô hình hóa, giả định mô hình làm việc được sử dụng để rút ra hoặc đề xuất phương pháp học tập (hoặc công cụ ước tính). Điều đó có thể bằng cách tối đa hóa khả năng đăng nhập (bị phạt), giảm thiểu rủi ro theo kinh nghiệm hoặc bằng cách sử dụng các phương pháp Bayes. Ngay cả khi giả định mô hình làm việc là sai, phương thức kết quả vẫn có thể cung cấp sự phù hợp hợp lý của . p(y∣X)
Một số kỹ thuật được sử dụng cùng với mô hình phân biệt, chẳng hạn như đóng gói (tổng hợp bootstrap), hoạt động bằng cách khớp nhiều mô hình với dữ liệu được lấy mẫu ngẫu nhiên từ bộ dữ liệu. Nếu không có giả định iid (hoặc khả năng trao đổi), các bộ dữ liệu được lấy mẫu lại sẽ không có phân phối chung tương tự như bộ dữ liệu gốc. Bất kỳ cấu trúc phụ thuộc nào cũng trở nên "rối tung" bởi việc lấy mẫu lại. Tôi đã không suy nghĩ sâu sắc về điều này, nhưng tôi không hiểu tại sao điều đó nhất thiết phải phá vỡ phương pháp như một phương pháp để học . Ít nhất là không cho các phương pháp dựa trên các giả định độc lập làm việc. Tôi rất vui khi được chứng minh là sai ở đây.p(y∣X)
Tính nhất quán và giới hạn lỗi
Một câu hỏi chính cho tất cả các phương pháp học tập là liệu chúng có dẫn đến các mô hình gần với . Có một tài liệu lý thuyết rộng lớn trong thống kê và học máy liên quan đến tính nhất quán và giới hạn lỗi. Mục tiêu chính của tài liệu này là chứng minh rằng mô hình đã học gần với khi lớn. Tính nhất quán là một sự đảm bảo định tính, trong khi giới hạn lỗi cung cấp (bán) kiểm soát định lượng rõ ràng về sự gần gũi và đưa ra tỷ lệ hội tụ.p(y∣X)p(y∣X)N
Các kết quả lý thuyết đều dựa trên các giả định về phân phối chung của các quan sát trong bộ dữ liệu. Thông thường các giả định mô hình làm việc được đề cập ở trên được đưa ra (nghĩa là độc lập có điều kiện cho mô hình phân biệt đối xử và iid cho mô hình thế hệ). Đối với mô hình phân biệt đối xử, tính nhất quán và giới hạn lỗi sẽ yêu cầu hoàn thành một số điều kiện nhất định. Trong hồi quy cổ điển, một điều kiện như vậy là cho , trong đó biểu thị ma trận thiết kế với hàngXi1NXTX→ΣN→∞XXTi. Điều kiện yếu hơn có thể là đủ cho sự nhất quán. Trong học tập thưa thớt, một điều kiện như vậy là điều kiện eigenvalue bị hạn chế, xem ví dụ: Về các điều kiện được sử dụng để chứng minh kết quả tiên tri cho Lasso . Giả định iid cùng với một số giả định phân phối kỹ thuật ngụ ý rằng một số điều kiện đủ như vậy được đáp ứng với xác suất lớn, và do đó, giả định iid có thể chứng minh là đủ nhưng không phải là giả định cần thiết để có được sự nhất quán và giới hạn lỗi cho mô hình phân biệt.
Giả định mô hình làm việc độc lập có thể sai đối với một trong các phương pháp mô hình hóa. Như một quy tắc thô sơ, người ta vẫn có thể mong đợi tính nhất quán nếu dữ liệu đến từ một quy trình ergodic và người ta vẫn có thể mong đợi một số giới hạn lỗi nếu quá trình trộn đủ nhanh . Một định nghĩa toán học chính xác của các khái niệm này sẽ đưa chúng ta đi quá xa câu hỏi chính. Nó đủ để lưu ý rằng tồn tại các cấu trúc phụ thuộc bên cạnh giả định iid mà các phương pháp học tập có thể được chứng minh là có hiệu quả khi có xu hướng vô cùng.N
Nếu chúng ta có kiến thức chi tiết hơn về cấu trúc phụ thuộc, chúng ta có thể chọn thay thế giả định độc lập làm việc được sử dụng để mô hình hóa bằng mô hình cũng nắm bắt cấu trúc phụ thuộc. Điều này thường được thực hiện cho chuỗi thời gian. Một mô hình làm việc tốt hơn có thể dẫn đến một phương pháp hiệu quả hơn.
Đánh giá mô hình
Thay vì chứng minh rằng phương pháp học tập đưa ra một mô hình gần với nó có giá trị thực tiễn rất lớn để có được một đánh giá (tương đối) về "mô hình đã học tốt như thế nào". Điểm đánh giá như vậy có thể so sánh với hai hoặc nhiều mô hình đã học, nhưng chúng sẽ không cung cấp đánh giá tuyệt đối về mức độ gần gũi của mô hình đã học với . Ước tính điểm đánh giá thường được tính toán dựa trên kinh nghiệm dựa trên việc chia tập dữ liệu thành tập huấn và tập dữ liệu kiểm tra hoặc bằng cách sử dụng xác thực chéo.p(y∣X)p(y∣X)
Cũng như đóng gói, việc chia ngẫu nhiên bộ dữ liệu sẽ "làm rối tung" mọi cấu trúc phụ thuộc. Tuy nhiên, đối với các phương pháp dựa trên các giả định độc lập làm việc, các giả định về tính linh hoạt yếu hơn iid là đủ để các ước tính đánh giá là hợp lý, mặc dù các lỗi tiêu chuẩn trên các ước tính này sẽ rất khó đưa ra.
[ Chỉnh sửa: Sự phụ thuộc giữa các biến sẽ dẫn đến phân phối mô hình đã học khác với phân phối theo giả định iid. Ước tính được tạo ra bởi xác nhận chéo rõ ràng không liên quan đến lỗi tổng quát hóa. Nếu sự phụ thuộc mạnh mẽ, rất có thể đó sẽ là một ước tính kém.]
Tóm tắt (tl; dr)
Tất cả những điều trên nằm dưới giả định rằng có một mô hình xác suất có điều kiện cố định, . Do đó, không thể có xu hướng hoặc thay đổi đột ngột trong phân phối có điều kiện không được nắm bắt .p(y∣X)X
Khi học một mô hình của được cho , tính độc lập đóng vai trò làyX
- một giả định mô hình làm việc hữu ích cho phép chúng ta rút ra phương pháp học tập
- một giả định đủ nhưng không cần thiết để chứng minh tính nhất quán và cung cấp giới hạn lỗi
- một giả định đủ nhưng không cần thiết cho việc sử dụng các kỹ thuật phân tách dữ liệu ngẫu nhiên như đóng gói để học và xác nhận chéo để đánh giá.
Để hiểu chính xác những gì thay thế cho iid cũng đủ là không tầm thường và ở một mức độ nào đó là một đối tượng nghiên cứu.