Về tầm quan trọng của giả định iid trong học tập thống kê

54

Trong học tập thống kê, ngầm hay rõ ràng, một luôn luôn giả định rằng các tập huấn luyện gồm tuples đầu vào / response được rút ra độc lập từ cùng một phân phối chung với $\mathcal{D} = \{ \bf {X}, \bf{y} \}$ $N$ $({\bf{X}}_i,y_i)$ $\mathbb{P}({\bf{X}},y)$

p (X, y) = p (y | X) p (X)

$p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}})$

và mối quan hệ chúng ta đang cố gắng nắm bắt thông qua một thuật toán học tập cụ thể. Về mặt toán học, giả định iid này viết: $p( y \vert {\bf{X}})$

\begin{matrix} (X_{i}, y_{i}) \sim P (X, y), \forall i = 1, . . ., N \\ (X_{i}, y_{i}) independent of (X_{j}, y_{j}), \forall i \neq j \in {1, . . ., N} \end{matrix}

$\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j \in \{1,...,N\} \end{gather}$

Tôi nghĩ rằng tất cả chúng ta có thể đồng ý rằng giả định này hiếm khi được thỏa mãn trong thực tế, hãy xem câu hỏi SE liên quan này và các nhận xét khôn ngoan của @Glen_b và @Luca.

Câu hỏi của tôi là:

Trường hợp chính xác giả định iid trở nên quan trọng trong thực tế?

[Bối cảnh]

Tôi đang hỏi điều này bởi vì tôi có thể nghĩ ra nhiều tình huống trong đó không cần một giả định nghiêm ngặt như vậy để huấn luyện một mô hình nhất định (ví dụ: phương pháp hồi quy tuyến tính), hoặc ít nhất một người có thể làm việc xung quanh giả định iid và thu được kết quả mạnh mẽ. Trên thực tế, các kết quả thường sẽ giữ nguyên, thay vào đó là những suy luận mà người ta có thể rút ra sẽ thay đổi (ví dụ: ước lượng không đồng nhất và ước lượng tự động tương quan trong hồi quy tuyến tính: ý tưởng là sử dụng lại trọng số hồi quy OLS cũ nhưng để điều chỉnh hành vi mẫu hữu hạn của công cụ ước tính OLS để giải thích cho việc vi phạm các giả định Gauss-Markov).

Do đó, tôi đoán là giả định iid được yêu cầu không thể đào tạo một thuật toán học cụ thể, mà là để đảm bảo rằng các kỹ thuật như xác thực chéo có thể thực sự được sử dụng để suy ra một thước đo đáng tin cậy về khả năng khái quát của mô hình , điều này là điều duy nhất chúng ta quan tâm vào cuối ngày trong việc học thống kê bởi vì nó cho thấy rằng chúng ta thực sự có thể học được từ dữ liệu. Theo trực giác, tôi thực sự có thể hiểu rằng việc sử dụng xác thực chéo trên dữ liệu phụ thuộc có thể bị sai lệch một cách lạc quan (như được minh họa / giải thích trong ví dụ thú vị này ).

Đối với tôi, iid không liên quan gì đến việc đào tạo một mô hình cụ thể nhưng mọi thứ phải làm với tính tổng quát của mô hình đó . Điều này dường như đồng ý với một bài báo mà Huân Xu et al tìm thấy, xem "Tính mạnh mẽ và tính tổng quát cho các mẫu Markovian" ở đây .

Bạn có đồng ý với điều đó?

[Thí dụ]

Nếu điều này có thể giúp thảo luận, hãy xem xét vấn đề sử dụng thuật toán LASSO để thực hiện lựa chọn thông minh trong số các tính năng được cung cấp mẫu đào tạo với Chúng ta có thể giả sử thêm rằng: $P$ $N$ $({\bf{X}}_i,y_i)$ $\forall i=1,...,N$

X_{i} = [X_{i 1}, . . ., X_{i P}]

${\bf{X}}_i=[X_{i1},...,X_{iP}]$

Các đầu vào phụ thuộc do đó dẫn đến vi phạm giả định iid (ví dụ: đối với mỗi tính năng chúng tôi quan sát chuỗi thời gian điểm , do đó đưa ra tương quan tự động theo thời gian) ${\bf{X}}_i$ $j=1,..,P$ $N$
Các phản ứng có điều kiện là độc lập. $y_i \vert {\bf{X}}_i$
Chúng tôi có . $P \gg N$

Việc vi phạm giả định iid có thể gây ra vấn đề gì trong trường hợp đó giả sử chúng tôi dự định xác định hệ số xử phạt LASSO bằng cách sử dụng phương pháp xác thực chéo (trên bộ dữ liệu đầy đủ) + sử dụng xác thực chéo để cảm nhận về lỗi tổng quát hóa của chiến lược học tập này (chúng ta có thể bỏ cuộc thảo luận liên quan đến ưu / nhược điểm vốn có của LASSO, trừ khi nó hữu ích). $\lambda$

— Định lượng
nguồn

1

Bạn có thể đưa ra một khung tham chiếu mà bạn quan tâm, vì vậy cuộc thảo luận không quá rộng so với tất cả các phương pháp. Có phải chúng ta đang nói về hồi quy tuyến tính ở đây? Hay chúng ta đang nói về ước tính điểm cho các tham số bằng cách sử dụng, nói MLE? Hay chúng ta đang nói về khung CLT?

— Greenparker

2

Nếu bạn cũng giả sử phụ thuộc, thì trong hồi quy logistic bị phạt, người ta sẽ phạt khả năng đăng nhập. Nếu dữ liệu không độc lập, thì bạn không thể ghi lại khả năng ghi nhật ký chung và do đó không thể hoàn thành vấn đề tối ưu hóa liên quan.

y_{i}

$y_i$

— Greenparker

1

Không, tôi đang nghĩ ngược lại - nếu bạn nhanh chóng chuyển sang một giả định iid, bạn có thể không bao gồm độ trễ của , sai (cho các mục đích như không thiên vị, nhưng cũng gây hại cho sức mạnh dự đoán) tin rằng chúng không cần thiết.

y

$y$

— Christoph Hanck

3

Tôi không đồng ý rằng giả định độc lập là "thường bị vi phạm". Chuỗi thời gian là một trường hợp rất đặc biệt - thay vì ngoại lệ so với ví dụ điển hình. Giả định Iid cho phép bạn đơn giản hóa mô hình của mình và xây dựng một mô hình khác biệt hơn và nó có thể được thực hiện (ví dụ: các trường hợp của bạn được rút ngẫu nhiên , do đó chúng có thể được giả định độc lập).

— Tim

2

Trong ví dụ, viên đạn thứ hai, các không nên được giả sử có điều kiện iid Chúng có thể được giả định độc lập có điều kiện, nhưng phân phối có điều kiện được cho là phụ thuộc vào và do đó thay đổi theo .

y_{i}

$y_i$

X_{i}

$\mathbf{X}_i$

i

$i$

— NRH

32

Giả định iid về các cặp , , thường được đưa ra trong thống kê và trong học máy. Đôi khi vì một lý do chính đáng, đôi khi không thuận tiện và đôi khi chỉ vì chúng ta thường đưa ra giả định này. Để trả lời thỏa đáng nếu giả định là thực sự cần thiết, và hậu quả của việc không đưa ra giả định này là gì, tôi sẽ dễ dàng kết thúc việc viết một cuốn sách (nếu bạn dễ dàng kết thúc việc đó như thế). Ở đây tôi sẽ cố gắng đưa ra một cái nhìn tổng quan ngắn gọn về những gì tôi thấy là những khía cạnh quan trọng nhất. $(\mathbf{X}_i, y_i)$ $i = 1, \ldots, N$

Một giả định cơ bản

Giả sử rằng chúng ta muốn tìm hiểu một mô hình xác suất của được cho , mà chúng ta gọi là . Chúng tôi không đặt bất kỳ giả định nào về mô hình này thành linh mục, nhưng chúng tôi sẽ đưa ra giả định tối thiểu rằng một mô hình như vậy tồn tại đến mức $y$ $\mathbf{X}$ $p(y \mid \mathbf{X})$

phân phối có điều kiện của cho là . $y_i$ $X_i$ $p(y_i \mid X_i)$

Điều đáng chú ý về giả định này là phân phối có điều kiện của phụ thuộc vào chỉ thông qua . Đây là những gì làm cho mô hình hữu ích, ví dụ như để dự đoán. Giả định này là kết quả của phần phân phối giống hệt theo giả định iid, nhưng nó yếu hơn vì chúng tôi không đưa ra bất kỳ giả định nào về '. $y_i$ $i$ $X_i$ $\mathbf{X}_i$

Sau đây, trọng tâm chủ yếu sẽ là vai trò của độc lập.

Làm người mẫu

Có hai cách tiếp cận chính để học một mô hình của được đưa ra . Một cách tiếp cận được gọi là mô hình phân biệt đối xử và phương pháp khác là mô hình thế hệ . $y$ $\mathbf{X}$

Mô hình phân biệt đối xử : Chúng tôi mô hình trực tiếp , ví dụ mô hình hồi quy logistic, mạng lưới thần kinh, cây hoặc rừng ngẫu nhiên. Các giả thiết mô hình làm việc thông thường sẽ được rằng 's là có điều kiện độc lập cho các ' s, mặc dù kỹ thuật ước lượng dựa vào lấy mẫu con hoặc bootstrapping có ý nghĩa nhất dưới iid hoặc exchangeability giả thiết yếu (xem dưới đây). Nhưng nhìn chung, đối với mô hình phân biệt đối xử, chúng ta không cần phải đưa ra các giả định phân phối về 's. $p(y \mid \mathbf{X})$ $y_i$ $\mathbf{X}_i$ $\mathbf{X}_i$
Mô hình hóa tạo : Chúng tôi mô hình hóa phân phối chung, , của thông thường bằng cách mô hình hóa phân phối có điều kiện và lề phân phối . Sau đó, chúng tôi sử dụng công thức của Bayes để tính toán . Phân tích phân biệt tuyến tính và phương pháp Bayes ngây thơ là ví dụ. Các mô hình giả định làm việc thường sẽ giả định iid. $p(\mathbf{X}, y)$ $(\mathbf{X}, y)$ $p(\mathbf{X} \mid y)$ $p(y)$ $p(y \mid \mathbf{X})$

Đối với cả hai phương pháp mô hình hóa, giả định mô hình làm việc được sử dụng để rút ra hoặc đề xuất phương pháp học tập (hoặc công cụ ước tính). Điều đó có thể bằng cách tối đa hóa khả năng đăng nhập (bị phạt), giảm thiểu rủi ro theo kinh nghiệm hoặc bằng cách sử dụng các phương pháp Bayes. Ngay cả khi giả định mô hình làm việc là sai, phương thức kết quả vẫn có thể cung cấp sự phù hợp hợp lý của . $p(y \mid \mathbf{X})$

Một số kỹ thuật được sử dụng cùng với mô hình phân biệt, chẳng hạn như đóng gói (tổng hợp bootstrap), hoạt động bằng cách khớp nhiều mô hình với dữ liệu được lấy mẫu ngẫu nhiên từ bộ dữ liệu. Nếu không có giả định iid (hoặc khả năng trao đổi), các bộ dữ liệu được lấy mẫu lại sẽ không có phân phối chung tương tự như bộ dữ liệu gốc. Bất kỳ cấu trúc phụ thuộc nào cũng trở nên "rối tung" bởi việc lấy mẫu lại. Tôi đã không suy nghĩ sâu sắc về điều này, nhưng tôi không hiểu tại sao điều đó nhất thiết phải phá vỡ phương pháp như một phương pháp để học . Ít nhất là không cho các phương pháp dựa trên các giả định độc lập làm việc. Tôi rất vui khi được chứng minh là sai ở đây. $p(y \mid \mathbf{X})$

Tính nhất quán và giới hạn lỗi

Một câu hỏi chính cho tất cả các phương pháp học tập là liệu chúng có dẫn đến các mô hình gần với . Có một tài liệu lý thuyết rộng lớn trong thống kê và học máy liên quan đến tính nhất quán và giới hạn lỗi. Mục tiêu chính của tài liệu này là chứng minh rằng mô hình đã học gần với khi lớn. Tính nhất quán là một sự đảm bảo định tính, trong khi giới hạn lỗi cung cấp (bán) kiểm soát định lượng rõ ràng về sự gần gũi và đưa ra tỷ lệ hội tụ. $p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$ $N$

Các kết quả lý thuyết đều dựa trên các giả định về phân phối chung của các quan sát trong bộ dữ liệu. Thông thường các giả định mô hình làm việc được đề cập ở trên được đưa ra (nghĩa là độc lập có điều kiện cho mô hình phân biệt đối xử và iid cho mô hình thế hệ). Đối với mô hình phân biệt đối xử, tính nhất quán và giới hạn lỗi sẽ yêu cầu hoàn thành một số điều kiện nhất định. Trong hồi quy cổ điển, một điều kiện như vậy là cho , trong đó biểu thị ma trận thiết kế với hàng $\mathbf{X}_i$ $\frac{1}{N} \mathbb{X}^T \mathbb{X} \to \Sigma$ $N \to \infty$ $\mathbb{X}$ $\mathbf{X}_i^T$ . Điều kiện yếu hơn có thể là đủ cho sự nhất quán. Trong học tập thưa thớt, một điều kiện như vậy là điều kiện eigenvalue bị hạn chế, xem ví dụ: Về các điều kiện được sử dụng để chứng minh kết quả tiên tri cho Lasso . Giả định iid cùng với một số giả định phân phối kỹ thuật ngụ ý rằng một số điều kiện đủ như vậy được đáp ứng với xác suất lớn, và do đó, giả định iid có thể chứng minh là đủ nhưng không phải là giả định cần thiết để có được sự nhất quán và giới hạn lỗi cho mô hình phân biệt.

Giả định mô hình làm việc độc lập có thể sai đối với một trong các phương pháp mô hình hóa. Như một quy tắc thô sơ, người ta vẫn có thể mong đợi tính nhất quán nếu dữ liệu đến từ một quy trình ergodic và người ta vẫn có thể mong đợi một số giới hạn lỗi nếu quá trình trộn đủ nhanh . Một định nghĩa toán học chính xác của các khái niệm này sẽ đưa chúng ta đi quá xa câu hỏi chính. Nó đủ để lưu ý rằng tồn tại các cấu trúc phụ thuộc bên cạnh giả định iid mà các phương pháp học tập có thể được chứng minh là có hiệu quả khi có xu hướng vô cùng. $N$

Nếu chúng ta có kiến thức chi tiết hơn về cấu trúc phụ thuộc, chúng ta có thể chọn thay thế giả định độc lập làm việc được sử dụng để mô hình hóa bằng mô hình cũng nắm bắt cấu trúc phụ thuộc. Điều này thường được thực hiện cho chuỗi thời gian. Một mô hình làm việc tốt hơn có thể dẫn đến một phương pháp hiệu quả hơn.

Đánh giá mô hình

Thay vì chứng minh rằng phương pháp học tập đưa ra một mô hình gần với nó có giá trị thực tiễn rất lớn để có được một đánh giá (tương đối) về "mô hình đã học tốt như thế nào". Điểm đánh giá như vậy có thể so sánh với hai hoặc nhiều mô hình đã học, nhưng chúng sẽ không cung cấp đánh giá tuyệt đối về mức độ gần gũi của mô hình đã học với . Ước tính điểm đánh giá thường được tính toán dựa trên kinh nghiệm dựa trên việc chia tập dữ liệu thành tập huấn và tập dữ liệu kiểm tra hoặc bằng cách sử dụng xác thực chéo. $p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$

Cũng như đóng gói, việc chia ngẫu nhiên bộ dữ liệu sẽ "làm rối tung" mọi cấu trúc phụ thuộc. Tuy nhiên, đối với các phương pháp dựa trên các giả định độc lập làm việc, các giả định về tính linh hoạt yếu hơn iid là đủ để các ước tính đánh giá là hợp lý, mặc dù các lỗi tiêu chuẩn trên các ước tính này sẽ rất khó đưa ra.

[ Chỉnh sửa: Sự phụ thuộc giữa các biến sẽ dẫn đến phân phối mô hình đã học khác với phân phối theo giả định iid. Ước tính được tạo ra bởi xác nhận chéo rõ ràng không liên quan đến lỗi tổng quát hóa. Nếu sự phụ thuộc mạnh mẽ, rất có thể đó sẽ là một ước tính kém.]

Tóm tắt (tl; dr)

Tất cả những điều trên nằm dưới giả định rằng có một mô hình xác suất có điều kiện cố định, . Do đó, không thể có xu hướng hoặc thay đổi đột ngột trong phân phối có điều kiện không được nắm bắt . $p(y \mid \mathbf{X})$ $\mathbf{X}$

Khi học một mô hình của được cho , tính độc lập đóng vai trò là $y$ $\mathbf{X}$

một giả định mô hình làm việc hữu ích cho phép chúng ta rút ra phương pháp học tập
một giả định đủ nhưng không cần thiết để chứng minh tính nhất quán và cung cấp giới hạn lỗi
một giả định đủ nhưng không cần thiết cho việc sử dụng các kỹ thuật phân tách dữ liệu ngẫu nhiên như đóng gói để học và xác nhận chéo để đánh giá.

Để hiểu chính xác những gì thay thế cho iid cũng đủ là không tầm thường và ở một mức độ nào đó là một đối tượng nghiên cứu.

— NRH
nguồn

2

Đây là một câu trả lời cực kỳ tốt. Đó là vị trí và cung cấp cho tôi đủ tài liệu tham khảo để tự học, cảm ơn bạn rất nhiều vì điều đó @NRH Tôi rất vui mừng. Tôi sẽ chỉ để lại tiền thưởng để khuyến khích người khác trả lời câu hỏi nhưng tôi đã đánh dấu đây là câu trả lời được chấp nhận vì nó giải quyết tốt tất cả các mối quan tâm ban đầu của tôi.

— Quantuple

10

Những gì giả định iid là các biến ngẫu nhiên là độc lập và phân phối giống hệt nhau . Bạn có thể chính thức xác định ý nghĩa của nó, nhưng không chính thức nó nói rằng tất cả các biến cung cấp cùng một loại thông tin độc lập với nhau (bạn cũng có thể đọc về khả năng trao đổi liên quan ).

Từ những ý tưởng trừu tượng, hãy chuyển sang một ví dụ cụ thể: trong hầu hết các trường hợp, dữ liệu của bạn có thể được lưu trữ trong một ma trận, với các quan sát theo hàng và các biến khôn ngoan theo cột. Nếu bạn cho rằng dữ liệu của mình là iid , thì điều đó có nghĩa là bạn chỉ cần bận tâm về mối quan hệ giữa các cột và không phải bận tâm về mối quan hệ giữa các hàng. Nếu bạn bận tâm về cả hai thì bạn sẽ mô hình hóa sự phụ thuộc của cột vào cột và hàng trên hàng, tức là mọi thứ trên mọi thứ. Rất khó để thực hiện đơn giản hóa và xây dựng một mô hình thống kê mọi thứ tùy thuộc vào mọi thứ.

Bạn nhận thấy một cách chính xác rằng tính linh hoạt giúp chúng ta có thể sử dụng các phương thức như xác thực chéo hoặc bootstrap, nhưng nó cũng cho phép sử dụng định lý giới hạn trung tâm và nó cho phép chúng ta đơn giản hóa hữu ích cho việc mô hình hóa (suy nghĩ theo thuật ngữ cột ).

Như bạn đã thấy trong ví dụ LASSO, giả định độc lập thường được làm mềm thành độc lập có điều kiện . Ngay cả trong trường hợp như vậy, chúng ta cần các "bộ phận" độc lập và phân phối giống hệt nhau. Tương tự, giả định mềm hơn thường được thực hiện cho các mô hình chuỗi thời gian, mà bạn đã đề cập, giả định rằng sự ổn định (do đó có sự phụ thuộc nhưng cũng có một phân phối chung và chuỗi ổn định theo thời gian - một phần "iid" lại). Đó là vấn đề quan sát một số điều tương tự mang cùng ý tưởng về một số hiện tượng chung. Nếu chúng ta có một số điều khác biệt và phụ thuộc, chúng ta không thể thực hiện bất kỳ khái quát nào.

Điều bạn phải nhớ là đây chỉ là một giả định, chúng tôi không nghiêm ngặt về nó. Đó là về việc có đủ những thứ mà tất cả, một cách độc lập, truyền tải thông tin tương tự về một số hiện tượng phổ biến. Nếu những thứ ảnh hưởng lẫn nhau, rõ ràng họ sẽ truyền đạt thông tin tương tự để chúng không hữu ích.

Hãy tưởng tượng rằng bạn muốn tìm hiểu về khả năng của trẻ em trong một lớp học, vì vậy bạn cho chúng một số bài kiểm tra. Bạn có thể sử dụng kết quả kiểm tra như một chỉ số về khả năng của trẻ em chỉ khi chúng tự làm chúng, độc lập với nhau. Nếu họ tương tác thì có lẽ bạn sẽ đo khả năng của đứa trẻ thông minh nhất hoặc người có ảnh hưởng nhất. Điều đó không có nghĩa là bạn cần phải cho rằng không có sự tương tác hay phụ thuộc giữa những đứa trẻ, mà đơn giản là chúng tự làm các bài kiểm tra. Những đứa trẻ cũng cần được "phân phối giống hệt nhau", vì vậy chúng không thể đến từ các quốc gia khác nhau, nói các ngôn ngữ khác nhau, ở các độ tuổi khác nhau vì sẽ khó diễn giải kết quả (có thể chúng không hiểu câu hỏi và trả lời ngẫu nhiên). Nếu bạn có thể cho rằng dữ liệu của bạn là iidsau đó bạn có thể tập trung vào việc xây dựng một mô hình chung. Bạn có thể đối phó với phi iid dữ liệu nhưng sau đó bạn phải lo lắng về "tiếng ồn" trong dữ liệu của bạn nhiều hơn nữa.

Bên cạnh câu hỏi chính của bạn, bạn cũng đang hỏi về cross-validation với phi iid dữ liệu. Mặc dù bạn dường như nhấn mạnh tầm quan trọng của giả định iid , đồng thời bạn nói quá về các vấn đề không đáp ứng giả định này đặt ra cho việc xác nhận chéo. Có nhiều cách để chúng ta có thể xử lý dữ liệu đó khi sử dụng các phương pháp lấy mẫu lại như bootstrap hoặc xác thực chéo. Nếu bạn đang xử lý chuỗi thời gian, bạn không thể cho rằng các giá trị là độc lập, do đó, lấy phần ngẫu nhiên của các giá trị sẽ là một ý tưởng tồi vì nó sẽ bỏ qua cấu trúc tự động tương quan của dữ liệu. Do đó, với chuỗi thời gian, chúng tôi thường sử dụng một bước trước xác thực chéo, tức là bạn lấy một phần của chuỗi để dự đoán giá trị tiếp theo (không được sử dụng để lập mô hình). Tương tự, nếu dữ liệu của bạn có cấu trúc cụm , bạn lấy mẫu toàn bộ cụm để giữ nguyên bản chất của dữ liệu. Vì vậy, như với mô hình, chúng ta có thể đối phó với phi iid -sness cũng có khi làm cross-validation, nhưng chúng ta cần phải thích nghi với phương pháp của chúng tôi với tính chất của dữ liệu từ các phương pháp thiết kế cho iid dữ liệu không được áp dụng trong những trường hợp như vậy.

— Tim
nguồn

Tôi đánh giá cao rằng bạn đã dành một chút thời gian để trả lời mối quan tâm của tôi. Trong khi bạn cung cấp một lời giải thích thực sự tốt đẹp về những gì giả định iid truyền tải ... nó làm tôi thất vọng. (1) Để đào tạo LASSO là đủ (vì nó cho phép người ta viết ước tính khả năng đăng nhập bị phạt), nhưng tác động của không phải là một mẫu iid (đó là trường hợp nếu các yếu tố dự đoán đến từ chuỗi thời gian và do đó được tự động hóa). (2) Ngoài ra, kết quả của việc không có khả năng trao đổi khi sử dụng xác nhận chéo là gì? (ctd) ...

y_{i} | X_{i}

$y_i \vert {\bf{X}}_i$

X_{i}

$\bf{X}_i$

— Định lượng

(ctd) ... Nói cách khác, mặc dù câu trả lời của bạn chắc chắn làm sáng tỏ khái niệm iid, tôi muốn biết thêm trên cơ sở kỹ thuật: khi điều này bị vi phạm, những ảnh hưởng là gì?

— Quantuple

@Quantuple sau đó bạn sử dụng các phương thức cho dữ liệu không phải là iid, ví dụ: trong toàn bộ khối dữ liệu mẫu trong chuỗi thời gian trong bootstrap, v.v.

— Tim

Cảm ơn một lần nữa. Tôi thực sự nhớ rằng đã đọc ở đâu đó về các kỹ thuật như vậy. Có một nguồn thảo luận về tất cả các phương pháp ứng cử viên tiềm năng? Tôi vừa tình cờ đọc được bài báo của C. Bergmeir, R. Hyndman, B. Koo "Một lưu ý về tính hợp lệ của việc xác thực chéo để đánh giá dự đoán chuỗi thời gian" mà tôi sẽ cố gắng đọc càng sớm càng tốt.

— Quantuple

1

@Quantuple kiểm tra tác phẩm kinh điển "Giới thiệu về Bootstrap" của Efron và Tibshirani và "Phương pháp Bootstrap và ứng dụng của họ" của Davison và Hinkley để đọc về bootstrap (cùng ý tưởng áp dụng cho xác thực chéo); Cẩm nang chuỗi thời gian mô tả cách sử dụng xác thực chéo và bootstrap cho dữ liệu đó (tức là đi trước một bước xác thực chéo). Kiểm tra chỉnh sửa của tôi.

— Tim

3

Nơi duy nhất mà người ta có thể bỏ qua iid một cách an toàn là trong các khóa học thống kê đại học và máy học. Bạn đã viết rằng:

người ta có thể làm việc xung quanh giả định iid và thu được kết quả mạnh mẽ. Trên thực tế, kết quả thường sẽ giữ nguyên, thay vào đó là những suy luận mà người ta có thể rút ra sẽ thay đổi ...

Điều này chỉ đúng nếu hình thức chức năng của các mô hình được giả định là cơ bản chính xác. Nhưng, một giả định như vậy thậm chí còn ít hợp lý hơn iid.

Có ít nhất hai cách mà iid cực kỳ quan trọng về mặt mô hình hóa ứng dụng:

Đó là một giả định rõ ràng trong hầu hết các suy luận thống kê, như bạn lưu ý trong câu hỏi của bạn. Trong hầu hết các mô hình trong thế giới thực, ở một số giai đoạn chúng ta cần sử dụng suy luận để kiểm tra đặc tả, chẳng hạn như trong quá trình lựa chọn biến và so sánh mô hình. Vì vậy, trong khi mỗi mô hình cụ thể phù hợp có thể ổn mặc dù vi phạm iid, cuối cùng bạn vẫn có thể chọn mô hình sai.
Tôi thấy rằng suy nghĩ thông qua việc vi phạm iid là một cách hữu ích để suy nghĩ về cơ chế tạo dữ liệu, từ đó giúp tôi suy nghĩ về đặc điểm kỹ thuật phù hợp của một mô hình tiên nghiệm. Hai ví dụ:
- Nếu dữ liệu được nhóm, đây là vi phạm của iid. Một biện pháp khắc phục điều này có thể là một mô hình hỗn hợp. Suy luận tôi sẽ rút ra từ một mô hình hỗn hợp thường hoàn toàn khác với mô hình mà tôi rút ra từ OLS.
- Mối quan hệ phi tuyến tính giữa các biến phụ thuộc và biến độc lập thường hiển thị khi kiểm tra phần dư như một phần của điều tra iid.

Tất nhiên, trong khá nhiều mô hình mà tôi từng xây dựng, tôi đã thất bại trong nhiệm vụ giảm phân phối phần dư xuống bất cứ thứ gì gần với phân phối thực sự bình thường. Nhưng, tuy nhiên, tôi luôn đạt được rất nhiều bằng cách cố gắng thực sự, thực sự, khó để làm điều đó.

— Tim
nguồn

Cảm ơn câu trả lời của bạn rất sâu sắc. Ở câu cuối cùng của (1), bạn có nghĩa là bạn có thể có một số mô hình phù hợp với dữ liệu được quan sát, nhưng khi bạn sử dụng các kỹ thuật chọn mô hình chuẩn (ví dụ: xác thực chéo), bạn sẽ không chọn mô hình tốt nhất ( về tính khái quát) bởi vì suy luận bạn rút ra sẽ bị sai lệch do vi phạm IID? (2) Có vẻ như tôi nói về việc bạn nói về phần dư IID như là một phần của đặc tả chức năng (ví dụ phần dư hồi quy) không làm mất hiệu lực những gì bạn viết (ctd) ...

— Định lượng

(ctd) ... nhưng câu hỏi ban đầu có liên quan đến các ví dụ đào tạo không iid (x, y) không phải là phần dư sau khi ước tính mô hình. Tôi đoán câu hỏi của tôi có thể là, khi bạn có các ví dụ đào tạo không phải là iid (ví dụ như chuỗi thời gian), bạn có phải thêm một bước xử lý trước để biến chúng thành iid không? Nếu bạn không và áp dụng quy trình chuẩn để ước tính / xác thực chéo mô hình của bạn, thì cảnh báo ở đâu?

— Quantuple

1

Khi bạn có các ví dụ đào tạo không iid, ý tưởng là tìm một mô hình có tính chất phi iid và tạo ra các phần dư là iid. Mặc dù có một số vấn đề trong đó có ý nghĩa khi xử lý trước dữ liệu (ví dụ: biến đổi các biến trong hồi quy tuyến tính), nhiều vấn đề iid được giải quyết tốt hơn bằng cách tìm một mô hình giải quyết rõ ràng vấn đề iid. Ví dụ: các hàm truyền trong chuỗi thời gian hoặc các mô hình phân cấp trong dữ liệu cắt ngang.

— Tim

Tôi đồng ý với thực tế rằng, bởi vì dữ liệu chuỗi thời gian thường thể hiện một số dạng phụ thuộc, nên việc nắm bắt điều này thông qua các mô hình thống kê được thiết kế để thực hiện điều đó là ví dụ: Điều này là liên quan đến đào tạo. Bây giờ, khi có liên quan đến xác thực chéo (CV), tôi đoán rằng tôi cũng cần các phương pháp đặc biệt để giải thích cho vấn đề không phải là không? Tôi có nghĩa là sử dụng các chức năng chuyển đã không thay đổi thực tế rằng dữ liệu của tôi không phải là iid ở nơi đầu tiên. Có một danh sách các phương pháp đặc biệt như vậy ở đâu đó? Độ lệch lạc quan lớn đến mức nào khi sử dụng phương pháp CV tiêu chuẩn với dữ liệu không phải là iid?

— Quantuple

1

Nó sẽ phụ thuộc vào bản chất của phương pháp xác thực chéo và vấn đề. Tôi nghĩ mẹo là sử dụng các phương thức xác thực chéo mà không được cấu trúc ngầm xung quanh iid. Ví dụ, một jacknife sẽ có ý nghĩa rất nhỏ. Nhưng, việc chia mẫu thành các mẫu ước tính, kiểm tra và xác nhận, có lẽ sẽ như vậy. Nhưng, đây thực sự là một câu hỏi khác với câu hỏi ban đầu của bạn và nó không phải là lĩnh vực chuyên môn của tôi.

— Tim

2

Theo tôi có hai lý do khá trần tục tại sao giả định iid lại quan trọng trong học thống kê (hay thống kê nói chung).

Rất nhiều hậu trường toán học phụ thuộc vào giả định này. Nếu bạn muốn chứng minh rằng phương pháp học tập của bạn thực sự hoạt động với nhiều hơn một bộ dữ liệu, giả định iid cuối cùng sẽ tăng lên. Có thể tránh nó, nhưng toán học trở nên khó hơn nhiều lần.
Nếu bạn muốn học một cái gì đó từ dữ liệu, bạn cần phải giả định rằng có một cái gì đó để học. Việc học là không thể nếu mọi điểm dữ liệu được tạo ra bởi cơ chế khác nhau. Vì vậy, điều cần thiết là giả định rằng một cái gì đó thống nhất tập dữ liệu đã cho. Nếu chúng ta giả sử rằng dữ liệu là ngẫu nhiên, thì thứ này tự nhiên là phân phối xác suất, bởi vì phân phối xác suất bao gồm tất cả thông tin về biến ngẫu nhiên.

Vì vậy, nếu chúng ta có dữ liệu ( có thể là vectơ hoặc vô hướng), chúng tôi giả sử rằng nó đến từ phân phối : $x_1,...,x_n$ $x_i$ $F_n$

$(x_{1}, . . ., x_{n}) \sim F_{n} .$ $(x_1,...,x_n)\sim F_n.$
Ở đây chúng tôi có một vấn đề. Chúng tôi cần đảm bảo rằng có liên quan đến , đối với và khác nhau , nếu không, chúng tôi có vấn đề ban đầu, rằng mọi điểm dữ liệu được tạo khác nhau. Vấn đề thứ hai là mặc dù chúng ta có điểm dữ liệu, về cơ bản chúng ta có một điểm dữ liệu để ước tính , vì là phân phối xác suất biến đổi. Giải pháp đơn giản nhất cho hai vấn đề này là một giả định iid. Với nó nơi . Chúng tôi có mối quan hệ rất rõ ràng giữa và và chúng tôi có $F_n$ $F_m$ $n$ $m$ $n$ $F_n$ $F_n$ $n$ $F_n=F^n,$ $x_i\sim F$ $F_n$ $F_m$ $n$ dữ liệu chỉ để ước tính một . Có hai cách khác để giải quyết hai vấn đề này, nhưng điều cần lưu ý là mọi phương pháp học thống kê đều cần giải quyết vấn đề này và điều đó xảy ra rằng giả định iid là cách không phức tạp nhất để làm điều đó. $F$

— mpiktas
nguồn

Cảm ơn thú vị của bạn về câu hỏi. Theo như quan điểm đầu tiên của bạn, thực sự dễ dàng để nghĩ rằng giả định iid sẽ xuất hiện ở đâu đó trong lý do, nhưng bạn có tình cờ có một tài liệu tham khảo (không phải là tôi không tin, chỉ là tôi không muốn biết chính xác ở đâu). Điểm thứ hai của bạn rất rõ ràng và tôi chưa bao giờ nghĩ về nó theo cách đó. Nhưng đối với đào tạo, phân phối này của "đầu vào" dữ liệu là không quan tâm đến các modeller nói chung, phải không? Trong ví dụ về LASSO, chúng tôi chỉ quan tâm đến độc lập có điều kiện các phản hồi đưa ra đầu vào (ctd) ...

x

$x$

y

$y$

x

$x$

— Định lượng

(ctd) ... nhưng như bạn đã nêu trong điểm đầu tiên của mình, giả định về các ví dụ đào tạo iid sẽ quay trở lại khi chúng ta xem xét các đặc tính tổng quát của LASSO. Điều gì sẽ tốt đẹp (và những gì tôi đang tuyệt vọng tìm kiếm tôi đoán) là một giải thích kỹ thuật tham khảo / đơn giản cho thấy sự vi phạm của giả định iid đưa ra sự thiên vị lạc quan trong công cụ ước tính xác thực chéo.

— Quantuple

Phân phối dữ liệu đầu vào là quan trọng. Nếu chúng ta không cho rằng việc phân phối dữ liệu được khắc phục bằng cách nào đó, thì chúng ta không thể tin tưởng rằng việc đào tạo sẽ dẫn đến một mô hình mạnh mẽ, tức là hoạt động tốt trên dữ liệu thử nghiệm. Giả sử rằng giả định iid thất bại, hay đúng hơn là giả định độc lập không bị vi phạm nhưng dữ liệu không cần phải được phân phối giống hệt nhau. Điều này có nghĩa là DGP có thể là như sau: cho và , cho . Giả sử và là độc lập.

y_{i} = α + β_{1} x_{1 i} + ε_{i}

$y_i = \alpha + \beta_1 x_{1i} + \varepsilon_i$

i = 1, . . ., n / 2

$i=1,...,n/2$

y_{i} = α + β_{2} x_{2 i} + ε_{i}

$y_i=\alpha+\beta_2x_{2i}+\varepsilon_i$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x_{1 i}

$x_{1i}$

x_{2 i}

$x_{2i}$

— mpiktas

Bây giờ, chọn tập huấn luyện và tập kiểm tra . Cho dù bạn chọn phương pháp đào tạo nào, nó sẽ thực hiện khủng khiếp trên tập kiểm tra, vì dữ liệu được tạo bởi hai quy trình khác nhau, không giống nhau. Đây là một ví dụ giả định, nhưng không có gì ngăn cản nó xảy ra trong ví dụ học thống kê thực sự.

i = 1, . . ., n / 2

$i=1,...,n/2$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

— mpiktas

Vâng hoàn toàn ... Tôi đã viết quá nhanh và nó dẫn đến một bình luận rất không rõ ràng. Khi tôi viết "phân phối dữ liệu đầu vào không liên quan đến người điều hành", tôi thực sự đã nghĩ về thực tế rằng phần độc lập của giả định iid không liên quan khi ước lượng mô hình (vì nó không ảnh hưởng đến chức năng hồi quy ). Theo như phần tương tự của giả định iid có liên quan, thì thực sự là một giả định cần thiết để đặt toàn bộ bánh xe suy luận thống kê thành chuyển động (nó tránh nói theo cách của bạn rằng "mọi điểm dữ liệu được tạo ra bởi cơ chế khác nhau").

x

$x$

E [y | X]

$E[y \vert X]$

— Quantuple

1

Tôi muốn nhấn mạnh rằng trong một số trường hợp, dữ liệu không phải là iid và việc học thống kê vẫn có thể. Điều quan trọng là phải có một mô hình nhận dạng để phân phối chung tất cả các quan sát; nếu các quan sát là iid thì phân phối chung này dễ dàng thu được từ phân phối biên của các quan sát đơn lẻ. Nhưng trong một số trường hợp, phân phối chung được đưa ra trực tiếp, mà không dùng đến phân phối cận biên.

Một mô hình được sử dụng rộng rãi trong đó các quan sát không phải là iid là mô hình hỗn hợp tuyến tính: với , , , , và . Ma trận (thiết kế) và được coi là cố định, là vectơ tham số, là vectơ ngẫu nhiên và , và

Y = X α + Z u + ε

$\let\epsilon\varepsilon Y = X \alpha + Z u + \epsilon$

Y \in R^{n}

$\def\R{\mathbb{R}}Y \in \R^n$

X \in R^{n \times p}

$X \in \R^{n\times p}$

α \in R^{p}

$\alpha \in \R^p$

Z \in R^{n \times q}

$Z \in \R^{n\times q}$

u \in R^{q}

$u \in \R^q$

ε \in R^{n}

$\epsilon\in\R^n$

X

$X$

Z

$Z$

α

$\alpha$

u

$u$

u \sim N (0, τ I_{q})

$\def\N{\mathcal{N}} u\sim \N(0,\tau I_q)$

ε \sim N (0, σ^{2} I_{n})

$\epsilon \sim \N(0,\sigma^2 I_n)$

τ

$\tau$

σ^{2}

$\sigma^2$ là các tham số của mô hình.

Mô hình này được thể hiện tốt nhất bằng cách phân phối : Các tham số cần học là , , . Một vectơ có kích thước được quan sát; các thành phần của nó không phải là iid $Y$

Y \sim N (X α, τ Z Z^{'} + σ^{2} I_{n}) .

$Y \sim \N(X\alpha, \tau ZZ' + \sigma^2 I_n).$

α

$\alpha$

τ

$\tau$

σ^{2}

$\sigma^2$

Y

$Y$

n

$n$

— Elvis
nguồn