Tại sao dữ liệu sai lệch không được ưa thích cho mô hình?


16

Hầu hết mọi người khi nói về các phép biến đổi biến (cho cả biến dự báo và biến trả lời), họ thảo luận về các cách để xử lý độ lệch của dữ liệu (như chuyển đổi nhật ký, chuyển đổi hộp và biến đổi cox, v.v.). Điều tôi không thể hiểu là tại sao loại bỏ xiên được coi là một thực tiễn tốt nhất phổ biến như vậy? Làm thế nào để độ lệch ảnh hưởng đến hiệu suất của các loại mô hình như mô hình dựa trên cây, mô hình tuyến tính và mô hình phi tuyến tính? Loại mô hình nào bị ảnh hưởng nhiều hơn bởi độ lệch và tại sao?


2
Để đưa ra câu trả lời hợp lý, vui lòng làm rõ ý của bạn bằng cách: a) dữ liệu, b) mô hình hóa và c) mô hình. Câu hỏi chính - như thường lệ - là những gì bạn muốn làm với . Nhưng là gì?
cherub

Tôi đã cập nhật câu trả lời của mình để thêm một số trích dẫn có liên quan và mở rộng về các khiếu nại.
Tavrock

Câu trả lời:


11

Khi loại bỏ độ lệch, các phép biến đổi đang cố gắng làm cho tập dữ liệu tuân theo phân phối Gaussian. Lý do đơn giản là nếu bộ dữ liệu có thể được chuyển đổi đủ gần về mặt thống kê với bộ dữ liệu Gaussian, thì bộ công cụ lớn nhất có thể có sẵn để họ sử dụng. Kiểm tra như ANOVA, -test, F -test, và nhiều người khác phụ thuộc vào dữ liệu có sai không đổi ( σ 2 ) hoặc theo một phân phối Gaussian. 1tFσ2

Có những mô hình mạnh hơn 1 (như sử dụng thử nghiệm của Levine thay vì thử nghiệm của Bartlett), nhưng hầu hết các thử nghiệm và mô hình hoạt động tốt với các phân phối khác đều yêu cầu bạn biết phân phối nào bạn đang làm việc và thường chỉ phù hợp cho một phân phối duy nhất cũng.

Để trích dẫn Cẩm nang Thống kê Kỹ thuật NIST :

Trong mô hình hồi quy, chúng ta thường áp dụng các phép biến đổi để đạt được hai mục tiêu sau:

  1. để đáp ứng tính đồng nhất của giả định phương sai cho các lỗi.
  2. để tuyến tính hóa sự phù hợp càng nhiều càng tốt.

Một số quan tâm và đánh giá là cần thiết trong đó hai mục tiêu có thể xung đột. Chúng tôi thường cố gắng đạt được phương sai đồng nhất trước tiên và sau đó giải quyết vấn đề cố gắng tuyến tính hóa sự phù hợp.

và ở một địa điểm khác

Một mô hình liên quan đến một biến trả lời và một biến độc lập duy nhất có dạng:

Yi=f(Xi)+Ei

Trong đó là biến trả lời, X là biến độc lập, f là hàm phù hợp tuyến tính hoặc phi tuyến tính và E là thành phần ngẫu nhiên. Đối với một mô hình tốt, thành phần lỗi sẽ hoạt động như sau:YXfE

  1. bản vẽ ngẫu nhiên (nghĩa là độc lập);
  2. từ một phân phối cố định;
  3. với vị trí cố định; và
  4. với sự thay đổi cố định.

Ngoài ra, đối với các mô hình phù hợp, người ta thường cho rằng phân phối cố định là bình thường và vị trí cố định bằng không. Đối với một mô hình tốt, biến thể cố định phải càng nhỏ càng tốt. Một thành phần cần thiết của các mô hình phù hợp là để xác minh các giả định này cho thành phần lỗi và để đánh giá xem biến thể của thành phần lỗi có đủ nhỏ hay không. Biểu đồ, biểu đồ độ trễ và biểu đồ xác suất thông thường được sử dụng để xác minh các giả định phân phối, vị trí và biến thể cố định trên thành phần lỗi. Biểu đồ của biến trả lời và các giá trị dự đoán so với biến độc lập được sử dụng để đánh giá xem biến thể có đủ nhỏ hay không. Các lô của phần dư so với biến độc lập và các giá trị dự đoán được sử dụng để đánh giá giả định độc lập.

Đánh giá tính hợp lệ và chất lượng của sự phù hợp theo các giả định trên là một phần hoàn toàn quan trọng của quy trình phù hợp mô hình. Không phù hợp nên được coi là hoàn thành mà không có bước xác nhận mô hình đầy đủ.


  1. (viết tắt) trích dẫn cho khiếu nại:
    • Breyfogle III, Forrest W. Thực hiện Six Sigma
    • Pyzdek, Thomas. Cẩm nang Six Sigma
    • Montgomery, Douglas C. Giới thiệu về kiểm soát chất lượng thống kê
    • Ed. Cubberly, Willaim H và Bakerjan, Ramon. Cẩm nang Công cụ và Sản xuất Kỹ sư: Phiên bản Máy tính để bàn

Cảm ơn phản hồi của bạn. Nhưng theo như tôi biết, ANOVA hoặc t-test của F-test không được sử dụng trong các cây quyết định (ít nhất là để thực hiện phân tách). Ngoài ra, trong hồi quy tuyến tính, hầu hết các giả định liên quan đến hình dạng của phân phối đều liên quan đến các lỗi. Nếu lỗi bị sai lệch thì các thử nghiệm này thất bại. Vì vậy, điều này có nghĩa là độ lệch của biến dự đoán sẽ không ảnh hưởng đến chất lượng dự đoán cho các mô hình này. Xin hãy sửa tôi nếu tôi sai. Cảm ơn một lần nữa !!
saurav shekhar

1
Bạn có thể làm rõ câu hỏi của mình - bạn có muốn biết về việc chuyển đổi biến trả lời hoặc về việc chuyển đổi các biến dự đoán hoặc cả hai không?
Groovy_Worm

1
@Groovy_Worm cảm ơn bạn đã chỉ ra điều đó. Trong câu hỏi này, tôi quan tâm đến cả hai biến dự đoán và biến trả lời.
saurav shekhar

Bạn có thể đang tìm kiếm mô hình tuyến tính tổng quát (GLM) . Trong hồi quy tuyến tính, bạn thường cho rằng biến phụ thuộc của bạn tuân theo phân phối gaussian có điều kiện trên các biến ngẫu nhiên Xe . Với GLM, bạn có thể mở rộng vũ trụ của mình để cho phép (gần như) bất kỳ loại phân phối nào cho biến phụ thuộc, biến độc lập của bạn (thông qua chức năng liên kết mà bạn chỉ định).
Chris K

7

Điều này chủ yếu đúng với các mô hình tham số. Như Tavrock đã nói, việc có một biến trả lời không bị sai lệch làm cho việc ước lượng tham số Gaussian gần đúng hơn, điều này là do phân phối đối xứng hội tụ nhanh hơn nhiều so với Gaussian. Điều này có nghĩa là, nếu bạn có dữ liệu sai lệch, việc chuyển đổi nó sẽ tạo ra tập dữ liệu nhỏ hơn ít nhất để sử dụng khoảng tin cậy và kiểm tra thích hợp trên các tham số (khoảng dự đoán vẫn không hợp lệ, vì ngay cả khi dữ liệu của bạn hiện đối xứng, bạn không thể nói nó là bình thường, chỉ ước tính các tham số sẽ hội tụ đến Gaussian).

Toàn bộ bài phát biểu này là về phân phối có điều kiện của biến trả lời, bạn có thể nói: về lỗi. Tuy nhiên, nếu bạn có một biến có vẻ sai lệch khi bạn nhìn vào phân phối vô điều kiện của anh ta, điều đó có thể có nghĩa là nó có phân phối có điều kiện sai lệch. phù hợp với một mô hình trên dữ liệu của bạn sẽ làm bạn suy nghĩ về nó.

Trong các cây quyết định, trước tiên tôi sẽ chỉ ra một điều: không có điểm nào trong việc chuyển đổi các biến giải thích sai lệch, các hàm đơn điệu sẽ không thay đổi một điều; điều này có thể hữu ích trên các mô hình tuyến tính, nhưng không phải trên cây quyết định. Điều này cho biết, các mô hình GIỎI sử dụng phân tích phương sai để thực hiện các phép thuật và phương sai rất hợp lý đối với các dữ liệu bị lệch và sai lệch, đây là lý do tại sao việc chuyển đổi biến phản ứng của bạn có thể cải thiện đáng kể độ chính xác của mô hình.


1

Tôi tin rằng đây rất là một tạo tác của truyền thống để trở lại Gaussian do các đặc tính tốt đẹp của chúng.

Nhưng có những lựa chọn thay thế phân phối tốt, ví dụ như gamma tổng quát bao gồm một loạt các hình dạng và hình thức phân phối sai lệch khác nhau


1

Giống như các độc giả khác đã nói, một số nền tảng khác về những gì bạn đang dự định đạt được với dữ liệu của bạn sẽ hữu ích.

Điều đó đang được nói, có hai học thuyết quan trọng trong lĩnh vực thống kê được gọi là định lý giới hạn trung tâmđịnh luật về số lượng lớn . Điều đó có nghĩa là, càng có nhiều quan sát, một bộ dữ liệu dự kiến ​​sẽ xấp xỉ một phân phối bình thường , một phân phối có giá trị trung bình, trung bình và chế độ bằng nhau. Theo luật số lượng lớn, dự kiến ​​độ lệch giữa giá trị kỳ vọng và giá trị thực tế cuối cùng sẽ giảm xuống 0 khi có đủ các quan sát.

Do đó, một phân phối bình thường cho phép nhà nghiên cứu đưa ra dự đoán chính xác hơn về dân số nếu phân phối cơ bản được biết đến.

Skewness là khi một phân phối đi chệch khỏi điều này, nghĩa là một sai lệch có thể bị sai lệch tích cực hoặc tiêu cực. Tuy nhiên, định lý giới hạn trung tâm lập luận rằng với một tập hợp quan sát đủ lớn, kết quả sẽ là một phân phối xấp xỉ bình thường. Vì vậy, nếu phân phối không bình thường, trước tiên bạn nên thu thập thêm dữ liệu trước khi thử thay đổi cấu trúc cơ bản của phân phối thông qua các quy trình chuyển đổi mà bạn đã đề cập.


1

Khi nào thì xiên là một điều xấu? Các phân phối đối xứng (nói chung nhưng không phải luôn luôn: ví dụ: không dành cho phân phối Cauchy) có trung vị, chế độ và có nghĩa rất gần nhau. Vì vậy, hãy xem xét, nếu chúng ta muốn đo vị trí của một dân số, sẽ rất hữu ích khi có trung vị, chế độ và có nghĩa là gần nhau.

ln0=

Ví dụ từ 25 thu nhập tính bằng kilo đô la được tinh chế từ www.

k$	lnk$
28  3.33220451
29  3.36729583
35  3.555348061
42  3.737669618
42  3.737669618
44  3.784189634
50  3.912023005
52  3.951243719
54  3.988984047
56  4.025351691
59  4.077537444
78  4.356708827
84  4.430816799
90  4.49980967
95  4.553876892
101 4.615120517
108 4.682131227
116 4.753590191
121 4.795790546
122 4.804021045
133 4.890349128
150 5.010635294
158 5.062595033
167 5.117993812
235 5.459585514

Độ lệch của cột đầu tiên là 0,99 và của cột thứ hai là .05 0,05. Cột đầu tiên không có khả năng bình thường (Shapiro-Wilk p = 0,04) và cột thứ hai không đáng kể không bình thường (p = 0,57).

First column    Mean 90.0 (95% CI, 68.6 to 111.3)     Median 84.0 (95.7% CI, 52.0 to 116.0)
Second col Exp(Mean) 76.7 (95% CI, 60.2 to 97.7) Exp(Median) 84.0 (95.7% CI, 52.0 to 116.0)

exp[meanln(k$)] 

Rõ ràng, log-normal ở đây là một mô hình tốt hơn và logarit trung bình cho chúng ta một thước đo tốt hơn về vị trí. Rằng điều này được biết đến, nếu không hoàn toàn hiểu được, được minh họa bằng câu "Tôi dự đoán sẽ nhận được mức lương 5 con số".


0

Hầu hết các kết quả được dựa trên các giả định của Gaussian. Nếu bạn có phân phối bị lệch, bạn không có phân phối Gaussian, vì vậy có lẽ bạn nên cố gắng hết sức để biến nó thành phân phối đó.

NHƯNG tất nhiên, bạn có thể thử với GLM.


0

Tôi nghĩ rằng đó không chỉ là mô hình mà bộ não của chúng ta không được sử dụng để làm việc với dữ liệu bị sai lệch. Chẳng hạn, tài chính hành vi nổi tiếng rằng chúng ta không giỏi trong việc ước tính xác suất rất thấp hoặc cao.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.