Những bất lợi của việc phân phối lệch trái là gì?

7

Tôi hiện đang làm việc về một vấn đề phân loại và tôi có một cột số bị lệch. Tôi đã đọc nhiều bài đăng mà mọi người khuyên nên thực hiện chuyển đổi nhật ký hoặc chuyển đổi boxcox để sửa chữa độ lệch trái.

Vì vậy, tôi đã tự hỏi điều gì sẽ xảy ra nếu tôi rời khỏi sự sai lệch như nó và tiếp tục với việc xây dựng mô hình của tôi? Có bất kỳ lợi thế của việc sửa chữa độ lệch cho vấn đề phân loại (knn, hồi quy logistic)?

machine-learning python

— người dùng_6394
nguồn

4

Có những vấn đề sẽ phụ thuộc vào các tính năng cụ thể của dữ liệu và cách tiếp cận phân tích của bạn, nhưng nói chung, dữ liệu bị lệch (theo một trong hai hướng) sẽ làm giảm một số khả năng mô hình của bạn để mô tả các trường hợp "điển hình" hơn để xử lý các trường hợp hiếm hơn xảy ra để lấy giá trị cực đoan.

Vì các trường hợp "điển hình" phổ biến hơn các trường hợp cực đoan trong tập dữ liệu bị lệch, bạn sẽ mất một số độ chính xác với các trường hợp bạn sẽ thấy thường xuyên nhất để phù hợp với các trường hợp mà bạn chỉ hiếm khi thấy. Xác định hệ số cho một nghìn quan sát nằm trong khoảng [0,10] có khả năng chính xác hơn so với quan sát 990 giữa [0,10] và 10 quan sát giữa [1.000, 1.000.000]. Điều này có thể dẫn đến mô hình của bạn là ít hữu ích tổng thể.

Sự sai lệch "Sửa chữa" có thể mang lại nhiều lợi ích khác nhau, bao gồm phân tích phụ thuộc vào dữ liệu được phân phối xấp xỉ Thông thường có thể / nhiều thông tin hơn. Nó cũng có thể tạo ra các kết quả được báo cáo theo thang đo hợp lý (điều này phụ thuộc vào tình huống) và ngăn các giá trị cực đoan (so với các yếu tố dự đoán khác) đánh giá quá mức hoặc đánh giá thấp ảnh hưởng của yếu tố dự đoán sai lệch trong phân loại dự đoán.

Bạn có thể kiểm tra phần nào điều này (theo cách không dứt khoát, chắc chắn) bằng cách đào tạo các mô hình với các tập hợp con khác nhau của dữ liệu của bạn: mọi thứ bạn có, giống như dữ liệu của bạn mà không có biến bị lệch, dữ liệu của bạn với biến đó nhưng loại trừ các giá trị nằm ngoài phạm vi "điển hình" (mặc dù bạn sẽ phải cẩn thận khi xác định điều đó), dữ liệu của bạn với phân phối biến bị lệch được chuyển đổi hoặc thu nhỏ lại, v.v.

Đối với việc sửa nó, các phép biến đổi và nhân rộng thường có ý nghĩa. Nhưng tôi không thể nhấn mạnh đủ:

Việc thay đổi các biến và phân phối của chúng phải tuân theo các thuộc tính của các biến đó, chứ không phải sự thuận tiện của bạn trong mô hình hóa.

Biến xiên biến đổi log là một ví dụ điển hình của điều này:

Nếu bạn thực sự nghĩ rằng một biến hoạt động theo thang hình học và bạn muốn mô hình của mình hoạt động theo thang số học, thì chuyển đổi nhật ký có thể có nhiều ý nghĩa.
Nếu bạn nghĩ rằng biến đó hoạt động theo thang số học, nhưng bạn thấy phân phối của nó bất tiện và nghĩ rằng một chuyển đổi nhật ký sẽ tạo ra một phân phối thuận tiện hơn, nó có thể có ý nghĩa để chuyển đổi. Nó sẽ thay đổi cách mô hình được sử dụng và diễn giải, thường làm cho nó trở nên dày đặc hơn và khó diễn giải rõ ràng hơn, nhưng điều đó có thể hoặc không đáng giá. Ví dụ: nếu bạn lấy nhật ký của một kết quả số và nhật ký của một công cụ dự đoán số, thì kết quả phải được hiểu là độ co giãn giữa chúng, có thể gây khó xử khi làm việc và thường không như mong muốn.
Nếu bạn nghĩ rằng một chuyển đổi nhật ký sẽ là mong muốn cho một biến, nhưng nó có rất nhiều quan sát có giá trị 0, thì chuyển đổi nhật ký không thực sự là một lựa chọn cho bạn, cho dù nó có thuận tiện hay không. (Thêm "giá trị nhỏ" vào 0 quan sát gây ra nhiều vấn đề-- lấy nhật ký từ 1-10, rồi 0,0 đến 1,0).

— Thượng_ase
nguồn

Giả sử tôi có cột số như giá và nó bị lệch nhiều. Tôi đang nghĩ đến việc sử dụng một vài thuật toán phân loại cơ bản. Điều gì nên là cách tiếp cận của tôi? Tôi nên đi chuyển đổi log hoặc biến đổi boxcox?

— user_6394

@ user214 Thông tin giá lệch trái? Nghe có vẻ thú vị! (Dữ liệu nghiên cứu của tôi thường bị lệch sang phải). Luôn có sự khác biệt giữa các bối cảnh nghiên cứu, nhưng tôi thường nghĩ về tiền là " đủ hình học " rằng một chuyển đổi nhật ký là phù hợp (hoặc ít nhất là có thể phòng thủ mạnh mẽ). Có hay không đó là sự chuyển đổi lý tưởng là một câu hỏi rất khó trả lời, nhưng chuyển đổi log không chắc là vấn đề đối với bạn ở đây. Bạn sẽ chỉ cần nhớ rằng bất cứ điều gì về dự đoán đó sẽ được báo cáo theo thang điểm nhật ký và diễn giải tương ứng.

— Upper_Case

4

Tôi đồng ý với các điểm chính của @Upper_Case cũng đặt câu trả lời. Tôi muốn đưa ra một viễn cảnh nhấn mạnh vào khía cạnh "học máy" của câu hỏi.

Đối với tác vụ phân loại sử dụng kNN, hồi quy logistic, SVM kernel hoặc mạng nơ ron phi tuyến tính, nhược điểm chính mà chúng tôi quan tâm là giảm hiệu suất mô hình , ví dụ giảm điểm AUC trên bộ xác thực.

Những nhược điểm khác của độ lệch thường được điều tra khi khó đánh giá thiệt hại về chất lượng của kết quả .ّ Tuy nhiên, trong một vấn đề phân loại, chúng ta có thể huấn luyện và xác nhận mô hình một lần với tính năng gốc (bị lệch) và một lần với tính năng được chuyển đổi , và sau đó

Nếu hiệu suất giảm, chúng tôi không chuyển đổi,
Nếu hiệu suất được cải thiện, chúng tôi chuyển đổi.

Nói cách khác, thiệt hại của sự sai lệch có thể được đánh giá một cách dễ dàng và khách quan, do đó, những biện minh đó không ảnh hưởng đến quyết định của chúng tôi , chỉ có hiệu suất mới có.

Nếu chúng ta xem xét kỹ hơn các biện minh cho việc sử dụng cho phép chuyển đổi nhật ký, chúng sẽ đúng khi một số giả định được đưa ra về các tính năng cuối cùng mà một mô hình hoặc thử nghiệm trực tiếp làm việc. Một tính năng cuối cùng là một chức năng của tính năng thô; chức năng đó có thể là danh tính. Ví dụ, một mô hình (hoặc thử nghiệm) có thể giả định rằng một tính năng cuối cùng phải bình thường hoặc ít nhất là đối xứng xung quanh giá trị trung bình hoặc là phụ gia tuyến tính, v.v. Sau đó, chúng tôi, với kiến thức (hoặc suy đoán) là nguyên liệu tính năng bị lệch trái, có thể thực hiện chuyển đổi nhật ký để căn chỉnh tính năng cuối cùng với giả định được áp đặt.

Một điều phức tạp quan trọng ở đây là chúng tôi không và không thể thay đổi phân phối của bất kỳ tính năng thô nào, chúng tôi chỉ tạo ra một tính năng cuối cùng (như một chức năng của tính năng thô) có phân phối khác phù hợp hơn với các giả định được áp đặt.

Đối với tác vụ phân loại sử dụng kNN, hồi quy logistic, SVM kernel hoặc mạng nơ ron phi tuyến tính, không có tính chuẩn tắc hoặc giả định đối xứng để phân phối các tính năng cuối cùng, do đó không có lực lượng nào từ các mô hình này trong vấn đề này. Mặc dù, chúng ta có thể theo dõi một bóng của giả định "bổ sung tuyến tính" trong mô hình hồi quy logistic, tức là và trong các mạng thần kinh cho tổng các tính năng có trọng số trong lớp đầu tiên, tức là

P (y = = 1 | x) = = \frac{1}{1 + e^{- (w_{1} x_{1} + . . + w_{d} x_{d})}}

$P(y=1|\boldsymbol{x})=\frac{1}{1+e^{-(w_1x_1+..+w_dx_d)}}$

y_{Tôi} = = f (W_{Tôi, .} x + b) = = f (W_{Tôi, 1} x_{1} + W_{Tôi, 2} x_{2} + . . . + b)

$y_i=f\left(\boldsymbol{W}_{i,.}\boldsymbol{x}+b\right)=f\left(W_{i,1}x_1+W_{i,2}x_2+...+b\right)$ Tôi nói "một cái bóng" bởi vì biến mục tiêu không trực tiếp là sự bổ sung tuyến tính của các tính năng cuối cùng, việc bổ sung trải qua một hoặc nhiều phép biến đổi phi tuyến tính có thể làm cho các mô hình này mạnh mẽ hơn khi vi phạm giả định này. Mặt khác, giả định bổ sung tuyến tính không tồn tại trong kNN hoặc kernelSVM, vì chúng hoạt động với khoảng cách mẫu-mẫu hơn là tương tác tính năng.

Nhưng một lần nữa, những biện minh này đứng thứ hai so với kết quả đánh giá mô hình, nếu hiệu suất bị ảnh hưởng, chúng tôi không chuyển đổi.

— Esmailian
nguồn