Tại sao chúng tôi chuyển đổi dữ liệu sai lệch thành phân phối bình thường


15

Tôi đã trải qua một giải pháp của cuộc cạnh tranh về giá nhà ở trên Kaggle ( Hạt nhân của con người về giá nhà: Kỹ thuật hồi quy nâng cao ) và tình cờ thấy phần này:

# Transform the skewed numeric features by taking log(feature + 1).
# This will make the features more normal.
from scipy.stats import skew

skewed = train_df_munged[numeric_features].apply(lambda x: skew(x.dropna().astype(float)))
skewed = skewed[skewed > 0.75]
skewed = skewed.index

train_df_munged[skewed] = np.log1p(train_df_munged[skewed])
test_df_munged[skewed] = np.log1p(test_df_munged[skewed])

Tôi không chắc chắn về nhu cầu chuyển đổi phân phối bị lệch thành phân phối bình thường là gì. Xin vui lòng, ai đó có thể giải thích chi tiết:

  1. Tại sao điều này được thực hiện ở đây? hoặc làm thế nào là hữu ích?
  2. Điều này khác với quy mô tính năng như thế nào?
  3. Đây có phải là một bước cần thiết cho kỹ thuật tính năng? Điều gì có khả năng xảy ra nếu tôi bỏ qua bước này?

2
Vì vậy, phần dư là Gaussian (và có thể được loại bỏ bằng cách lấy trung bình), phương sai ổn định và điều kiện tiên quyết là trình tối ưu hóa để tiến hành hội tụ. vi.wikipedia.org/wiki/Power_transform
Emre

Câu trả lời:


12

Bạn có thể muốn giải thích các hệ số của bạn. Đó là, để có thể nói những câu như "nếu tôi tăng biến tôi bằng 1, sau đó, trung bình và tất cả con người khác bằng, Y nên tăng β 1 ".X1Yβ1

Để các hệ số của bạn có thể hiểu được, hồi quy tuyến tính giả định một loạt các điều.

Một trong những điều này là không có tính đa hình. Đó là, các biến của bạn không nên tương quan với nhau.X

Một cái khác là Homoscedasticity . Các lỗi mà mô hình của bạn cam kết sẽ có cùng phương sai, nghĩa là bạn phải đảm bảo hồi quy tuyến tính không gây ra các lỗi nhỏ đối với các giá trị thấp của và các lỗi lớn đối với các giá trị X cao hơn . Nói cách khác, sự khác biệt giữa những gì bạn dự đoán Y và giá trị đích thực Y nên không đổi. Bạn có thể đảm bảo rằng bằng cách đảm bảo rằng Y tuân theo phân phối Gaussian. (Bằng chứng có tính toán học cao.)XXY^YY

Tùy thuộc vào dữ liệu của bạn, bạn có thể biến nó thành Gaussian. Các phép biến đổi điển hình là lấy nghịch đảo, logarit hoặc căn bậc hai. Tất nhiên nhiều người khác tồn tại, tất cả phụ thuộc vào dữ liệu của bạn. Bạn phải xem dữ liệu của mình và sau đó thực hiện biểu đồ hoặc chạy thử nghiệm tính quy tắc , chẳng hạn như thử nghiệm Shapiro-Wilk.

Đây là tất cả các kỹ thuật để xây dựng một công cụ ước tính không thiên vị . Tôi không nghĩ nó có liên quan gì đến sự hội tụ như những người khác đã nói (đôi khi bạn cũng có thể muốn bình thường hóa dữ liệu của mình, nhưng đó là một chủ đề khác).

Theo các giả định hồi quy tuyến tính là rất quan trọng nếu bạn muốn diễn giải các hệ số hoặc nếu bạn muốn sử dụng các kiểm tra thống kê trong mô hình của mình. Nếu không, hãy quên nó đi.

y^-y2ynormalize


3

Dữ liệu bị lệch ở đây đang được chuẩn hóa bằng cách thêm một (một được thêm vào để các số 0 đang được chuyển thành một dưới dạng nhật ký 0 không được xác định) và lấy nhật ký tự nhiên. Dữ liệu có thể được chuẩn hóa gần như bằng cách sử dụng các kỹ thuật chuyển đổi như lấy căn bậc hai hoặc đối ứng hoặc logarit. Bây giờ, tại sao nó được yêu cầu. Trên thực tế, nhiều thuật toán trong dữ liệu cho rằng khoa học dữ liệu là bình thường và tính toán các số liệu thống kê khác nhau giả định điều này. Vì vậy, dữ liệu càng gần với bình thường thì càng phù hợp với giả định.


3
Các thuật toán ở đây là tăng cường độ dốc và hồi quy lasso. Tôi nghĩ rằng câu trả lời này sẽ hữu ích hơn nếu nó có thể cho thấy nó (hoặc không) có liên quan cụ thể đến hai thuật toán này như thế nào.
oW_

Theo quan điểm của tôi, khi một mô hình được đào tạo cho dù chúng là hồi quy tuyến tính hay một số Cây quyết định (mạnh mẽ đến ngoại lệ), dữ liệu nghiêng làm cho một mô hình khó tìm thấy một mẫu thích hợp trong dữ liệu là lý do chúng ta phải tạo ra một dữ liệu sai lệch thành bình thường hoặc một Gaussian.
Goldi Rana

1

Bởi vì khoa học dữ liệu chỉ là số liệu thống kê vào cuối ngày và một trong những giả định chính của thống kê là Định lý giới hạn trung tâm . Vì vậy, bước này đang được thực hiện bởi vì một số bước tiếp theo sử dụng các kỹ thuật thống kê dựa vào nó.


1
Một định lý không phải là một giả định. Định lý giới hạn trung tâm trong thực tế đảm bảo rằng trung bình của các biến ngẫu nhiên độc lập được phân phối bình thường ngay cả khi các biến ngẫu nhiên riêng lẻ không được phân phối bình thường.
Elias Stroundle

1
Đây là một chuỗi lý luận cực kỳ thiếu sót. Nó giống như: "- Tôi đã thấy mọi người gọt táo trước khi ăn chúng. Tại sao? - Ồ, đó là vì táo là trái cây và một trong những loại trái cây chính là cam và bạn luôn gọt một quả cam!".
ayorgo
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.