Chuyển đổi tính năng trên dữ liệu đầu vào


22

Tôi đã đọc về giải pháp cho thử thách OTTO Kaggle này và giải pháp vị trí đầu tiên dường như sử dụng một số biến đổi cho dữ liệu đầu vào X, ví dụ: Log (X + 1), sqrt (X + 3/8), v.v. hướng dẫn chung về thời điểm áp dụng loại biến đổi nào cho các phân loại khác nhau?

Tôi hiểu các khái niệm về chuẩn hóa trung bình-var và min-max. Tuy nhiên, đối với các phép biến đổi ở trên, tôi đoán là Log và Sqrt được sử dụng để nén phạm vi động của dữ liệu. Và sự thay đổi trục x chỉ là để lấy lại dữ liệu. Tuy nhiên, tác giả chọn sử dụng các phương pháp chuẩn hóa khác nhau cho cùng một đầu vào X khi đưa vào các phân loại khác nhau. Có ý kiến ​​gì không?


1
Không biết cái gì có thể gợi ý loại công thức đó, nhưng bạn có thể muốn xem xét các phép biến đổi box-cox, gợi ý số mũ cho các biến.
anymous.asker

Câu trả lời:


19

Chúng tôi yêu hình thức bình thường

Trong hầu hết các trường hợp, chúng tôi cố gắng làm cho chúng hoạt động như bình thường. Nó không phải là phân loại quan điểm nhưng quan điểm khai thác tính năng của nó!

chuyển đổi ?

Tiêu chí chính trong việc lựa chọn một phép biến đổi là: cái gì hoạt động với dữ liệu? Như các ví dụ trên chỉ ra, điều quan trọng là phải xem xét cả hai câu hỏi.

Điều gì làm cho ý nghĩa vật lý (sinh học, kinh tế, bất cứ điều gì), ví dụ về mặt giới hạn hành vi khi các giá trị trở nên rất nhỏ hoặc rất lớn? Câu hỏi này thường dẫn đến việc sử dụng logarit.

Chúng ta có thể giữ kích thước và đơn vị đơn giản và thuận tiện? Nếu có thể, chúng tôi thích các thang đo dễ suy nghĩ.

Căn bậc hai của một thể tích và căn bậc hai của một khu vực đều có kích thước chiều dài, cho đến nay, từ khi phức tạp hóa vấn đề, các phép biến đổi như vậy có thể đơn giản hóa chúng. Đối ứng thường có các đơn vị đơn giản, như đã đề cập trước đó. Tuy nhiên, thường thì các đơn vị hơi phức tạp là một sự hy sinh phải được thực hiện.

Khi nào nên dùng gì ?

Các biến đổi hữu ích nhất trong phân tích dữ liệu giới thiệu là đối ứng, logarit, căn bậc ba, căn bậc hai và hình vuông. Trong phần tiếp theo, ngay cả khi nó không được nhấn mạnh, người ta cho rằng các phép biến đổi chỉ được sử dụng trên các phạm vi mà chúng mang lại số hữu hạn (hữu hạn) làm kết quả.

  • Đối ứng : Đối ứng, x đến 1 / x, với anh chị em của nó là đối ứng âm, x đến -1 / x, là một biến đổi rất mạnh với tác động mạnh mẽ đến hình dạng phân phối. Nó không thể được áp dụng cho các giá trị bằng không. Mặc dù nó có thể được áp dụng cho các giá trị âm, nhưng nó không hữu ích trừ khi tất cả các giá trị đều dương. Đối ứng của tỷ lệ thường có thể được hiểu dễ dàng như chính tỷ lệ đó: Ví dụ:
    • mật độ dân số (người trên một đơn vị diện tích) trở thành diện tích mỗi người
    • mỗi người trở thành bác sĩ mỗi người
    • tốc độ xói mòn trở thành thời gian làm xói mòn độ sâu đơn vị

(Trong thực tế, chúng tôi có thể muốn nhân hoặc chia kết quả của việc lấy đối ứng cho một số hằng số, chẳng hạn như 1000 hoặc 10000, để có được các số dễ quản lý, nhưng bản thân nó không ảnh hưởng đến độ lệch hoặc tuyến tính.)

Thứ tự đảo ngược đảo ngược thứ tự giữa các giá trị của cùng một dấu hiệu: lớn nhất trở thành nhỏ nhất, v.v ... Đối ứng nghịch đảo giữ trật tự giữa các giá trị của cùng một dấu hiệu.


  • Logarit : logarit, x log 10 x, hoặc x log ex hoặc ln x, hoặc x log 2 x, là một biến đổi mạnh với ảnh hưởng lớn đến hình dạng phân phối. Nó thường được sử dụng để giảm độ lệch phải và thường thích hợp cho các biến đo. Nó không thể được áp dụng cho giá trị 0 hoặc âm. Một đơn vị trên thang logarit có nghĩa là phép nhân với cơ sở logarit được sử dụng. Tăng trưởng theo cấp số nhân hoặc suy giảm.

    • y=aexp(bx)

lny=lna+bxx=0y=aexp(0)=a sao cho a là số tiền hoặc được tính khi x = 0. Nếu a và b> 0, thì y tăng trưởng với tốc độ nhanh hơn và nhanh hơn (ví dụ: lãi kép hoặc tăng trưởng dân số không được kiểm soát), trong khi nếu a> 0 và b <0, y giảm với tốc độ chậm hơn và chậm hơn (ví dụ phân rã phóng xạ).


  • Chức năng điện :
  • y=axblogy=loga+blogx
    x=0b>0

  • y=axb=0

    • Xem xét các tỷ lệ y = p / q trong đó p và q đều dương trong thực tế.
  • Ví dụ là:

    • Nam / Nữ
    • Người phụ thuộc / Công nhân
    • Chiều dài hạ lưu / Chiều dài hạ lưu
  • Thì y ở đâu đó trong khoảng từ 0 đến vô cùng, hoặc trong trường hợp cuối cùng, từ 1 đến vô cùng. Nếu p = q, thì y = 1. Các định nghĩa như vậy thường dẫn đến dữ liệu bị sai lệch, bởi vì có giới hạn dưới rõ ràng và không có giới hạn trên rõ ràng. Logarit, tuy nhiên, cụ thể là

  • log y = log p / q = log p - log q, nằm ở đâu đó giữa -infinite và infinite và p = q có nghĩa là log y = 0. Do đó logarit của tỷ lệ như vậy có khả năng được phân phối đối xứng hơn.


  • Căn bậc ba : Căn bậc ba, x 1/3 . Đây là một chuyển đổi khá mạnh với ảnh hưởng đáng kể đến hình dạng phân phối: nó yếu hơn logarit. Nó cũng được sử dụng để giảm độ lệch phải và có lợi thế là nó có thể được áp dụng cho các giá trị 0 và âm. Lưu ý rằng căn bậc ba của một khối có đơn vị độ dài. Nó thường được áp dụng cho dữ liệu lượng mưa.

    • Khả năng áp dụng cho các giá trị âm đòi hỏi một lưu ý đặc biệt. Xét
      (2) (2) (2) = 8 và (-2) (- 2) (- 2) = -8. Những ví dụ này cho thấy rằng
      khối lập phương của một số âm có dấu âm và có
      giá trị tuyệt đối giống như gốc khối của số dương tương đương. Một thuộc tính tương tự được sở hữu bởi bất kỳ gốc nào khác có sức mạnh là
      đối ứng của một số nguyên dương lẻ (lũy thừa 1/3, 1/5, 1/7, v.v.)

    • Khách sạn này là một chút tinh tế. Ví dụ: thay đổi công suất chỉ là một smidgen từ 1/3 và chúng ta không còn có thể định nghĩa kết quả là một sản phẩm của ba thuật ngữ chính xác. Tuy nhiên, tài sản là có để khai thác nếu hữu ích.


  • x(1/2)

  • x2

    y=a+bx+cx2



    tứ giác thường được sử dụng chỉ vì chúng có thể bắt chước một
    mối quan hệ trong vùng dữ liệu. Bên ngoài khu vực đó, họ có thể
    cư xử rất kém, bởi vì họ nhận các giá trị lớn tùy ý cho các giá trị cực trị của x, và trừ khi phần chặn a bị ràng buộc là 0, họ có thể cư xử không hợp lý với nguồn gốc.
    • (x)2x2


Cảm ơn vì bài đăng. Thực sự hữu ích. bạn có thể bổ sung nó bằng một số ví dụ và số liệu mô tả cách nó biến đổi dữ liệu gốc thành dữ liệu riêng biệt không?
Mvkt

1
@svk: Tôi chỉ định dạng theo cách dễ hiểu, tôi nghĩ hadi là người đã viết câu trả lời. Nếu tôi đoán là đúng, anh ta có thể đã sao chép từ một số cuốn sách. Hãy xem liệu anh ấy trả lời lại / gợi ý điều gì đó. Khác sẽ viết một câu trả lời
Toros91

2
như @ Toros91 đã nói, Đó là sự kết hợp của nhiều nguồn khác nhau, tôi khuyên bạn nên xem Cách giành chiến thắng trong Cuộc thi khoa học dữ liệu: Tìm hiểu từ các Kagglers hàng đầu và cả tài liệu stata
hadi gharibi

alrite. mặc dù một trong các bạn có thể vui lòng đăng một số mã ví dụ trong python hoặc matlab về cách chuyển đổi trục x sang quy mô gốc sq.root hoặc khối lập phương. MATLAB có biểu đồ loglog cho thang đo log. nhưng đối với các quy mô khác, sẽ rất hữu ích khi có một cốt truyện với các trục biến đổi này
Mvkt

1

Những cái cụ thể có thể là heuristic thuần túy. Đối với hình ảnh mặc dù nó khá chuẩn: thay đổi RGB thành BGR và trừ giá trị trung bình từ mỗi pixel. Điều này được sử dụng trong tất cả các cuộc thi / bộ dữ liệu như Imagenet, Pascal VOC, MS COCO. Lý do là mạng được trình bày với một bộ dữ liệu tiêu chuẩn, vì tất cả các hình ảnh có thể rất khác nhau.


0

Tương tự ở đây - không có ý tưởng, chưa từng thấy điều này trước đây. Tôi đoán họ đã thử các phép biến đổi khác nhau và chọn một phép biến đổi tốt nhất. Vì trong báo cáo họ nói rằng một số biến đổi khác cũng sẽ ổn.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.