Không có nghĩa và phương sai đơn vị


10

Tôi đang nghiên cứu Thu nhỏ dữ liệu và đặc biệt là phương pháp Tiêu chuẩn hóa. Tôi đã hiểu toán học đằng sau nó, nhưng đối với tôi không rõ tại sao điều quan trọng là cung cấp các tính năng không có nghĩa và phương sai đơn vị.

Bạn có thể giải thích cho tôi ?


Hãy nhìn vào đây .
Truyền thông

Điều này sẽ rất tuyệt: vừa.com / greyatom / Từ
Lerner Zhang

Câu trả lời:


8

Các câu hỏi về việc và tại sao nó quan trọng, phụ thuộc vào bối cảnh.

  • Ví dụ, đối với các cây quyết định được tăng cường độ dốc, điều đó không quan trọng - các thuật toán ML này "không quan tâm" về các phép biến đổi đơn điệu thành dữ liệu; họ chỉ tìm kiếm điểm để phân chia nó.

  • Ví dụ, đối với các yếu tố dự đoán tuyến tính, tỷ lệ có thể cải thiện khả năng diễn giải kết quả. Nếu bạn muốn nghĩ về độ lớn của các hệ số như một số dấu hiệu cho thấy một tính năng ảnh hưởng đến kết quả như thế nào, thì các tính năng phải được thu nhỏ bằng cách nào đó đến cùng một khu vực.

  • Đối với một số dự đoán, đặc biệt là NN, tỷ lệ và đặc biệt là tỷ lệ theo một phạm vi cụ thể, có thể quan trọng vì lý do kỹ thuật. Một số lớp sử dụng các hàm chỉ thay đổi hiệu quả trong một số khu vực (tương tự như họ hàm hyperbol ) và nếu các tính năng nằm ngoài phạm vi quá nhiều, có thể xảy ra bão hòa. Nếu điều này xảy ra, các đạo hàm số sẽ hoạt động kém và thuật toán có thể không thể hội tụ đến một điểm tốt.

nhập mô tả hình ảnh ở đây


2

Trong trường hợp không có nghĩa, đó là do một số mô hình học máy không bao gồm thuật ngữ sai lệch trong biểu diễn của chúng, vì vậy chúng tôi phải di chuyển dữ liệu xung quanh nguồn gốc trước khi đưa nó vào thuật toán để kết luận thiếu thuật ngữ sai lệch. Trong trường hợp phương sai đơn vị, đó là do rất nhiều thuật toán học máy sử dụng một số loại khoảng cách (ví dụ Euclide) để quyết định hoặc dự đoán. Nếu một tính năng cụ thể có giá trị rộng (nghĩa là phương sai lớn), khoảng cách sẽ bị ảnh hưởng nhiều bởi tính năng đó và ảnh hưởng của các tính năng khác sẽ bị bỏ qua. Nhân tiện, một số thuật toán tối ưu hóa (bao gồm cả độ dốc) có hiệu suất tốt hơn khi dữ liệu được chuẩn hóa.


2
  • Bất cứ khi nào chúng tôi bắt đầu với bất kỳ tập dữ liệu nào trong học máy, chúng tôi thường cho rằng tất cả các tính năng dữ liệu đều quan trọng như nhau đối với đầu ra và một tính năng không nên chiếm ưu thế so với tính năng khác. Đó chính là lý do chúng tôi chọn đưa tất cả các tính năng lên cùng một tỷ lệ.
    Tuy nhiên, người ta có thể nghi ngờ ở đây rằng ngay cả khi các tính năng không được chuẩn hóa thì các trọng số được gán cho nó trong khi học có thể giúp tập dữ liệu hội tụ đến đầu ra dự kiến ​​trong khi đào tạo. Vấn đề với điều này là sẽ mất rất nhiều thời gian để đào tạo và tạo ra kết quả.
  • Chọn số 0 cụ thể là trung bình và phương sai 1 chỉ là dễ dàng hình dung và giữ các số nhỏ như vậy sẽ giúp đào tạo nhanh hơn.

Do đó, đề xuất mang tất cả các tính năng đến cùng một quy mô nhỏ hơn đủ để đào tạo dễ dàng. Liên kết dưới đây cũng thảo luận về khái niệm tương tự. /stats/41704/how-and-why-do-n normalization-and-quick-scaling-work

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.