Hãy để tôi nói ngay từ đầu rằng tôi rất mới với máy học, và không giỏi toán. Tôi hiểu TF-IDF làm gì, nhưng trong cuốn sách tôi đang đọc, nó cũng ghi chú những điều sau đây (nó thảo luận về cách scikit-learn làm mọi thứ):
Cả hai lớp [TfidfTransformer và TfidfVectorizer] cũng áp dụng chuẩn hóa L2 sau khi tính toán biểu diễn tf-idf; nói cách khác, họ hủy bỏ việc biểu diễn của mỗi tài liệu để có chỉ tiêu Euclide 1. Thay đổi kích thước theo cách này có nghĩa là độ dài của tài liệu (số lượng từ) không thay đổi biểu diễn được vector hóa.
Đó là tất cả những gì nó phải nói về chủ đề này. Điều tôi nghĩ nó có nghĩa là gì, và cho tôi biết nếu tôi sai, là chúng tôi chia tỷ lệ các giá trị sao cho nếu chúng đều bình phương và tổng, giá trị sẽ là 1 (tôi lấy định nghĩa này từ http://kawahara.ca / how-to-normalize-vectors-to-unit-Norm-in-python / ).
Vì vậy, ý tưởng là các giá trị tính năng trở nên tương xứng với nhau. Tôi không hoàn toàn chắc chắn làm thế nào điều đó sẽ hữu ích cho mô hình, mặc dù. Nó có giúp trình phân loại tổng thể tìm hiểu nếu một số ví dụ không có tổng số "bật tính năng" cao hơn các tính năng khác không?
Ngoài ra, đây là một câu hỏi cơ bản: Chuẩn hóa L2 có liên quan gì đến việc chuẩn hóa L2 không? Có lẽ chỉ là cả hai đều liên quan đến các điều khoản bình phương và tổng kết?
Bất cứ cái nhìn sâu sắc nào bạn có thể chia sẻ, sẽ được đánh giá cao nhất!