Loại chuẩn hóa dữ liệu nào nên được sử dụng với KNN?


9

Tôi biết rằng có nhiều hơn hai loại bình thường hóa.

Ví dụ,

1- Chuyển đổi dữ liệu bằng cách sử dụng điểm z hoặc điểm t. Điều này thường được gọi là tiêu chuẩn hóa.

2- Định cỡ lại dữ liệu để có giá trị từ 0 đến 1.

Câu hỏi bây giờ nếu tôi cần bình thường hóa

Loại chuẩn hóa dữ liệu nào nên được sử dụng với KNN? và tại sao?

Câu trả lời:


11

Đối với k-NN, tôi khuyên bạn nên chuẩn hóa dữ liệu trong khoảng từ đến .01

k-NN sử dụng khoảng cách Euclide , như là phương tiện để so sánh các ví dụ. Để tính khoảng cách giữa hai điểm và , trong đó là giá trị của tính năng thứ của :x1=(f11,f12,...,f1M)x2=(f21,f22,...,f2M)f1iix1

d(x1,x2)=(f11f21)2+(f12f22)2+...+(f1Mf2M)2

Để tất cả các tính năng có tầm quan trọng như nhau khi tính khoảng cách, các tính năng phải có cùng phạm vi giá trị. Điều này chỉ có thể đạt được thông qua bình thường hóa.

Nếu chúng không được chuẩn hóa và ví dụ, tính năng có một phạm vi các giá trị trong ), trong khi có một phạm vi các giá trị trong . Khi tính khoảng cách, thuật ngữ thứ hai sẽ quan trọng gấp lần so với thuật ngữ thứ nhất, khiến k-NN phụ thuộc nhiều hơn vào tính năng thứ hai so với tính năng thứ nhất. Chuẩn hóa đảm bảo rằng tất cả các tính năng được ánh xạ tới cùng một phạm vi giá trị.f1[0,1f2[1,10)10

Mặt khác, tiêu chuẩn hóa có nhiều đặc tính hữu ích, nhưng không thể đảm bảo rằng các tính năng được ánh xạ tới cùng một phạm vi. Mặc dù tiêu chuẩn hóa có thể phù hợp nhất với các phân loại khác, nhưng đây không phải là trường hợp của k-NN hoặc bất kỳ phân loại dựa trên khoảng cách nào khác.


4
Câu trả lời của bạn sẽ giống nhau nếu tôi sử dụng khoảng cách khác nhau thay vì khoảng cách Euclide (ví dụ khoảng cách Manhattan hoặc khoảng cách khác thậm chí là khoảng cách phân đoạn)? Ngoài ra Nếu phạm vi của các biến xấp xỉ gần nhau.
jeza

7
Có, tôi chỉ cho thấy khoảng cách Euclide là một ví dụ, nhưng tất cả các số liệu khoảng cách đều chịu chung một điều. Nếu các phạm vi gần nhau thì nó sẽ không ảnh hưởng đến việc tính toán số liệu đó nhiều , nhưng nó vẫn sẽ. Ví dụ: nếu và , vẫn sẽ quan trọng hơn so với . Một điều tôi quên đề cập đến là việc chuẩn hóa, rõ ràng, tốt hơn nhiều so với việc không thực hiện bất kỳ tỷ lệ tính năng nào; nó chỉ đơn giản là tồi tệ hơn bình thường hóa. f 2[ 0 , 1,2 ) f 2 20 % f 1f1[0,1)f2[0,1.2)f220%f1
Djib2011

Ah tôi thấy. "Nó chỉ đơn giản là tồi tệ hơn bình thường hóa"!?
jeza
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.