Một cách để gán trọng số cho một biến là bằng cách thay đổi tỷ lệ của nó. Thủ thuật hoạt động cho các thuật toán phân cụm mà bạn đề cập, viz. k-nghĩa, liên kết trung bình có trọng số và liên kết trung bình.
Kaufman, Leonard và Peter J. Rousseeuw. " Tìm nhóm trong dữ liệu: Giới thiệu về phân tích cụm ." (2005) - trang 11:
Sự lựa chọn của các đơn vị đo lường làm tăng trọng số tương đối của các biến. Biểu thị một biến trong các đơn vị nhỏ hơn sẽ dẫn đến một phạm vi lớn hơn cho biến đó, sau đó sẽ có ảnh hưởng lớn đến cấu trúc kết quả. Mặt khác, bằng cách tiêu chuẩn hóa một nỗ lực để cung cấp cho tất cả các biến có trọng số bằng nhau, với hy vọng đạt được tính khách quan. Như vậy, nó có thể được sử dụng bởi một học viên không có kiến thức trước. Tuy nhiên, về cơ bản, một số biến có thể quan trọng hơn các biến khác trong một ứng dụng cụ thể, và sau đó việc gán trọng số phải dựa trên kiến thức về vấn đề (xem, ví dụ, Abrahamowicz, 1985).
Mặt khác, đã có những nỗ lực để đưa ra các kỹ thuật phân cụm độc lập với quy mô của các biến (Friedman và Rubin, 1967). Đề xuất của Hardy và Rasson (1982) là tìm kiếm một phân vùng làm giảm tối thiểu tổng khối lượng vỏ lồi của các cụm. Về nguyên tắc, một phương pháp như vậy là bất biến đối với các phép biến đổi tuyến tính của dữ liệu, nhưng thật không may, không có thuật toán nào tồn tại để thực hiện nó (ngoại trừ một phép tính gần đúng bị giới hạn ở hai chiều). Do đó, hiện tại tiến thoái lưỡng nan của tiêu chuẩn hóa là không thể tránh khỏi và các chương trình được mô tả trong cuốn sách này để lại sự lựa chọn cho người dùng
Abrahamowicz, M. (1985), Việc sử dụng thông tin pnon không số để đo lường sự khác biệt, bài trình bày tại Hội nghị châu Âu lần thứ tư của Hiệp hội tâm lý học và các hội phân loại, ngày 2 tháng 7, Cambridge (Anh).
Friedman, HP và Rubin, J. (1967), Về một số tiêu chí bất biến để phân nhóm dữ liệu. J. Amer. Thống kê. ASSOC6., 2, 1159-1178.
Hardy, A. và Rasson, JP (1982), Une nouvelle Phê duyệt des vấn đề phân loại automatique, Statist. Hậu môn. Donnies, 7, 41-56.