Làm thế nào để tìm trọng lượng cho một biện pháp khác biệt


9

Tôi muốn tìm hiểu (suy luận) trọng số thuộc tính cho thước đo độ không giống nhau của tôi mà tôi có thể sử dụng để phân cụm.

Tôi có một số ví dụ của các cặp đối tượng "tương tự" (nên nằm trong cùng một cụm), cũng như một số ví dụ của các cặp đối tượng "không giống nhau" (không nên ở trong cùng một cụm). Mỗi đối tượng có một số thuộc tính: nếu bạn thích, chúng ta có thể nghĩ đến từng đối tượng như một vector chiều các tính năng, trong đó mỗi tính năng là một số nguyên không âm. Có các kỹ thuật để sử dụng các ví dụ như vậy của các đối tượng tương tự / không giống nhau để ước tính từ chúng các trọng số tính năng tối ưu cho một phép đo khác nhau không?( c i , d i ) d(mộtTôi,bTôi)(cTôi,dTôi)d

Nếu nó giúp, trong ứng dụng của tôi, có lẽ sẽ hợp lý khi tập trung vào việc học một thước đo khác biệt đó là một tiêu chuẩn L2 có trọng số:

d(x,y)= =Σjαj(x[j]-y[j])2.

trong đó các trọng số không được biết và nên được học. (Hoặc, một số loại biện pháp tương tự cosin có trọng số cũng có thể hợp lý.) Có thuật toán tốt để tìm hiểu các trọng số α j cho một biện pháp như vậy, cho các ví dụ không? Hoặc có bất kỳ phương pháp nào khác để học một biện pháp tương tự / đo lường khác nhau mà tôi nên xem xét?αjαj

Thật không may, số lượng kích thước rất lớn (hàng nghìn hoặc cao hơn; xuất phát từ các tính năng của từ). Tuy nhiên, tôi có nhiều hàng chục ngàn ví dụ. Sau đó tôi có hàng trăm ngàn đối tượng mà tôi muốn phân cụm, vì vậy điều quan trọng là phải khái quát hóa từ các ví dụ để tìm hiểu một số liệu khác biệt tốt.

Tôi tập hợp rằng điều này rơi vào nhóm các cụm bán giám sát và có vẻ như nó có thể là tĩnh mạch "thích ứng tương tự", nhưng tôi không thể tìm thấy các mô tả rõ ràng về thuật toán để sử dụng cho mục đích này.


Vấn đề rất thú vị. Nếu tôi hiểu đúng vấn đề của bạn, bạn sẽ được cung cấp một ma trận chủ yếu trống rỗng với các yếu tố mã hóa tương tự hoặc khác biệt theo cặp. Một số yếu tố được điền vào nhưng hầu hết đều thiếu. Tôi sẽ cố gắng điền vào ma trận đó trước tiên (ví dụ: sử dụng giả định thứ hạng thấp chẳng hạn).
Vladislavs Dovgalecs

@xeon, đó sẽ là một cách tiếp cận, nhưng nó bỏ qua các tính năng. Giả thuyết của tôi là một số tính năng có liên quan cao và một số tính năng không liên quan và việc xem xét sự khác biệt trong các tính năng có liên quan sẽ đưa ra số liệu khác biệt hợp lý - nhưng làm thế nào để chúng tôi tìm thấy số liệu đó? Chỉ cần cố gắng hoàn thành ma trận như bạn đề xuất bỏ qua cấu trúc này và do đó không tận dụng hết lợi thế của dữ liệu chúng tôi có.
DW

Mục tiêu cuối cùng của bạn là gì? Nó không chỉ là để tìm hiểu số liệu khoảng cách, phải không? Bạn muốn phân loại các điểm dữ liệu, phải không?
Vladislavs Dovgalecs

1
Có những điều mà tôi nghĩ rằng bạn đã không làm rõ rất rõ ràng. Do toàn bộ các cặp ví dụ tạo thành một ma trận nhị phân hoàn chỉnh (1 = tương tự; 0 = không giống nhau) hoặc một số thông tin ô bị thiếu? Là ma trận "không liên quan" - nghĩa là phân vùng các đối tượng ví dụ thành các lớp không chồng lấp? Ngoài ra, lưu ý rằng không có phương pháp học tập nào có thể (hoặc nên được sử dụng để) tư vấn cho bạn loại biện pháp (chẳng hạn như định mức L2 hoặc L1 chẳng hạn) vì lựa chọn đó là lý thuyết (nó phụ thuộc vào loại thuộc tính, khái niệm hóa tính năng không gian, phương pháp phân cụm bạn sẽ sử dụng sau đó).
ttnphns

Điều này là quá rộng để được trả lời hợp lý ở đây. Có một lượng lớn tài liệu dành riêng cho tính năng trọng số, lựa chọn và tìm hiểu các chức năng từ xa. Tôi nghĩ rằng tôi đã thấy thậm chí một hội nghị về học tập tương tự hoặc như vậy!
Có QUIT - Anony-Mousse

Câu trả lời:


6

Đây là một vấn đề lớn trong một số lĩnh vực của máy học. Tôi không quen thuộc với nó như tôi muốn, nhưng tôi nghĩ những điều này sẽ giúp bạn bắt đầu.

L2


QMột

Tôi không thấy lý do tại sao bạn không thể bao gồm hạn chế đó. Tôi không chắc chắn nếu mô hình kết quả có một tên, mặc dù.
David J. Harris

1

mộtTôi1/wTôi

Nói cách khác, bạn đang hỏi về quá trình tiền xử lý và nhân rộng dữ liệu. Điều này là quá rộng để được trả lời tốt trong một câu hỏi duy nhất. Tìm kiếm:

  • lựa chọn tính năng
  • tính năng trọng số
  • bình thường hóa
  • giảm kích thước
  • kỹ thuật trình chiếu khác
  • chức năng khoảng cách khác
  • "học để xếp hạng"

Có một lượng lớn tài liệu và thậm chí các bài hát hội nghị dành riêng cho việc này. Một số phương pháp giúp bạn bắt đầu:

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.