Đầu tiên, hãy để tôi nói rằng tôi hơi sâu sắc ở đây, vì vậy nếu câu hỏi này cần được đặt lại hoặc đóng lại như một bản sao, xin vui lòng cho tôi biết. Có thể đơn giản là tôi không có từ vựng thích hợp để diễn đạt câu hỏi của mình.
Tôi đang thực hiện một tác vụ xử lý hình ảnh trong đó tôi xác định các tính năng trong một hình ảnh và sau đó phân loại chúng dựa trên các thuộc tính của chúng, bao gồm hình dạng, kích thước, bóng tối, v.v. Tôi khá có kinh nghiệm với phần xử lý hình ảnh này, nhưng nghĩ Tôi có thể cải thiện các phương pháp tôi sử dụng để phân loại các tính năng.
Ngay bây giờ, tôi đặt ngưỡng cho từng tham số được đo và sau đó phân loại các tính năng theo một số logic đơn giản dựa trên ngưỡng mà tính năng đã vượt qua. Ví dụ: (các thuộc tính và nhóm thực tế phức tạp hơn, nhưng tôi đang cố gắng đơn giản hóa các phần không liên quan trong dự án của mình cho câu hỏi này), giả sử tôi đang nhóm các tính năng vào các nhóm "Lớn và Tối", "Lớn và Sáng" và nhỏ". Sau đó, một tính năng sẽ có trong "Lớn và Tối" iff (kích thước ( A )> sizeThrưỡng) & (bóng tối ( A )> darkThrưỡng ).
Mục tiêu là để phân loại đồng ý với phân loại được thực hiện bởi một người ở cấp độ chuyên gia, vì vậy tôi có thể đặt ngưỡng để tạo ra sự phù hợp nhất giữa các nhóm được tạo bởi con người và máy tính trên một số bộ thử nghiệm, và sau đó hy vọng rằng phân loại hoạt động tốt với dữ liệu mới.
Điều này đã hoạt động khá tốt, nhưng tôi thấy một chế độ thất bại cụ thể mà tôi nghĩ có thể khắc phục được. Giả sử tính năng được biết là thuộc về "Lớn và Tối". Con người đã phân loại nó theo cách này bởi vì, trong khi chỉ vừa đủ lớn, nó rất rất tối, điều này tạo nên phần nào cho sự thiếu "bigness". Thuật toán của tôi sẽ không phân loại đúng tính năng này, bởi vì phân loại dựa trên logic nhị phân cứng nhắc và yêu cầu tất cả các ngưỡng phải được vượt qua.
Tôi muốn cải thiện sự thất bại này bằng cách làm cho thuật toán của tôi bắt chước tốt hơn quá trình hướng dẫn của con người, trong đó sự thiếu hụt trong một tham số có thể được bù đắp bằng sự phong phú của một tham số khác. Để làm điều này, tôi muốn lấy từng thuộc tính cơ bản của các tính năng của mình và chuyển đổi chúng thành một số điểm sẽ là một yếu tố dự đoán của nhóm mà tính năng đó thuộc về. Tôi đã nghĩ ra nhiều cách để làm điều này, nhưng chúng chủ yếu là những ý tưởng đặc biệt, dựa trên nền tảng của tôi về tính toán véc tơ và vật lý. Ví dụ: tôi đã coi việc coi mỗi tính năng là một vectơ trong không gian ND của các thuộc tính tính năng và tính toán hình chiếu của từng tính năng dọc theo các vectơ nhất định, mỗi tính năng sẽ đo mức độ của một tính năng trong nhóm.
Tôi chắc chắn có một kỹ thuật nghiêm ngặt hơn và được thiết lập tốt hơn để thực hiện loại việc này, nhưng nền tảng của tôi tương đối yếu trong phân tích thống kê, vì vậy tôi đang tìm kiếm một bước đi đúng hướng. Ngay cả tên của một kỹ thuật, hoặc một liên kết đến sách giáo khoa cũng sẽ hữu ích.
TL; DR: Những kỹ thuật nào hữu ích trong việc phân loại các đối tượng dựa trên một số lượng lớn các tham số mô tả?