Kỹ thuật phân loại / phân khúc

Đầu tiên, hãy để tôi nói rằng tôi hơi sâu sắc ở đây, vì vậy nếu câu hỏi này cần được đặt lại hoặc đóng lại như một bản sao, xin vui lòng cho tôi biết. Có thể đơn giản là tôi không có từ vựng thích hợp để diễn đạt câu hỏi của mình.

Tôi đang thực hiện một tác vụ xử lý hình ảnh trong đó tôi xác định các tính năng trong một hình ảnh và sau đó phân loại chúng dựa trên các thuộc tính của chúng, bao gồm hình dạng, kích thước, bóng tối, v.v. Tôi khá có kinh nghiệm với phần xử lý hình ảnh này, nhưng nghĩ Tôi có thể cải thiện các phương pháp tôi sử dụng để phân loại các tính năng.

Ngay bây giờ, tôi đặt ngưỡng cho từng tham số được đo và sau đó phân loại các tính năng theo một số logic đơn giản dựa trên ngưỡng mà tính năng đã vượt qua. Ví dụ: (các thuộc tính và nhóm thực tế phức tạp hơn, nhưng tôi đang cố gắng đơn giản hóa các phần không liên quan trong dự án của mình cho câu hỏi này), giả sử tôi đang nhóm các tính năng vào các nhóm "Lớn và Tối", "Lớn và Sáng" và nhỏ". Sau đó, một tính năng sẽ có trong "Lớn và Tối" iff (kích thước ( )> sizeThrưỡng) & (bóng tối ( )> darkThrưỡng ). $A$ $A$ $A$

Mục tiêu là để phân loại đồng ý với phân loại được thực hiện bởi một người ở cấp độ chuyên gia, vì vậy tôi có thể đặt ngưỡng để tạo ra sự phù hợp nhất giữa các nhóm được tạo bởi con người và máy tính trên một số bộ thử nghiệm, và sau đó hy vọng rằng phân loại hoạt động tốt với dữ liệu mới.

Điều này đã hoạt động khá tốt, nhưng tôi thấy một chế độ thất bại cụ thể mà tôi nghĩ có thể khắc phục được. Giả sử tính năng được biết là thuộc về "Lớn và Tối". Con người đã phân loại nó theo cách này bởi vì, trong khi chỉ vừa đủ lớn, nó rất rất tối, điều này tạo nên phần nào cho sự thiếu "bigness". Thuật toán của tôi sẽ không phân loại đúng tính năng này, bởi vì phân loại dựa trên logic nhị phân cứng nhắc và yêu cầu tất cả các ngưỡng phải được vượt qua. $A$

Tôi muốn cải thiện sự thất bại này bằng cách làm cho thuật toán của tôi bắt chước tốt hơn quá trình hướng dẫn của con người, trong đó sự thiếu hụt trong một tham số có thể được bù đắp bằng sự phong phú của một tham số khác. Để làm điều này, tôi muốn lấy từng thuộc tính cơ bản của các tính năng của mình và chuyển đổi chúng thành một số điểm sẽ là một yếu tố dự đoán của nhóm mà tính năng đó thuộc về. Tôi đã nghĩ ra nhiều cách để làm điều này, nhưng chúng chủ yếu là những ý tưởng đặc biệt, dựa trên nền tảng của tôi về tính toán véc tơ và vật lý. Ví dụ: tôi đã coi việc coi mỗi tính năng là một vectơ trong không gian ND của các thuộc tính tính năng và tính toán hình chiếu của từng tính năng dọc theo các vectơ nhất định, mỗi tính năng sẽ đo mức độ của một tính năng trong nhóm.

Tôi chắc chắn có một kỹ thuật nghiêm ngặt hơn và được thiết lập tốt hơn để thực hiện loại việc này, nhưng nền tảng của tôi tương đối yếu trong phân tích thống kê, vì vậy tôi đang tìm kiếm một bước đi đúng hướng. Ngay cả tên của một kỹ thuật, hoặc một liên kết đến sách giáo khoa cũng sẽ hữu ích.

TL; DR: Những kỹ thuật nào hữu ích trong việc phân loại các đối tượng dựa trên một số lượng lớn các tham số mô tả?

classification

— Colin K
nguồn

@Colin Thật tuyệt khi nhìn vào những bức ảnh. Bạn đã giải thích vấn đề của bạn một cách chi tiết, nó sẽ là một bổ sung tốt. :)

— deps_stats

@deps_stats: Cảm ơn bạn đã khuyến khích, tôi rất vui khi thấy mọi người nghĩ rằng tôi đã đặt ra câu hỏi của tôi ít nhất là một phần nào đó. Thật không may, dữ liệu của tôi có lẽ không phải là một cái gì đó nên có trên một trang web công cộng. Nó không được phân loại chính xác, nhưng nó chắc chắn không dành cho tiêu dùng công cộng. Tôi sẽ cố gắng tạo ra một số dữ liệu nhân tạo sẽ là một ví dụ tốt cho mục đích của câu hỏi này, nhưng tôi có thể không có thời gian để làm điều đó trong một ngày hoặc lâu hơn.

— Colin K

@Colin Không có vấn đề. Tôi hiện đang làm việc trên phân khúc thị trường cho một nhà bán buôn dược phẩm. Vấn đề là dữ liệu của họ trông rất giống tín hiệu. Tôi thấy rất nhiều điểm tương đồng giữa vấn đề của tôi và vấn đề của bạn. Tôi sẽ cố gắng đăng một số nghiên cứu có thể giúp bạn.

— deps_stats

@deps_stats: Tôi ước dữ liệu của mình giống tín hiệu hơn. Tôi cảm thấy thoải mái hơn nhiều với việc xử lý tín hiệu so với loại mô hình / phân tích thống kê này.

— Colin K

@Colin Bạn đã thử phân tích phân cụm nào chưa? (phương tiện k, phân cụm theo phân cấp, phân vùng xung quanh các

— medoid

$N$ $i$ $f_i$

s = \sum_{i} w_{i} f_{i} + o

$s = \sum_i w_i f_i + o$

o

$o$

s > t

$s > t$

t

$t$

s < t

$s < t$ Sau đó, nó không. Lưu ý rằng có một ngưỡng duy nhất được áp dụng cho toàn bộ điểm số (thay vì cho các giá trị tính năng riêng lẻ), do đó, thực sự sự thiếu hụt trong một tham số có thể được bù đắp bằng sự phong phú trong một tham số khác. Các trọng số có thể giải thích bằng trực giác, theo nghĩa là trọng lượng càng cao thì tính năng đó càng quan trọng (hoặc quyết định hơn).

Có rất nhiều phân loại tuyến tính ngoài luồng có thể làm điều đó, bao gồm SVM, LDA (phân tích phân biệt tuyến tính), mạng lưới thần kinh tuyến tính và nhiều mạng khác. Tôi bắt đầu bằng cách chạy SVM tuyến tính vì nó hoạt động tốt trong nhiều trường hợp và có thể chịu được dữ liệu đào tạo hạn chế. Ngoài ra còn có rất nhiều gói trong nhiều môi trường (như Matlab và R), vì vậy bạn có thể dễ dàng thử nó. Nhược điểm của SVM là nó có thể nặng về mặt tính toán, vì vậy nếu bạn cần học nhiều lớp, nó có thể không phù hợp.

$i$ $t_i$

g_{i} = \frac{1}{1 + \exp (f_{i} - t_{i})},

$g_i = \frac{1}{1 + \exp(f_i - t_i)},$

g

$g$

f

$f$

s = \sum_{i} w_{f_{i}}^{i} .

$s = \sum_i w^i_{f_i}.$

f_{i}

$f_i$ , nhưng không phải bằng cách nhân như trong một phân loại tuyến tính thông thường. Điểm trong trường hợp này là xác suất log và trọng số là sự đóng góp của các tính năng riêng lẻ vào xác suất log đó. Nhược điểm của việc sử dụng điều này trong trường hợp của bạn là bạn sẽ cần nhiều thùng cho các giá trị tính năng của bạn, và sau đó việc học có thể trở nên khó khăn. Có nhiều cách xung quanh điều đó (ví dụ, sử dụng linh mục), nhưng vì bạn không có kinh nghiệm về việc này, nên có thể khó khăn hơn.

Về thuật ngữ: những gì bạn gọi là 'tập kiểm tra' thường được gọi là 'tập huấn luyện' trong ngữ cảnh này và những gì bạn gọi là 'dữ liệu mới' được gọi là 'tập kiểm tra'.

Đối với một cuốn sách, tôi đã đọc "Nhận dạng mẫu" của Duda, Hart và Cò. Chương đầu tiên là một giới thiệu rất tốt cho người mới bắt đầu.

— SheldonCooper
nguồn

Tôi đã mua một bản sao "Nhận dạng mẫu" của D, H và S. Nó thực sự rất ngoạn mục, và toàn bộ điều này rất hữu ích và dễ làm theo. Cảm ơn một lần nữa. Đây chính xác là cách SE được cho là hoạt động :)

— Colin K