Làm thế nào để làm phân loại văn bản một lớp?

14

Tôi phải đối phó với một vấn đề phân loại văn bản. Trình thu thập dữ liệu web thu thập dữ liệu các trang web của một tên miền nhất định và đối với mỗi trang web tôi muốn tìm hiểu xem nó có thuộc về một lớp cụ thể hay không. Đó là, nếu tôi gọi lớp này là Tích cực , mỗi trang web được thu thập thông tin thuộc về lớp Tích cực hoặc thuộc lớp Không tích cực .

Tôi đã có một bộ trang web đào tạo lớn cho lớp Tích cực . Nhưng làm thế nào để tạo một tập huấn luyện cho lớp Không tích cực mà đại diện nhất có thể? Ý tôi là, về cơ bản tôi có thể sử dụng mọi thứ cho lớp học đó. Tôi chỉ có thể thu thập một số trang tùy ý mà chắc chắn không thuộc về lớp Tích cực ? Tôi chắc chắn rằng hiệu suất của thuật toán phân loại văn bản (tôi thích sử dụng thuật toán Naive Bayes) phụ thuộc nhiều vào trang web tôi chọn cho lớp Không tích cực .

Vậy tôi phải làm gì? Ai đó có thể xin vui lòng cho tôi một lời khuyên? Cảm ơn rât nhiều!

— pemistahl
nguồn

Thực tế đây là hai lớp phân cụm vì bạn có hai lớp. Đối với một lớp, bạn sẽ chỉ có một lớp và sẽ quan tâm đến việc đánh giá mức độ quan sát của bạn phù hợp với dữ liệu (tức là phát hiện các ngoại lệ).

— Tim

Vấn đề học tập này có một tên - học PU. Điều này là tự nhiên được sử dụng nếu các ví dụ tích cực là dễ dàng hoặc tự nhiên để có được nhưng tiêu cực về cơ bản là tất cả mọi thứ còn lại (khó có được). Về nguyên tắc, bạn muốn học một trình phân loại hai lớp tiêu chuẩn nhưng với một tiêu chí khác nhau - tối ưu hóa khu vực dưới đường cong PR. Gói phần mềm này cho phép bạn để đào tạo một ví dụ phân loại code.google.com/p/sofia-ml

— Vladislavs Dovgalecs

5

Các Spy EM thuật toán giải quyết chính xác vấn đề này.

S-EM là một hệ thống học tập hoặc phân loại văn bản học từ một tập hợp các ví dụ tích cực và không có nhãn (không có ví dụ tiêu cực). Nó dựa trên kỹ thuật "gián điệp", thuật toán Bayes và EM ngây thơ.

Ý tưởng cơ bản là kết hợp bộ tích cực của bạn với một loạt các tài liệu được thu thập ngẫu nhiên. Ban đầu, bạn coi tất cả các tài liệu được thu thập thông tin là lớp phủ định và tìm hiểu một trình phân loại vịnh ngây thơ trên tập hợp đó. Bây giờ một số tài liệu được thu thập thông tin đó sẽ thực sự tích cực và bạn có thể dán lại một cách thận trọng bất kỳ tài liệu nào được chấm điểm cao hơn tài liệu thực sự có điểm thấp nhất. Sau đó, bạn lặp lại quá trình này cho đến khi nó ổn định.

— rrenaud
nguồn

Cảm ơn rất nhiều, điều đó nghe có vẻ khá hứa hẹn. Tôi sẽ xem xét nó.

— pemistahl

6

Đây là một luận án tốt về phân loại một lớp:

Tax, DM: Phân loại một lớp - Học theo khái niệm khi không có ví dụ phản biện , luận án tiến sĩ, Technische Universiteit Delft, 2001. ( pdf )

Luận án này giới thiệu phương pháp Mô tả dữ liệu vectơ hỗ trợ (SVDD), một máy vectơ hỗ trợ một lớp tìm thấy một siêu cầu xung quanh dữ liệu thay vì siêu phẳng phân tách dữ liệu.

Luận án cũng đánh giá các phân loại một lớp khác.

— không
nguồn

Chào mừng đến với trang web, @nub. Chúng tôi hy vọng sẽ xây dựng một kho lưu trữ thông tin thống kê vĩnh viễn, vì vậy, chúng tôi lo lắng về khả năng của linkrot. Bạn có phiền khi đưa ra một bản tóm tắt các thông tin trong luận án đó trong trường hợp liên kết bị chết không?

— gung - Phục hồi Monica

Cảm ơn bạn đã tóm tắt. Vui lòng đăng ký và hợp nhất tài khoản của bạn (bạn có thể tìm hiểu làm thế nào trong phần Tài khoản của tôi trong trung tâm trợ giúp của chúng tôi ), sau đó bạn sẽ có thể chỉnh sửa & nhận xét về bài đăng của riêng bạn.

— gung - Phục hồi Monica

@gung Cảm ơn sự chào đón. Tôi rất vui mừng khi nhận được huy hiệu "Yearling" trên chính StackOverflow, vì vậy bây giờ tôi có thể nhận xét ở mọi nơi.

— Josiah Yoder

@JosiahYoder, nếu bạn là OP ở đây, vui lòng hợp nhất các tài khoản của bạn. Bạn có thể tìm hiểu làm thế nào trong phần Tài khoản của tôi trong trung tâm trợ giúp của chúng tôi .

— gung - Phục hồi Monica

Tôi không phải là OP. Chỉ là một người dùng SO ngẫu nhiên đã xảy ra trong câu hỏi này.

— Josiah Yoder

1

Đào tạo tốt đòi hỏi dữ liệu cung cấp ước tính tốt về xác suất của từng lớp. Mỗi vấn đề phân loại liên quan đến ít nhất hai lớp. Trong trường hợp của bạn, lớp thứ hai là bất kỳ ai không thuộc lớp tích cực. Để hình thành một ranh giới quyết định tốt bằng cách sử dụng Bayes hoặc bất kỳ phương pháp tốt nào khác được thực hiện tốt nhất với càng nhiều dữ liệu đào tạo được chọn ngẫu nhiên từ lớp. Nếu bạn thực hiện lựa chọn không ngẫu nhiên, bạn có thể nhận được một mẫu không thực sự đại diện cho hình dạng của mật độ / phân phối có điều kiện của lớp và có thể dẫn đến lựa chọn kém về ranh giới quyết định.

— Michael R. Chernick
nguồn

1

Bạn nói đúng, đây chính xác là điều làm phiền tôi. Làm thế nào để chọn một mẫu các mẫu không dương tính dẫn đến ranh giới quyết định tốt? Là làm một lựa chọn ngẫu nhiên tốt nhất tôi có thể làm?

— pemistahl

0

Tôi đồng ý với Michael.

Về câu hỏi của bạn về lựa chọn ngẫu nhiên; có: bạn phải chọn ngẫu nhiên từ bộ bổ sung 'tích cực' của bạn. Nếu có bất kỳ sự nhầm lẫn nào có thể là 'tích cực' của bạn không được định nghĩa đầy đủ là 'tích cực thuần túy', nếu tôi có thể sử dụng cụm từ đó, thì bạn cũng có thể thử ít nhất một số định nghĩa phù hợp cho tích cực để bạn sẽ kiểm soát các biến đó có khả năng gây ô nhiễm theo định nghĩa 'dương'. Trong trường hợp này, bạn cũng phải khớp tương ứng trên cùng một biến ở bên 'không tích cực'.

— crmportals
nguồn

0

Một bài viết có thể được quan tâm là:

"Phân loại centroid thu nhỏ gần nhất mở rộng: Một phương pháp mới để phân bổ quyền tác giả mở cho các văn bản có kích cỡ khác nhau", Schaalje, Lĩnh vực, Roper và Snow. Văn học và ngôn ngữ điện toán, tập. 26, số 1, 2011.

Phương pháp này sử dụng một phương thức để gán một văn bản cho một nhóm tác giả và mở rộng nó để sử dụng khả năng tác giả thực sự không có trong bộ ứng cử viên. Ngay cả khi bạn không sử dụng phương pháp NSC, các ý tưởng trong bài viết có thể hữu ích trong việc suy nghĩ về cách tiến hành.

— Greg tuyết
nguồn