phân loại văn bản học sâu nào tốt cho dữ liệu sức khỏe

Tôi có một bộ dữ liệu như thế này:

postID  Sentence                                         drugYesOrNo
1       He went out with his friends    
2       He behaved nicely while talking with me 
3       He stopped using drugs after a while                 1
4       He did not meet any friend during last week 
1       He slowly cut usage of drugs                         1
2       He smiled like he is good   
3       He did not seem happy with his situation

Như bạn thấy có hai tính năng. tính năng đầu tiên là câu của chúng tôi và tính năng thứ hai cho thấy câu này có phải là dấu hiệu bệnh nhân đã ngừng thuốc hay không.

cột đầu tiên cho thấy câu đó là một phần của đoạn văn. ví dụ TẠI ĐÂY câu 1-4 là một đoạn trong đó chúng tôi đã chia chúng để xem câu nào cho thấy chính xác việc dừng thuốc . vì vậy câu 3 trong đoạn đầu tiên cho thấy điều này.

Trong trường hợp thứ hai, câu 1-3 là một phần của đoạn văn. Ở đây câu một cho thấy rằng người này đã ngừng sử dụng ma túy (điều này không tốt cho người đó nên tiếp tục)

Vì vậy, mục tiêu của tôi là áp dụng một trình phân loại văn bản học sâu vào dữ liệu văn bản của mình và tạo một mô hình và vì vậy khi tôi nhận được MỘT PARAGRAPH MỚI, tôi sẽ có thể dự đoán liệu người đó có dừng thuốc hay không.

Câu hỏi đầu tiên, với nghiên cứu trường hợp này, phân loại văn bản học sâu nào có thể hoạt động tốt nhất?

Thứ hai, như bạn thấy, chúng tôi đã cắt đoạn văn thành chuỗi các câu. nhưng trong thực tế, chúng tôi sẽ đưa ra một đoạn để kiểm tra mô hình. trong ý tưởng của bạn điều gì sẽ là cách tiếp cận tốt nhất để đối phó với điều này?

Điều tôi nghĩ đến là trong khi thử nghiệm và nhận một đoạn văn, chúng tôi lại chia đoạn đó thành câu và đưa những câu đó cho mô hình nhưng tôi không chắc đó là một cách tiếp cận tốt.

Chúng tôi có 900 câu trong số đó, một lần nữa tôi không chắc chắn với nhiều dữ liệu này, sẽ rất ngu ngốc khi áp dụng phân loại học sâu vào nó.

Tôi đánh giá cao nếu bạn cho tôi quan điểm của bạn :)

Cập nhật sau khi đọc bình luận

Tôi yêu cầu một vài người làm cho một bộ dữ liệu như vậy cho tôi. Tôi có nghĩa là nhìn vào đoạn văn, tách, sau đó nói câu nào có nghĩa đó (dừng thuốc hay không). Điều gì xảy ra nếu tôi không yêu cầu họ nói rõ ràng câu nào có nghĩa đó và chỉ đoạn nào có nghĩa đó (dừng thuốc hay không). Bạn có nghĩ việc dán nhãn chính xác câu nào có nghĩa đó là một ý hay hơn là đoạn nào có nghĩa đó không? Tôi hy vọng tôi đủ rõ ràng :)

— sariii
nguồn

Có, bạn nên chia đoạn văn thành câu và đưa những câu đó cho mô hình. Cấu trúc sâu của bạn nên như thế này:

Trong lớp đầu tiên, bạn phải đặt một lớp nhúng từ để thể hiện một câu dưới dạng một chuỗi các vectơ. Trong lớp thứ hai, bạn phải đặt LSTM để có thể mô hình hóa vectơ chuỗi của bạn dưới dạng một vectơ duy nhất. Bây giờ, bạn có thể thêm các lớp liên tiếp với các hàm kích hoạt tuyến tính, relu hoặc sigmoid để làm cho mô hình của bạn sâu hơn. Trong lớp cuối cùng, bạn phải sử dụng chức năng kích hoạt sigmoid để thực hiện phân loại nhị phân.

— kim tự tháp
nguồn

Cảm ơn câu trả lời của bạn. Bạn có nghĩ 1000 đoạn hoặc gần 5000 câu là đủ để LSTM cho kết quả tốt không?

— sariii

Không có gì. Vâng, có vẻ như đủ.

— pythinker

Tại sao bạn không đề nghị không xem các đoạn văn như là các câu của câu mà hãy xem đó là một đoạn văn. Vì vậy, trong trường hợp này, chúng ta có một đoạn văn và chuyển toàn bộ đoạn văn cho mô hình. sau đó nếu có bất kỳ câu nào trên đoạn văn cho thấy bệnh nhân đã ngừng sử dụng thuốc thì đó là 1 nếu không thì ý tôi là bạn có thể chia tách như thế này trong đó cho thấy câu nào có thông tin đó có thể giúp người mẫu dự đoán chính xác không? xin lỗi tôi chỉ muốn chắc chắn và nó trở thành công việc hợp lý để làm. :)

— sariii

Để chính xác hơn, khi bạn đang xử lý một đoạn văn, bạn phải chia nó thành các đoạn con để mỗi đoạn con chỉ tương ứng với nhãn (sử dụng hoặc không sử dụng thuốc). Sau đó, bạn phải chuyển từng đoạn con cho mô hình dưới dạng một quan sát duy nhất.

— pythinker

Tôi đoán tôi không hiểu chính xác ý bạn là gì: | bạn cũng có thể nói bằng tiếng Ba Tư tôi sẽ đi đến điểm;). Quay trở lại câu hỏi, tôi đã nhờ một vài người làm một bộ dữ liệu như vậy cho tôi. Tôi có nghĩa là nhìn vào đoạn văn, tách, sau đó nói câu nào có nghĩa đó. Điều gì xảy ra nếu tôi không yêu cầu họ nói rõ ràng câu nào có nghĩa đó và chỉ đoạn nào có nghĩa đó (dừng thuốc hay không). Bạn có nghĩ labling chính xác câu nào có nghĩa đó là một ý tốt hơn là đoạn nào có nghĩa đó không? Tôi hy vọng tôi đủ rõ ràng :)

— sariii