Tôi có một bộ dữ liệu như thế này:
postID Sentence drugYesOrNo
1 He went out with his friends
2 He behaved nicely while talking with me
3 He stopped using drugs after a while 1
4 He did not meet any friend during last week
1 He slowly cut usage of drugs 1
2 He smiled like he is good
3 He did not seem happy with his situation
Như bạn thấy có hai tính năng. tính năng đầu tiên là câu của chúng tôi và tính năng thứ hai cho thấy câu này có phải là dấu hiệu bệnh nhân đã ngừng thuốc hay không.
cột đầu tiên cho thấy câu đó là một phần của đoạn văn. ví dụ TẠI ĐÂY câu 1-4 là một đoạn trong đó chúng tôi đã chia chúng để xem câu nào cho thấy chính xác việc dừng thuốc . vì vậy câu 3 trong đoạn đầu tiên cho thấy điều này.
Trong trường hợp thứ hai, câu 1-3 là một phần của đoạn văn. Ở đây câu một cho thấy rằng người này đã ngừng sử dụng ma túy (điều này không tốt cho người đó nên tiếp tục)
Vì vậy, mục tiêu của tôi là áp dụng một trình phân loại văn bản học sâu vào dữ liệu văn bản của mình và tạo một mô hình và vì vậy khi tôi nhận được MỘT PARAGRAPH MỚI, tôi sẽ có thể dự đoán liệu người đó có dừng thuốc hay không.
Câu hỏi đầu tiên, với nghiên cứu trường hợp này, phân loại văn bản học sâu nào có thể hoạt động tốt nhất?
Thứ hai, như bạn thấy, chúng tôi đã cắt đoạn văn thành chuỗi các câu. nhưng trong thực tế, chúng tôi sẽ đưa ra một đoạn để kiểm tra mô hình. trong ý tưởng của bạn điều gì sẽ là cách tiếp cận tốt nhất để đối phó với điều này?
Điều tôi nghĩ đến là trong khi thử nghiệm và nhận một đoạn văn, chúng tôi lại chia đoạn đó thành câu và đưa những câu đó cho mô hình nhưng tôi không chắc đó là một cách tiếp cận tốt.
Chúng tôi có 900 câu trong số đó, một lần nữa tôi không chắc chắn với nhiều dữ liệu này, sẽ rất ngu ngốc khi áp dụng phân loại học sâu vào nó.
Tôi đánh giá cao nếu bạn cho tôi quan điểm của bạn :)
Cập nhật sau khi đọc bình luận
Tôi yêu cầu một vài người làm cho một bộ dữ liệu như vậy cho tôi. Tôi có nghĩa là nhìn vào đoạn văn, tách, sau đó nói câu nào có nghĩa đó (dừng thuốc hay không). Điều gì xảy ra nếu tôi không yêu cầu họ nói rõ ràng câu nào có nghĩa đó và chỉ đoạn nào có nghĩa đó (dừng thuốc hay không). Bạn có nghĩ việc dán nhãn chính xác câu nào có nghĩa đó là một ý hay hơn là đoạn nào có nghĩa đó không? Tôi hy vọng tôi đủ rõ ràng :)