Làm thế nào để xác định độ phức tạp của một câu tiếng Anh?


10

Tôi đang làm việc trên một ứng dụng để giúp mọi người học tiếng Anh như ngôn ngữ thứ hai. Tôi đã xác nhận rằng các câu giúp trong việc học một ngôn ngữ bằng cách cung cấp thêm ngữ cảnh. Tôi đã làm điều đó bằng cách thực hiện một nghiên cứu nhỏ trong một lớp học gồm 60 sinh viên.

Tôi đã khai thác hơn trăm nghìn câu từ Wikipedia cho nhiều từ tiếng Anh khác nhau (Bao gồm 800 từ của Barrons và 1000 từ tiếng Anh phổ biến nhất)

Toàn bộ dữ liệu có sẵn tại https://buildmyvocab.in

Để duy trì chất lượng nội dung, tôi đã lọc ra những câu dài hơn 160 ký tự vì chúng có thể khó hiểu.

Bước tiếp theo, tôi muốn có thể tự động hóa quá trình sắp xếp nội dung này theo thứ tự dễ hiểu. Bản thân tôi là một người nói tiếng Anh không phải là người bản xứ. Tôi muốn biết những tính năng nào tôi có thể sử dụng để tách những câu dễ ra khỏi những câu khó.

Ngoài ra, bạn có nghĩ rằng điều này là có thể?

Câu trả lời:


8

Đúng. Có nhiều số liệu khác nhau, chẳng hạn như chỉ số fogg. Textacy trong python có một danh sách và thực hiện tốt đẹp.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.