Tôi đang tạo một trình phân tích cú pháp cho .one
phần mở rộng tệp, khi hoàn thành tôi sẽ thêm vào dự án Tika của Apache.
Đây là dự án mã nguồn mở được cấp phép APL 2.0 mà tôi đang tạo: https://github.com/nddiplists/onenote-parser-java
Tôi đã sử dụng tài liệu đặc tả ở đây: https://docs.microsoft.com/en-us/openspecs/office_file_formats/ms-one/73d22548-a613-4350-8c23-07d15576be50
Để bắt đầu, tôi đã chuyển mã từ dự án C ++ mã nguồn mở này: https://github.com/dropbox/onenote-parser
Tôi đã nhận được một chặng đường dài trong việc phân tích tài liệu, nhưng tôi đã gặp phải một chặn đường.
Đây là tệp OneNote tôi đang sử dụng để phân tích cú pháp: https://drive.google.com/file/d/1uROTEnKeBKU08CG_K5zdDTGHa178LgBK/view?usp=shaming
Tôi không thể xem Mục1TextArea1 và Mục1TextArea2 trong các kết quả được phân tích cú pháp của mình. Vì vậy, tôi đang thiếu một số loại yếu tố phân tích dữ liệu quan trọng hoặc một cái gì đó.
Nó chắc chắn nằm trong tệp OneNote. Tôi có thể thấy nó trong trình xem Hex:
Đây là đầu ra phân tích cú pháp JSON: https://gist.github.com/nddip lọc/02d2252d357b3b02a6b9ab1050474267
Tôi cảm thấy như tài liệu đặc tả đang thiếu một số thông tin rất quan trọng cần thiết để phân tích định dạng độc quyền này.
Yếu tố chính nào tôi bị thiếu dẫn đến việc tôi không nhận được nội dung văn bản thực tế?