Tôi cần lấy hàng ngàn đoạn văn bản từ tệp PDF sang bảng tính. Chúng ngắn, hiếm khi hơn 2-3 hàng, nhưng mỗi dòng ngắt tạo ra một ô mới và tôi phải sửa nó bằng tay, tốn rất nhiều thời gian.
Bởi vì tôi có rất nhiều trong số họ, sử dụng cách giải quyết "dán vào Word và tìm cách thay thế" là quá lãng phí thời gian đối với tôi. Có cách nào để ngắt dòng biến mất trên bản sao không? Có lẽ có một người xem cung cấp chế độ sao chép đặc biệt cho điều này hoặc có một plugin?
Các tài liệu là bài báo khoa học. Việc sắp xếp văn bản khá tuyến tính. Bạn có thể giả định rằng văn bản tôi đang sao chép không nằm trong bảng hoặc hình nổi và không được xoay hoặc bất cứ thứ gì. (Nếu điều đó xảy ra, tôi nghĩ tôi sẽ giải quyết bằng tay). Văn bản thường được đặt trong hai cột, nhưng tôi không gặp khó khăn khi chỉ đánh dấu văn bản tôi cần từ cột của nó. Tôi không cần phải giữ bất kỳ định dạng đặc biệt nào. Tôi sẵn sàng thử một giải pháp loại bỏ tất cả các ký tự không thể in được, ví dụ. Các văn bản bằng tiếng Anh, sẽ ổn nếu giải pháp chỉ hoạt động ở ASCII / dải tất cả ASCII không chữ và số của văn bản được sao chép.
Tôi có một ưu tiên rất lớn cho một giải pháp sẽ hoạt động trên Linux, có thể là một loại plugin Okular nào đó. Nhưng nếu có một giải pháp chỉ dành cho Windows, tôi cũng muốn nghe về nó. Tôi có giấy phép cho một Acrobat Pro gần đây trên máy Windows.