Tự động phân tích cú pháp văn bản trích dẫn trong tài liệu tham khảo học thuật


18

Có phần mềm nào (hoặc mã giả) có thể tự động quét một đoạn văn bản (được dán vào công cụ hoặc đọc từ .doc / .pdf) và xác định dữ liệu trích dẫn bằng các định dạng chuẩn không? Dữ liệu sau đó sẽ được chia thành các trường cấu thành của nó và được xuất ra dưới dạng XML, CSV hoặc một số định dạng dữ liệu có cấu trúc khác. Tôi đã xem xét cb2Bib nhưng nó chỉ có thể trích xuất năm từ các tài liệu tham khảo theo phong cách Harvard, điều đó là không đủ.


Bạn có muốn tự quét văn bản hay chỉ phần tham khảo?
innaM

Chỉ là các tài liệu tham khảo - nó có thể là một tài liệu có chứa các ấn phẩm cá nhân.
Alistair Knock

Tôi không chắc đây có phải là thứ bạn có thể cần không nhưng bạn có thể dùng thử refhive.com
Mostafa Elmoghazi

Câu trả lời:


4

Hãy xem danh sách các Trình phân tích trích dẫn có thể tạo XML từ văn bản đầu vào:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (trong chế độ bảo trì như của ngày 01 tháng 8 năm 2012)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Cites-Parser-1.10

Với freecite, bạn có thể sử dụng một curllệnh để gửi trích dẫn như sau (trong PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

Một tùy chọn khác là github.com/inspirehep/refextract . Nó không dựa trên ML nhưng nó hoạt động rất tốt trong các bài kiểm tra của tôi.
Josir

3

Tại thời điểm này (2017), dự án Nguồn mở tích cực nhất đang triển khai dự án này dường như là An Pars Parser (phiên bản cuối 07-2016). Nó có thể được sử dụng thông qua giao diện web, API hoặc được tải xuống dưới dạng RubyGem.

Họ đề cập rõ ràng trên trang web của họ rằng việc triển khai được lấy cảm hứng từ ParsCit (phiên bản cuối cùng 2013?) Và FreeCite (lần cam kết cuối cùng 2009).

Đồng thời hình thành trang web của họ:

AnyStyle Parser sử dụng các heuristic học máy mạnh mẽ dựa trên các Trường ngẫu nhiên có điều kiện có thể được đào tạo bởi mọi người bằng trình soạn thảo tích hợp của chúng tôi.

Đó là một tính năng thực sự thú vị, làm cho điều này trở thành triển khai thú vị nhất (imho). Việc đào tạo dường như khá đơn giản, như được giải thích trong tài liệu API . Bạn chỉ cần cung cấp một số kết quả được sửa thủ công và chạy Anystyle.parser.trainlệnh. Tôi không chắc liệu ParsCit và FreeCite có hỗ trợ điều này không, nhưng nếu họ không làm vậy, thì đây có vẻ là một sự khác biệt lớn về tính năng đối với tôi.


Ngoại trừ An An Parser, tất cả chúng đều được đề cập trong câu trả lời được bình chọn cao nhất hiện nay. Điều gì thực sự làm cho họ nổi bật? Điều gì sẽ là lợi thế hoặc bất lợi cho câu hỏi ban đầu?
Seth

À, thực sự. Tôi sẽ chỉnh sửa và cải thiện câu trả lời của tôi. Thx đã chỉ ra rằng.
Wouter

Hình như nó đã chết rồi.
chuyên gia

1
@Brandon: Tôi đã đăng một HOWTO tại đây: github.com/inukshuk/wapiti-ruby/issues/3
Wouter

1
Trông thật tuyệt, cảm ơn! Là một người chưa bao giờ chạm vào ruby, nó thực sự sẽ rất hữu ích.
Brandon

2

Hãy thử một công cụ như Regex Buddy hoặc Expresso .

Nếu bạn không phải là lập trình viên Biểu thức chính quy có thể hơi đáng sợ, nhưng chúng thực sự không khó lắm, đặc biệt là với một công cụ tử tế như một trong những điều trên.

Dưới đây là ví dụ về một người nào đó sử dụng Biểu thức chính quy để trích xuất trích dẫn:

Trích dẫn phân tích biểu thức chính quy


1

Mendeley sẽ có thể làm điều này. Nó có thể nhập các tệp PDF và sau đó xuất siêu dữ liệu sang BibTeX, RIS và EndNote XML. Nó là miễn phí để tải về và là đa nền tảng.

Chỉnh sửa: Tôi đã thử nghiệm điều này trên một vài tài liệu. Việc nhập PDF dường như hoạt động tốt đối với các tham chiếu được định dạng chính xác. Đối với tài liệu tôi đã tạo bằng LaTeX, tất cả các tài liệu tham khảo với tác giả ở dạng "Smith, J." hoặc "J. Smith", v.v., được nhập khẩu tốt. Nếu tác giả là một công ty (một từ duy nhất) hoặc tài liệu tham khảo không đầy đủ, nó cũng không hoạt động. Các tài liệu tham khảo được trích xuất có thể dễ dàng được chỉnh sửa và xuất sang BibTeX, v.v.


2
"Tính năng này đã bị xóa trong Mendeley 0.9.7 vì nó tiêu tốn một lượng tài nguyên (phía máy khách và máy chủ) mà không cung cấp đủ giá trị. Chúng tôi dự định giới thiệu lại nó ở dạng cải tiến trong tương lai." ...... feedback.mendeley.com/forums/4941-mendeley-feedback/suggestions/...
iceman

1

Tôi đã thấy một chương trình Westlaw làm điều đó cho các trích dẫn hợp pháp, nhưng đó có lẽ không phải là những gì bạn đang tìm kiếm. Trình quản lý tham chiếu có thể làm một cái gì đó tương tự cho các định dạng học thuật, nhưng tôi chưa bao giờ sử dụng nó.



0

Zotero là một plugin cho firefox thực hiện điều này cho nội dung web. Không chắc chắn nếu có một công cụ tương tự cho các tài liệu / pdf


1
Tôi biết rằng đây không chính xác là những gì Zotero được thiết kế để làm, nhưng nếu bạn trỏ Firefox vào một tệp văn bản hoặc tệp html với dữ liệu liên quan, Zotero có thể nhận ra các tham chiếu và sau đó bạn có thể thêm nó vào thư viện Zotero và xuất ra toàn bộ thư viện thành bất kỳ định dạng nào bạn thích (tôi biết Zotero hỗ trợ một loạt các định dạng). Điều này sẽ gây đau đớn cho một số lượng lớn các tập tin mặc dù.
neded

Tôi không thấy Zotero làm những gì OP yêu cầu. Tôi đã cài đặt nó, nhưng dường như không có tùy chọn để phân tích tham chiếu.
Rikki

Zotero phân tích trích dẫn từ các trang web được mã hóa đặc biệt, không phải từ văn bản thông thường.
Ochado

0

Điều này có lẽ thuộc nhiều hơn như là một nhận xét cho @Abhinav, nhưng zotero chắc chắn chỉ xử lý dữ liệu có cấu trúc, như bạn sẽ thấy được mô tả ở đây:

http://www.zotero.org/support/getting_ ware_into_your_l Library # iporting_records_from_other_Vference_tools

Một hack thú vị có thể là cố gắng viết một chương trình sử dụng mỗi trích dẫn làm truy vấn tìm kiếm trong cơ sở dữ liệu yêu thích của bạn, sau đó sử dụng một cái gì đó như zotero để tạo thông tin ref. Bạn cũng có thể tải xuống thông tin có cấu trúc từ các dịch vụ như citeUlike. Hãy cho tôi biết nếu bạn kết thúc việc gì đó như thế! (đặt nó lên github nếu bạn làm;).

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.