Có API nào để thu thập thông tin trừu tượng trên giấy không?


13

Nếu tôi có một danh sách rất dài các tên giấy, làm thế nào tôi có thể tóm tắt những giấy tờ này từ internet hoặc bất kỳ cơ sở dữ liệu nào?

Các tên giấy giống như "Đánh giá tiện ích trong khai thác web cho lĩnh vực sức khỏe cộng đồng".

Có ai biết bất kỳ API nào có thể cho tôi một giải pháp không? Tôi đã cố thu thập thông tin google, tuy nhiên, google đã chặn trình thu thập thông tin của tôi.


2
Tôi nghi ngờ có bất kỳ API chung nào cho việc này. Bạn có thể thử thu thập dữ liệu các dịch vụ khác nhau như Academia.edu, trang web của nhà xuất bản, v.v. Tuy nhiên, việc xây dựng một cơ sở dữ liệu cục bộ trước tiên sẽ dễ dàng hơn và sau đó thử nghiệm trích xuất các tóm tắt.
Wojciech Walczak

Cảm ơn câu trả lời của bạn! Tôi đã xây dựng một cơ sở dữ liệu địa phương cho việc này. Vấn đề thu thập dữ liệu từ các dịch vụ khác nhau là tôi phải đưa ra các quy tắc phân tích cú pháp cho mỗi trang web.
Alex Gao

Vì vậy, làm thế nào về việc chuyển đổi các tệp PDF thành TXT và sau đó trích xuất các tóm tắt bằng các biểu thức thông thường?
Wojciech Walczak

cám ơn! Tuy nhiên, hợp đồng nêu rõ rằng không được phép tải xuống nhiều giấy tờ. Điều này tạo ra một số đau đầu.
Alex Gao

2
Tôi nghĩ rằng liên kết câu trả lời chồng chéo này cho câu trả lời tốt nhất tôi có thể nhận được. Có lẽ những người gặp phải vấn đề này cũng có thể xem trang này.
Alex Gao

Câu trả lời:


8

Tra cứu nó trên:

Nếu bạn nhận được một trận đấu tiêu đề chính xác duy nhất thì có lẽ bạn đã tìm thấy bài viết phù hợp và có thể điền vào phần còn lại của thông tin từ đó. Cả hai đều cung cấp cho bạn các liên kết tải xuống và đầu ra kiểu bibtex. Những gì bạn có thể muốn làm mặc dù để có được siêu dữ liệu hoàn hảo là tải xuống và phân tích pdf (nếu có) và tìm mã định danh kiểu DOI.

Xin vui lòng và giới hạn tỷ lệ yêu cầu của bạn nếu bạn làm điều này.


5

arXiv có API và tải xuống hàng loạt nhưng nếu bạn muốn một cái gì đó cho các tạp chí trả phí thì sẽ khó có thể đến được nếu không trả tiền cho một người lập chỉ mục như pubmed hoặc othervier hoặc tương tự.


1
cảm ơn rất nhiều. Tuy nhiên arXiv không cung cấp các giấy tờ tôi cần.
Alex Gao
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.