Có cách nào để lọc các bảng Wikipedia không?


12

Tôi đang tìm cách lọc các bảng thường thấy trong các bài viết trên Wikipedia, vì vậy tôi chỉ có thể so sánh các hàng (và cột) mà tôi quan tâm.

Có phải không

  1. một tính năng tích hợp trong công cụ Wikipedia mà tôi không biết
  2. hoặc một plugin trình duyệt hỗ trợ này

Các tính năng tôi có thể nghĩ đến là:

  • Lọc theo giá trị cột
  • Ẩn cột
  • Sắp xếp đa cấp

Ahhh ... bãi mìn ngoài chủ đề. Xem điểm 3 trong bảng đầu tiên. Tôi đang yêu cầu một cái gì đó cụ thể cho Wikipedia. Trên thực tế, một kịch bản Greasemonkey sẽ làm được, nhưng không thể tìm thấy một
cá nóc

Câu trả lời:


8

Nếu bạn đặt công thức này vào một ô trong Google Sheet, nó sẽ xóa dữ liệu dạng bảng từ liên kết bài viết Wikipedia này: http://en.wikipedia.org/wiki/Demographics_of_India

=IMPORTHTML("http://en.wikipedia.org/wiki/Demographics_of_India", "table", 4)

Khi bạn có dữ liệu trong Google Sheet, bạn có thể lọc theo giá trị cột (chọn tiêu đề cột, chọn Bộ lọc từ menu Dữ liệu ) & ẩn cột (chọn cột, chọn Ẩn cột từ menu ngữ cảnh)

Ảnh chụp màn hình Google Sheets


1

Những cái bàn? Bạn có nghĩa là các hộp thông tin? Bạn có thể nên sử dụng Wikidata http://wikidata.org/w/api.php và trích xuất thông tin từ đó (nó sẽ sạch hơn), sau đó trình bày nó theo cách bạn thích.

Mặt khác, bạn có thể rắc display: nonekhắp nơi trên các ID và lớp thích hợp cho các bảng đang đề cập, nhưng nó sẽ là một cuộc rượt đuổi vô tận của thông tin phi cấu trúc.


1

Bộ lọc Bảng Wikipedia Tập lệnh Greasemonkey thực hiện những gì bạn muốn:

Tóm tắt tập lệnh: Lọc các bảng wikipedia bằng cách xóa tất cả các hàng có giá trị không mong muốn hoặc bằng cách xóa các hàng và cột nhất định.

Bạn có thể cần thêm httpsphiên bản URL wikiedia vào danh sách bộ lọc các trang được bao gồm của tập lệnh để làm cho nó hoạt động.

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.