Trường hợp nào người ta có thể có được các tập dữ liệu / vấn đề kiểm tra tốt cho các thuật toán / thói quen kiểm tra?


41

Khi đánh giá chất lượng của một phần mềm bạn sắp sử dụng (cho dù đó là thứ bạn đã viết hay gói đóng hộp) trong công việc tính toán, thường là một ý tưởng tốt để xem nó hoạt động tốt như thế nào trên các tập dữ liệu hoặc vấn đề tiêu chuẩn. Trường hợp nào người ta có thể có được các bài kiểm tra này để xác minh các thói quen tính toán?

(Một trang web / cuốn sách cho mỗi câu trả lời, xin vui lòng.)


Tôi dự định đây là một bài viết trên Wiki cộng đồng và do đó đã gắn cờ nó để chuyển đổi.
JM

3
không phải câu hỏi này quá rộng, tức là nó phụ thuộc vào thuật toán / bản chất của vấn đề mà phần mềm này được sử dụng để giải quyết?
Andre Holzner

Tôi thực sự muốn câu hỏi này là wiki cộng đồng , @Andre (như một "danh sách lớn" các tài nguyên); Tôi đã gắn cờ nó để chuyển đổi, nhưng tôi không biết tại sao nó không được chuyển đổi.
JM

@JM Tôi đã chuyển đổi nó.
David Ketcheson

Câu trả lời:



13

Phương pháp của các giải pháp được sản xuất là một tiêu chuẩn để kiểm tra PDE và các bộ giải khác. Hầu hết các hệ thống đại số tượng trưng đều có các phương tiện để tạo mã, điều này rất hữu ích để tạo các giải pháp sản xuất. SymPy và Maple có mã hóa chức năng, trong số những người khác cho mục đích này.




8

Trong điện từ tính toán, có một tập hợp nổi tiếng (hoặc nổi tiếng vì những khó khăn trong một số) vấn đề kiểm tra: Kiểm tra phương pháp phân tích điện từ (TEAM) .

Một số trong số họ thực sự cần các kỹ thuật số hiện đại một cách nghiêm túc để có được kết quả mô phỏng chính xác phù hợp với dữ liệu thử nghiệm. Ví dụ, vấn đề cuộn dây dẫn .

Một tập hợp các vấn đề kiểm tra khác cho phương trình Maxwell được biên soạn bởi Dauge: Tính toán điểm chuẩn cho phương trình Maxwell để tính gần đúng các giải pháp đơn lẻ . Một trong khối F Richa nổi tiếng (hoặc khét tiếng):

giàu hơn

bất kỳ và sống trên khối này sẽ là một thách thức đối với mã PDE số của bạn. E = - φϕH1+ϵE=ϕ

PDE số cuối cùng, có các Điểm chuẩn của hpFEM trong 2D (Các vấn đề với Giải pháp Chính xác đã biết) , tôi đã sử dụng các vấn đề kiểm tra trong đó trong một thời gian dài để kiểm tra mã phần tử hữu hạn của mình. Ví dụ: không trơn tru nổi tiếng gần nguồn gốc của ví dụ miền hình chữ L

Δu=0,where u=rαsin(αθ).

7

Nếu bạn quan tâm đến các thuật toán điểm chuẩn liên quan đến cấu trúc phân tử, cơ sở dữ liệu pubool có một bộ sưu tập lớn các phân tử hữu cơ. Điều này có thể hữu ích để so sánh các dự đoán về tính chất phân tử thu được với các mô hình / chương trình khác nhau. Trang web có một số tùy chọn để tải xuống các lô phân tử lớn đáp ứng một số tiêu chí được xác định trước (ví dụ: thành phần hóa học).



7

Trang web CUTEr cập nhật bộ kiểm tra CUTE được đề cập trên trang web của Arnold Neumaier với một số vấn đề bổ sung để tối ưu hóa và giải quyết tuyến tính. Ngoài ra, nó cung cấp các công cụ phần mềm để kiểm tra và cập nhật đại số tuyến tính và bộ giải tối ưu hóa.







3

Alan Genz đã đề xuất một bộ thử nghiệm các chức năng trong bài kiểm tra quy trình tích hợp đa chiều trên giấy . Tôi không thể tìm thấy phiên bản trực tuyến của bài viết này, nhưng các tài liệu tham khảo về nó có thể được tìm thấy trong các bài viết về thư viện CUBA .




2

Nếu bạn đang tìm kiếm các biểu đồ lớn hoặc dữ liệu mạng để kiểm tra. Các dự án Phân tích Mạng Stanford (SNAP) có nhiều bộ dữ liệu đồ thị lớn thường dưới dạng một danh sách kề ẩn danh. Một số tùy chọn của họ bao gồm:

Dữ liệu

Thuộc tính của dữ liệu

  • Số cạnh: bất cứ nơi nào từ ~ 10 đến ~ 400 triệu
  • Số lượng nút: bất cứ nơi nào từ ~ 10 đến ~ 100 triệu
  • Các loại cạnh: được định hướng, không bị chặn, có trọng số, không có trọng số, có chữ ký và không được ký.
  • Các loại mạng: có hướng, không bị chặn, lưỡng cực, đa tầng, tạm thời, có nhãn.

Số liệu thống kê sự thật mặt đất có sẵn trên các bộ dữ liệu:

Công cụ


@JM không có vấn đề! Tôi đã sử dụng một số bộ dữ liệu mạng xã hội của họ một thời gian trước cho một dự án và sau đó tình cờ thấy stackexchange này và nghĩ rằng nó có thể hữu ích ở đây.
ryan

-3

Dữ liệu dễ dàng; API để có được nó có thể khó khăn. Tôi khuyên bạn nên Quandl . Trang web này có hơn 10 triệu bộ dữ liệu có sẵn công khai có thể truy cập thông qua một API REST-Ful dễ dàng. Tất cả dữ liệu được trả về trong CSV hoặc JSON. Hoặc, nếu lập trình không phù hợp với bạn, có nhiều cách dễ dàng để lấy dữ liệu vào Excel. Các lập trình viên R, Python và Ruby sẽ ở ngay tại nhà với các thư viện riêng.


1
Chào mừng đến với Scicomp! Tôi không nghĩ rằng đây là loại dữ liệu mà câu hỏi nói về; để kiểm tra các thuật toán, bạn không chỉ cần một tập dữ liệu mà còn cả một kết quả đã biết tương ứng (tùy thuộc vào vấn đề / thuật toán) để so sánh kết quả của bạn với.
Christian Clason

Cảm ơn, @ChristianClason. Tôi hiểu ý bạn là gì. Ví dụ: nếu phần mềm dành cho hồi quy tuyến tính, tác giả quan tâm đến các tập dữ liệu cũng như một tập hợp các kết quả phân tích được hiệu đính để kiểm tra xem gói hồi quy tuyến tính có hoạt động chính xác không.
Brian Rủi ro
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.