Công cụ tạo bộ dữ liệu lớn của dữ liệu thử nghiệm [đã đóng]


25

Nhiều khi cố gắng đưa ra một thiết kế cơ sở dữ liệu hiệu quả, cách hành động tốt nhất là xây dựng hai cơ sở dữ liệu mẫu, điền dữ liệu vào chúng và chạy một số truy vấn đối với chúng để xem cái nào hoạt động tốt hơn.

Có một công cụ sẽ tạo ra (lý tưởng thẳng vào cơ sở dữ liệu) bộ dữ liệu thử nghiệm lớn (~ 10.000 bản ghi) tương đối nhanh không? Tôi đang tìm kiếm thứ gì đó ít nhất hoạt động với MySQL.

Câu trả lời:


12

Công cụ tốt nhất (nếu bạn có thể tìm thấy nó) là DataFactory. (Đáng buồn là in ra). Tôi đã tạo ra các bộ dữ liệu hoàn toàn thú vị (và trông khá xác thực) từ nó.

Generatedata.com là ... chấp nhận được, nhưng không có quy mô rất tốt.

DataGenerator là một cái gì đó để mắt đến.

Và trong khi Trình tạo dữ liệu DTM rất cục mịch và là một công cụ thay thế kém cho DataFactory, nó tồn tại và đang được bán và tôi đã sử dụng nó để tạo ra dữ liệu nhẹ chấp nhận được.



4

Tôi thường tự tạo, sử dụng một số dữ liệu đã biết làm đầu vào - nếu quá ngẫu nhiên, nó không phải lúc nào cũng là một thử nghiệm tốt; Tôi cần dữ liệu sẽ được phân phối tương tự như sản phẩm cuối cùng của tôi.

Tất cả các cơ sở dữ liệu lớn hơn mà tôi phải điều chỉnh đều có bản chất khoa học - vì vậy tôi thường có thể lấy một số điều tra khác làm đầu vào, và hủy bỏ nó và thêm jitter. (ví dụ: lấy dữ liệu ở tốc độ 5 phút với độ chính xác đến mili giây và biến nó thành nhịp chính xác 10 giây với độ chính xác milimet giây nhưng độ biến thiên +/- 100 ms theo thời gian)

...

Nhưng, như một cách khác, nếu bạn không muốn tự viết, hãy xem một số công cụ đo điểm chuẩn - vì chúng có thể lặp đi lặp lại nhiều lần dựa trên tập huấn luyện, bạn có thể sử dụng chúng để chèn rất nhiều các bản ghi (và sau đó chỉ cần bỏ qua các báo cáo về tốc độ của nó) ... và sau đó bạn có thể sử dụng cùng một công cụ đó để kiểm tra tốc độ của cơ sở dữ liệu khi nó được tạo ra.





1

Cách hiệu quả nhất về chi phí có lẽ là sử dụng một trình tạo dữ liệu thương mại hoặc nguồn mở. Tôi đã từng làm điều đó.

Bây giờ, trong những năm hoàng kim của mình, tôi coi mỗi nhu cầu về dữ liệu thử nghiệm là một nhiệm vụ để học một ngôn ngữ kịch bản khác.


1

Đối với bất kỳ ai đang tìm kiếm một giải pháp khác cho vấn đề này ... Tôi đã viết một dự án tạo dữ liệu thử nghiệm cho Studio Đồng bộ hóa dữ liệu. Nó có thể tạo ra một tập dữ liệu lớn từ 1 đến 100 triệu hàng dữ liệu thử nghiệm thực tế. Đây là một bài viết trên blog về nó. http://www.simego.com/Blog/2012/02/Test-Data-Generator-Doad-for-Data-Sync Bạn có thể sử dụng miễn phí trong 15 ngày (khi bạn có dữ liệu kiểm tra của mình, bạn có nó)

Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.