Bất kỳ xử lý cơ sở dữ liệu nhỏ nào cũng có thể được xử lý dễ dàng bằng các tập lệnh Python / Perl / ..., sử dụng các thư viện và / hoặc thậm chí các tiện ích từ chính ngôn ngữ. Tuy nhiên, khi nói đến hiệu suất, mọi người có xu hướng tiếp cận với C / C ++ / ngôn ngữ cấp thấp. Khả năng điều chỉnh mã theo nhu cầu dường như là điều khiến các ngôn ngữ này trở nên hấp dẫn đối với BigData - có thể liên quan đến quản lý bộ nhớ, song song, truy cập đĩa hoặc thậm chí tối ưu hóa ở mức độ thấp (thông qua các cấu trúc lắp ráp ở cấp độ C / C ++).
Tất nhiên các lợi ích như vậy sẽ không đến nếu không có chi phí: viết mã, và đôi khi thậm chí phát minh lại bánh xe , có thể khá tốn kém / mệt mỏi. Mặc dù có rất nhiều thư viện có sẵn, mọi người có xu hướng tự viết mã bất cứ khi nào họ cần để cấp hiệu suất. Điều gì vô hiệu hóa các xác nhận hiệu suất từ việc sử dụng các thư viện trong khi xử lý cơ sở dữ liệu lớn?
Ví dụ: hãy xem xét một sự ủy thác liên tục thu thập dữ liệu trang web và phân tích dữ liệu được thu thập. Đối với mỗi cửa sổ trượt, các thuật toán khai thác dữ liệu khác nhau được chạy dựa trên dữ liệu được trích xuất. Tại sao các nhà phát triển sẽ bỏ qua việc sử dụng các thư viện / khung có sẵn (có thể để thu thập dữ liệu, xử lý văn bản và khai thác dữ liệu)? Sử dụng công cụ đã được thực hiện sẽ không chỉ giảm bớt gánh nặng mã hóa toàn bộ quá trình, mà còn tiết kiệm rất nhiều thời gian.
Trong một lần chụp :
- Điều gì làm cho việc tự viết mã là một sự đảm bảo về hiệu suất?
- Tại sao rủi ro khi dựa vào khung / thư viện khi bạn phải đảm bảo hiệu suất cao?