SQL cho phép bạn kiên trì và thực hiện nhiều giao dịch quan hệ khác nhau và luôn có sẵn nó cho nhiều mục đích sử dụng khác nhau. Chủ yếu là một nguồn của sự thật hoặc nơi để đi. Có trên đầu cho chắc chắn. Tuy nhiên, một số phân tích có thể rất phức tạp và đòi hỏi số lượng đáng kể các thao tác dựa trên tập hợp có thể biến ngay cả một tập dữ liệu nhỏ thành một tập lớn rất nhanh. Tôi đã có các quy trình dữ liệu có hơn 2000 truy vấn xử lý terabyte trong chưa đầy 5 phút và có thể ghi được hàng tỷ bản ghi cho một mô hình dự đoán ở cuối và python và numpy đã ghi một phần của tập dữ liệu trong 10 lần dưới dạng lưu trữ dữ liệu quan hệ và phục vụ nó lên đến một lớp trình bày.
Một điểm bổ sung, nếu thực hiện điều này trong đám mây, hãy đảm bảo bạn có một thể hiện động có thể mở rộng bộ nhớ của nó. Với SQL, tất cả là về việc có đĩa và tính toán đủ để hoàn thành công việc một cách kịp thời.
Tôi thấy nhiều cách mà họ có thể làm việc với nhau. Nhiều công việc khoa học dữ liệu là những gì Pandas được thiết kế để làm. Một số công việc khoa học dữ liệu là những gì RDB được thiết kế để làm. Sử dụng cả hai trong sự cân bằng.
Đó là tất cả về công cụ phù hợp để làm công việc đúng.