L1 thường được sử dụng làm bộ lưu trữ cho các hướng dẫn được giải mã, trong khi L2 là bộ đệm chung cho một lõi. Bộ đệm càng thấp thì kích thước càng nhỏ và nó thường nhanh hơn. Như một quy tắc thô sơ cho bộ xử lý PC:
L1 Cache: truy cập 2-3 chu kỳ đồng hồ
L2 Cache: ~ 10 chu kỳ truy cập đồng hồ
L3 Cache: ~ 20-30 chu kỳ truy cập đồng hồ
Thiết kế của bộ đệm L1 phải là tối đa hóa tốc độ nhấn (xác suất của địa chỉ lệnh hoặc địa chỉ dữ liệu mong muốn nằm trong bộ đệm) trong khi vẫn giữ độ trễ của bộ đệm càng thấp càng tốt. Intel sử dụng bộ đệm L1 với độ trễ 3 chu kỳ. Bộ đệm L2 được chia sẻ giữa một hoặc nhiều bộ đệm L1 và thường lớn hơn nhiều. Trong khi bộ đệm L1 được thiết kế để tối đa hóa tốc độ truy cập, bộ đệm L2 được thiết kế để giảm thiểu hình phạt bỏ lỡ (độ trễ phát sinh khi xảy ra lỗi L1). Đối với các chip có bộ đệm L3, mục đích là dành riêng cho thiết kế của chip. Đối với Intel, bộ nhớ cache L3 lần đầu tiên xuất hiện trong các hệ thống đa bộ xử lý 4 chiều (bộ xử lý Pentium 4 Xeon MP) vào năm 2002. Bộ nhớ cache L3 theo nghĩa này giúp giảm đáng kể độ trễ trong môi trường đa luồng và giảm tải FSB. Vào thời điểm đó,
Trích dẫn có nguồn gốc từ đây từ phản ứng của "Pinhedd".