Haswell của Intel (hoặc ít nhất là những sản phẩm kết hợp GPU Iris Pro 5200) và POWER7 và POWER8 của IBM đều bao gồm DRAM nhúng, "eDRAM".
Một vấn đề quan trọng đã khiến eDRAM không phổ biến cho đến gần đây là quy trình chế tạo DRAM vốn không tương thích với các quy trình logic, do đó phải đưa vào các bước bổ sung (làm tăng chi phí và giảm năng suất) khi mong muốn eDRAM. Vì vậy, phải có một lý do thuyết phục cho việc muốn kết hợp nó để bù đắp cho nhược điểm kinh tế này. Ngoài ra, DRAM có thể được đặt trên một khuôn riêng biệt được sản xuất độc lập, nhưng sau đó được tích hợp vào cùng một gói với CPU. Điều này cung cấp hầu hết các lợi ích của địa phương mà không gặp khó khăn trong việc sản xuất cả hai theo cách tích hợp thực sự.
Một vấn đề khác là DRAM không giống như SRAM ở chỗ nó không lưu trữ nội dung của nó vô thời hạn trong khi nguồn được áp dụng, và đọc nó cũng phá hủy dữ liệu được lưu trữ, phải được ghi lại sau đó. Do đó, nó phải được làm mới định kỳ và sau mỗi lần đọc. Và, bởi vì một tế bào DRAM dựa trên một tụ điện, việc sạc hoặc xả nó đủ để rò rỉ sẽ không làm hỏng giá trị của nó trước khi làm mới tiếp theo mất một khoảng thời gian hữu hạn. Thời gian sạc này không bắt buộc với SRAM, đây chỉ là một chốt; do đó, nó có thể được chạy ở cùng tốc độ với CPU, trong khi DRAM bị giới hạn ở khoảng 1 GHz trong khi vẫn duy trì mức tiêu thụ năng lượng hợp lý. Điều này khiến DRAM có độ trễ vốn có cao hơn SRAM, điều này khiến nó không đáng để sử dụng cho tất cả trừ bộ nhớ cache lớn nhất, trong đó tỷ lệ bỏ lỡ giảm sẽ được đền đáp.
Ngoài ra, liên quan đến độ trễ, một phần lớn của khó khăn là tín hiệu khoảng cách vật lý phải truyền đi. Ánh sáng chỉ có thể di chuyển 10 cm trong chu kỳ xung nhịp của CPU 3 GHz. Tất nhiên, các tín hiệu không truyền theo đường thẳng qua khuôn và chúng cũng không truyền đi ở bất cứ thứ gì gần với tốc độ ánh sáng do nhu cầu đệm và quạt ra, gây ra sự chậm trễ lan truyền. Vì vậy, khoảng cách tối đa mà bộ nhớ có thể cách xa CPU để duy trì độ trễ 1 xung nhịp tối đa là vài cm, giới hạn dung lượng bộ nhớ có thể chứa trong khu vực khả dụng. Bộ xử lý Nehalem của Intel thực sự đã giảm dung lượng của bộ đệm L2 so với Penryn một phần để cải thiện độ trễ của nó, dẫn đến hiệu suất cao hơn. * Nếu chúng ta không quan tâm quá nhiều đến độ trễ, thì không có lý do gì để đặt bộ nhớ vào gói,
Cũng cần lưu ý rằng tỷ lệ nhấn bộ nhớ cache rất cao đối với hầu hết các khối lượng công việc: cao hơn 90% trong hầu hết các trường hợp thực tế và không phổ biến thậm chí trên 99%. Vì vậy, lợi ích của việc bao gồm những ký ức lớn hơn khi chết thường bị giới hạn trong việc giảm tác động của vài phần trăm sai sót này. Các bộ xử lý dành cho thị trường máy chủ doanh nghiệp (như POWER) thường có bộ nhớ cache lớn và có thể bao gồm cả eDRAM vì nó rất hữu ích để phù hợp với các nhóm công việc lớn của nhiều khối lượng công việc của doanh nghiệp. Haswell có nó để hỗ trợ GPU, vì kết cấu rất lớn và không thể chứa trong bộ đệm. Đây là các trường hợp sử dụng cho eDRAM ngày nay, không phải khối lượng công việc của máy tính để bàn hoặc HPC điển hình, được phân phối rất tốt bởi các hệ thống phân cấp bộ đệm thông thường.
Để giải quyết một số vấn đề nêu trong ý kiến:
Các bộ đệm eDRAM này không thể được sử dụng thay cho bộ nhớ chính vì chúng được thiết kế dưới dạng bộ đệm nạn nhân L4. Điều này có nghĩa là chúng dễ bay hơi và có địa chỉ nội dung hiệu quả, do đó dữ liệu được lưu trữ trong chúng không được coi là cư trú ở bất kỳ vị trí cụ thể nào và có thể bị loại bỏ bất cứ lúc nào. Các thuộc tính này rất khó để điều hòa với yêu cầu RAM phải được ánh xạ trực tiếp và bền bỉ, nhưng để thay đổi chúng sẽ khiến cho bộ nhớ cache trở nên vô dụng cho mục đích của chúng. Tất nhiên có thể nhúng các bộ nhớ của một thiết kế thông thường hơn, vì nó được thực hiện trong các bộ vi điều khiển, nhưng điều này không thể chứng minh được đối với các hệ thống có bộ nhớ lớn vì độ trễ thấp không có lợi trong bộ nhớ chính vì nó nằm trong bộ nhớ cache, do đó mở rộng hoặc thêm bộ đệm là một đề xuất đáng giá hơn.
Đối với khả năng lưu trữ rất lớn với dung lượng theo thứ tự gigabyte, bộ đệm chỉ được yêu cầu tối đa là kích thước của bộ làm việc cho ứng dụng. Các ứng dụng HPC có thể xử lý các bộ dữ liệu terabyte, nhưng chúng có địa phương không gian và thời gian tốt, và do đó, bộ công việc của chúng thường không lớn lắm. Các ứng dụng có bộ công việc lớn là ví dụ cơ sở dữ liệu và phần mềm ERP, nhưng chỉ có một thị trường hạn chế cho các bộ xử lý được tối ưu hóa cho loại khối lượng công việc này. Trừ khi phần mềm thực sự cần nó, việc thêm bộ đệm sẽ mang lại lợi nhuận giảm rất nhanh. Gần đây, chúng tôi đã thấy các bộ xử lý đạt được các hướng dẫn tìm nạp trước, do đó, bộ nhớ cache có thể được sử dụng hiệu quả hơn: người ta có thể sử dụng các hướng dẫn này để tránh bỏ lỡ gây ra bởi sự khó đoán của các mẫu truy cập bộ nhớ, thay vì kích thước tuyệt đối của bộ làm việc,
* Sự cải thiện về độ trễ không chỉ do kích thước vật lý nhỏ hơn của bộ đệm, mà còn do tính kết hợp đã giảm. Có nhiều thay đổi đáng kể đối với toàn bộ hệ thống phân cấp bộ đệm trong Nehalem vì một số lý do khác nhau, không phải tất cả đều tập trung vào việc cải thiện hiệu suất. Vì vậy, trong khi đây là một ví dụ, nó không phải là một tài khoản hoàn chỉnh.