Một giả định chính của sự khác biệt (DID) là cả hai nhóm đều có xu hướng chung về biến kết quả trước khi điều trị. Điều này rất quan trọng để đưa ra lập luận rằng sự thay đổi đối với nhóm được điều trị là do điều trị chứ không phải vì hai nhóm đã khác biệt với nhau để bắt đầu.
Nếu bạn lấy mẫu những người khác nhau trước và sau khi điều trị, điều này sẽ làm suy yếu lập luận trừ khi các mẫu của bạn từ các nhóm điều trị và kiểm soát thực sự ngẫu nhiên và lớn. Vì vậy, cũng có thể xảy ra việc ai đó sẽ hỏi bạn: "Làm thế nào bạn có thể chắc chắn rằng hiệu quả là do điều trị và không chỉ vì bạn đã lấy mẫu những người khác nhau?" - và điều đó sẽ khó trả lời. Câu hỏi này bạn có thể tránh bằng cách sử dụng dữ liệu bảng điều khiển vì ở đó bạn theo dõi cùng các đơn vị thống kê theo thời gian và nói chung đây là cách tiếp cận vững chắc hơn.
Để trả lời câu hỏi cuối cùng của bạn: có dữ liệu quan trọng nhưng bạn chắc chắn có thể sử dụng OLS để ước tính phương trình của bạn ở trên. Một điều quan trọng mà trong quá khứ thường bị bỏ qua là ước tính chính xác các lỗi tiêu chuẩn. Nếu bạn không sửa chúng, mối tương quan nối tiếp sẽ đánh giá thấp chúng bằng một lượng tốt và bạn sẽ tìm thấy những hiệu ứng đáng kể mặc dù có lẽ bạn không nên. Là một tài liệu tham khảo và đề xuất về cách giải quyết vấn đề này, xem Bertrand et al. (2004) "Chúng ta nên tin tưởng vào sự khác biệt về ước tính chênh lệch bao nhiêu?" .
Như một điều cuối cùng, nếu bạn có dữ liệu tổng hợp (ví dụ ở cấp trạng thái) hoặc nếu bạn có thể dễ dàng tổng hợp dữ liệu của mình và nếu bạn muốn sử dụng phương pháp kinh tế lượng gần đây hơn DID, bạn có thể muốn xem Abadie et al. (2010) "Phương pháp kiểm soát tổng hợp cho nghiên cứu trường hợp so sánh" . Phương pháp điều khiển tổng hợp ngày càng được sử dụng nhiều trong nghiên cứu hiện nay và tồn tại các thói quen được ghi chép tốt cho R và Stata. Có lẽ đây là một cái gì đó thú vị cho bạn là tốt.