Vài tháng trước tôi đã thực tập tại tổ chức này; và, như một món quà đi xa, tôi quyết định dành tuần trước của mình, với bất cứ thời gian nào tôi có, để điều tra các yếu tố ảnh hưởng đến lương giáo viên. Một vấn đề mà tôi gặp phải với mức lương của giáo viên là sự phân phối cho trạng thái đã cho bị sai lệch. Tôi đã có rất nhiều quan sát bám vào phần dưới của phổ lương. Tôi đã cố gắng giải quyết điều này bằng cách kết hợp Chỉ số tiền lương có thể so sánh vào biến phụ thuộc của tôi (tiền lương giáo viên), nhưng kết quả tôi tìm thấy đã hoàn toàn lỗi thời đối với phạm vi dự án của tôi. Tôi thay vì quyết định đăng nhập biến phụ thuộc của tôi. Điều này là tốt bởi vì bây giờ tiền lương của tôi đã có một phân phối bình thường và nó trông hoàn hảo trong biểu đồ. Khi tôi bắt đầu thử nghiệm, tôi đã đến điểm mà tôi bị bỏ lại với một biến độc lập cuối cùng, khai thuế tài sản. Vấn đề với tiền lương quy định của tôi cũng rõ ràng trong các quan sát khai thuế tài sản của tôi. Tôi đã có một số lượng lớn các tờ khai thuế tài sản ở phía dưới của quang phổ. Vì vậy, tôi cũng đã đăng nhập biến này và nó vẫn vượt qua bài kiểm tra giả thuyết null.
Tôi không chắc liệu điều này có chính xác hay không, nhưng bằng cách so sánh sự thay đổi của một biến được ghi lại với một biến được ghi lại khác đã cho tôi độ co giãn. Giả sử điều này là chính xác, phương trình hồi quy của tôi (một cái gì đó như LogWages = B0 + B1 (LogPropertyTaxReturns)) cho thấy độ co giãn giữa hai biến. Điều này có ý nghĩa không? Nếu mục tiêu của tôi là xem mức lương nào của giáo viên bị ảnh hưởng nhiều nhất ở bất kỳ quận nào trong tiểu bang của tôi, thì việc thể hiện độ co giãn giữa hai biến có hữu ích không? Chúng tôi muốn nâng các quận có mức lương giáo viên thấp nhất lên cao hơn để tăng mức sống của họ, nhưng tôi sợ rằng tôi đã ngoại suy cách xa các quan sát thực tế rằng phương trình hồi quy kết luận của tôi là vô nghĩa.
Chỉnh sửa: Một trong những nỗi sợ lớn hơn của tôi là tôi nên sử dụng mô hình phi tuyến tính để hiển thị mối quan hệ. Tôi cảm thấy rằng việc buộc cả biến phụ thuộc và biến độc lập phải hợp tác trong hồi quy tuyến tính này là sai lệch theo một cách nào đó.