Phương trình trong tin tức: Dịch một mô hình đa cấp cho đối tượng chung


24

Thời báo New York có một bình luận dài về hệ thống đánh giá giáo viên 'giá trị gia tăng' đang được sử dụng để đưa ra phản hồi cho các nhà giáo dục thành phố New York. Lede là phương trình được sử dụng để tính điểm - được trình bày mà không có ngữ cảnh. Chiến lược tu từ dường như bị đe dọa thông qua toán học:

văn bản thay thế

Toàn văn của bài viết có sẵn tại: http://www.nytimes.com/2011/03/07/education/07winerip.html

Tác giả, Michael Winerip, lập luận rằng ý nghĩa của phương trình vượt quá khả năng của bất kỳ ai khác ngoài, ừm, Matt Damon hiểu, ít hơn một giáo viên trung bình:

"Tính toán cho điểm số dự đoán 3,69 của cô Isaacson thậm chí còn khó khăn hơn. Nó dựa trên 32 biến số - bao gồm cả việc một học sinh được giữ lại trong lớp trước năm học trước và liệu một học sinh có phải là người mới đến thành phố trong kỳ thi trước hay sau bài kiểm tra năm."

32 biến đó được cắm vào một mô hình thống kê trông giống như một trong những phương trình mà trong trò chơi Good Good Hunting Hunting chỉ có Matt Damon có khả năng giải.

Quá trình này có vẻ minh bạch, nhưng rõ ràng là bùn, ngay cả đối với những giáo dân thông minh như giáo viên, hiệu trưởng và - tôi ngần ngại nói điều này - các nhà báo.

Cô Isaacson có thể có hai bằng Ivy League, nhưng cô đã mất. Tôi thấy điều này không thể hiểu được, cô ấy nói.

Nói một cách dễ hiểu, cô Isaacson đoán đúng nhất về những gì bộ phận đang cố nói với cô là: Mặc dù 65 trong số 66 học sinh của cô đạt điểm thành thạo trong bài kiểm tra nhà nước, hơn 3 trong số 3 cô phải là 4 giây.

Nhưng đó chỉ là dự đoán. "

Làm thế nào bạn sẽ giải thích mô hình cho một giáo dân? FYI, báo cáo kỹ thuật đầy đủ là tại:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Cập nhật: Andrew Gelman đưa ra suy nghĩ của mình tại đây: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
Suy nghĩ của Gelman và các bình luận cho bài viết của anh ấy rất đáng đọc. Hệ thống tính điểm gần như chắc chắn là rác: hãy xem xét rằng 95% CI cho giáo viên này là . [0%, 52%]
gung - Phục hồi Monica

Câu trả lời:


12

Đây là một khả năng.

Đánh giá hiệu suất giáo viên theo truyền thống là khó khăn. Một phần của khó khăn này là các sinh viên khác nhau có mức độ quan tâm khác nhau trong một môn học nhất định. Nếu một học sinh nhất định đạt điểm A, điều này không nhất thiết có nghĩa là việc giảng dạy là tuyệt vời - thay vào đó, điều đó có nghĩa là một học sinh rất có năng khiếu và quan tâm đã cố gắng hết sức để thành công ngay cả khi chất lượng giảng dạy kém. Ngược lại, một học sinh đạt điểm D không nhất thiết có nghĩa là việc giảng dạy kém - đúng hơn, điều đó có thể có nghĩa là một học sinh không quan tâm đến bờ biển mặc dù những nỗ lực tốt nhất của giáo viên để giáo dục và truyền cảm hứng.

Khó khăn càng trầm trọng hơn bởi thực tế là lựa chọn của sinh viên (và do đó mức độ quan tâm của sinh viên) không phải là ngẫu nhiên. Thông thường các trường học nhấn mạnh một môn học (hoặc một nhóm môn học) hơn các môn học khác. Ví dụ, một trường học có thể nhấn mạnh các môn học kỹ thuật hơn nhân văn. Học sinh trong các trường như vậy có lẽ rất quan tâm đến các lĩnh vực kỹ thuật đến nỗi họ sẽ nhận được điểm qua ngay cả với giáo viên tồi nhất có thể. Do đó, tỷ lệ học sinh thi môn toán không phải là một biện pháp giảng dạy tốt - chúng tôi hy vọng giáo viên giỏi sẽ làm tốt hơn nhiều so với những học sinh rất ham học. Ngược lại, những sinh viên đó có thể không quan tâm đến nghệ thuật. Thậm chí rất khó để mong đợi ngay cả từ giáo viên giỏi nhất để đảm bảo tất cả học sinh đạt điểm A.

Một khó khăn khác là không phải tất cả thành công trong một lớp nhất định đều được quy cho giáo viên của lớp đó trực tiếp. Thay vào đó, thành công có thể là do trường học (hoặc toàn bộ quận) tạo ra động lực và khuôn khổ cho thành tích.

Để tính đến tất cả những khó khăn này, các nhà nghiên cứu đã tạo ra một mô hình đánh giá 'giá trị gia tăng' của giáo viên. Về bản chất, mô hình tính đến các đặc điểm nội tại của mỗi học sinh (mức độ quan tâm và thành công chung trong học tập), cũng như những đóng góp của trường và khu học chánh đối với sự thành công của học sinh và dự đoán điểm số của học sinh sẽ được dự kiến ​​ở mức 'trung bình' Dạy học trong môi trường đó. Mô hình sau đó so sánh các điểm thực tế với các lớp dự đoán và dựa vào đó quyết định việc giảng dạy có đầy đủ hay không với tất cả các cân nhắc khác, tốt hơn là đầy đủ, hoặc tồi tệ hơn. Mặc dù mô hình có vẻ phức tạp đối với một người không phải là nhà toán học, nhưng nó thực sự khá đơn giản và chuẩn. Các nhà toán học đã sử dụng các mô hình tương tự (và thậm chí phức tạp hơn) trong nhiều thập kỷ.

Tóm lại, suy đoán của cô Isaacson là chính xác. Mặc dù 65 trong số 66 học sinh của cô đạt điểm thành thạo trong bài kiểm tra của tiểu bang, họ vẫn sẽ đạt điểm tương tự ngay cả khi một con chó là giáo viên của họ. Một giáo viên giỏi thực sự sẽ cho phép những học sinh này đạt được không chỉ "thành thạo", mà thực sự là "điểm tốt" trong cùng một bài kiểm tra.


Tại thời điểm này tôi có thể đề cập đến một số mối quan tâm của tôi với mô hình. Ví dụ, các nhà phát triển mô hình tuyên bố nó giải quyết một số khó khăn trong việc đánh giá chất lượng giảng dạy. Tôi có đủ lý do để tin họ không? Các khu vực có dân số thu nhập thấp hơn sẽ có điểm số 'quận' và 'trường học' dự kiến ​​thấp hơn. Nói một khu phố sẽ có điểm số dự kiến ​​là 2,5. Một giáo viên đạt được trung bình 3 sẽ nhận được một đánh giá tốt. Điều này có thể khiến giáo viên nhắm tới điểm 3, thay vì điểm 4, 5. Nói cách khác, giáo viên sẽ nhắm đến sự tầm thường hơn là sự hoàn hảo. Chúng ta có muốn điều này xảy ra không? Cuối cùng, mặc dù mô hình đơn giản về mặt toán học, nó hoạt động theo cách rất khác với cách trực giác của con người hoạt động. Do đó, chúng tôi không có cách rõ ràng để xác nhận hoặc tranh chấp mô hình ' quyết định. Ví dụ đáng tiếc của cô Isaacson minh họa những gì điều này có thể dẫn đến. Chúng ta có muốn phụ thuộc một cách mù quáng vào máy tính trong một cái gì đó rất quan trọng không?


Lưu ý rằng đây là một lời giải thích cho một giáo dân. Tôi đã bỏ qua một số vấn đề có thể gây tranh cãi ở đây. Ví dụ, tôi không muốn nói rằng các khu học chánh có nhân khẩu học thu nhập thấp được dự kiến ​​sẽ hoạt động kém hơn, bởi vì điều này sẽ không tốt cho một giáo dân.

Ngoài ra, tôi đã giả định rằng mục tiêu thực sự là đưa ra một mô tả hợp lý về mô hình. Nhưng tôi khá chắc chắn rằng đây không phải là mục tiêu của NYT ở đây. Vì vậy, ít nhất một phần lý do giải thích của họ kém là FUD có chủ ý, theo ý kiến ​​của tôi.


Có lẽ tôi đã thay đổi câu thứ hai của đoạn cuối để nói, "Mặc dù 65 trong số 66 học sinh của cô đạt điểm 'thành thạo' trong bài kiểm tra nhà nước, rất có thể họ sẽ đạt điểm tương tự ngay cả khi họ có một giáo viên không giỏi."
Wayne

11

"Điểm giảng dạy của bạn phụ thuộc vào mức độ sinh viên của bạn đã làm tốt so với dự đoán được thực hiện dựa trên

  • Những gì họ biết trước, được đo bằng một sự giả vờ,

  • Chúng tôi nghĩ các sinh viên có thể học tốt như thế nào dựa trên những gì chúng tôi biết về cá nhân họ ("đặc điểm" của họ),

  • Và học sinh làm tốt như thế nào trung bình trong khu học chánh, trường học và lớp học của bạn (nếu có các giáo viên khác trong lớp học của bạn).

"Nói cách khác, chúng tôi đang đánh giá bạn dựa trên số lượng học tập được đo, sau khi bao gồm sự chuẩn bị và đặc điểm của học sinh và các màn trình diễn điển hình của tất cả học sinh trong các môi trường như của bạn với các tài nguyên có sẵn cho bạn.

"Bằng cách này, điểm số của bạn phản ánh những gì bạn đã đóng góp cho các buổi biểu diễn của sinh viên, trong trường hợp chúng tôi có thể xác định điều đó. Tất nhiên chúng tôi không thể biết tất cả mọi thứ: chúng tôi biết bạn có những sinh viên độc đáo và đặc biệt và tình huống bạn gặp phải không bao giờ có thể bị trùng lặp. biết rằng điểm số này chỉ là một ước tính phản ánh không hoàn hảo bạn đã dạy tốt như thế nào, nhưng đó là một ước tính công bằng và chính xác hơn so với chỉ dựa trên kiểm tra bài hoặc dựa trên mức tăng kiểm tra thô của lớp bạn. "


2
NB Xin đừng gán những suy nghĩ này cho tôi! Tôi chỉ làm hết sức mình để nói rõ và bảo vệ mô hình đã nêu, theo yêu cầu. Liệu mô hình này có phù hợp, có thể áp dụng, phù hợp hay không, v.v., là một vấn đề riêng biệt.
whuber

(+1) Đoạn cuối được đặt rất tốt.
chl

2

Không có gì để hiểu ở đây.

Vâng, nó chỉ là một mô hình hồi quy tuyến tính tiêu chuẩn. Nó giả định rằng điểm số của một học sinh có thể được mô tả như là một hàm tuyến tính của một số yếu tố, bao gồm các hệ số hiệu quả của giáo viên và trường học - do đó nó chia sẻ tất cả các vấn đề tiêu chuẩn của mô hình tuyến tính, chủ yếu là nó là một xấp xỉ lớn của một phi tuyến thế giới và cũng có thể hoạt động hoàn hảo hoặc xấu hổ xấu tùy thuộc vào một tình huống và vào việc người ta sẽ cố gắng ngoại suy với nó bao xa. (Tuy nhiên, người ta nên mong đợi các tác giả của đại diện công nghệ đã kiểm tra nó và phát hiện ra rằng nó ổn ;-)).

Nhưng vấn đề thực sự là đây là một công cụ phân tích và không nên sử dụng để đánh giá thành tích của mọi người - theo cách này (hoàn toàn bất kể nhãn hiệu có công bằng hay không) mọi người đánh giá đều cố gắng hiểu dấu của mình (có thể là hy vọng tối ưu hóa nó) sẽ chỉ gặp sự nhầm lẫn vô vọng, như trong trường hợp này.


3
"không có gì để hiểu ở đây - nó chỉ là một mô hình hồi quy tuyến tính tiêu chuẩn" - teehee .... giống như đó là bất kỳ sự an ủi nào đối với môn toán học. Tôi hiểu rằng bạn chưa bao giờ có được niềm vui khi giảng dạy các khóa học đại học về thống kê, giả sử, xã hội học hoặc, thần giúp tôi, chuyên ngành truyền thông.
fabian

@fabians Điều này chỉ chứng minh quan điểm của tôi - đối đầu với những người có toán học phức tạp hơn đếm là lỗ hổng lớn nhất của phương pháp này =] Nhưng tôi sẽ cố gắng điều chỉnh lại nó.

Đây là lời chỉ trích hợp lệ - đặc biệt là phần giả định tuyến tính - nhưng nó không thực sự trả lời cho câu hỏi ban đầu (trừ khi ý định của bạn là xúc phạm "giáo dân" giả định).
whuber
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.