Khá nhiều tài liệu tham khảo (bao gồm wikipedia và http://www.atmos.washington.edu/~dennis/MatrixCalculus.pdf và http://michael.orlitzky.com/articles/the_derivative_of_a_quadratic_form.php ) xác định đạo hàm của a hàm bởi một vectơ là đạo hàm riêng của hàm được sắp xếp theo một hàng (vì vậy đạo hàm của hàm có giá trị vô hướng là vectơ hàng). Trong quy ước này, độ dốc và đạo hàm vectơ là các chuyển vị của nhau. Lợi ích của quy ước này là chúng ta có thể hiểu ý nghĩa của đạo hàm là một hàm cho bạn biết tốc độ thay đổi tuyến tính theo từng hướng. Độ dốc vẫn là một vectơ, nó cho bạn biết hướng và độ lớn của tốc độ thay đổi lớn nhất.
Gần đây tôi đã đọc Đại số ma trận của Gentle ( http://books.google.com.vn/books/about/Matrix_Algebra.html?id=Pbz3D7Tg5eoC ) và anh ta dường như sử dụng một quy ước khác, trong đó nó định nghĩa độ dốc bằng với đạo hàm vector, dẫn đến trong một sắp xếp cột (do đó, một đạo hàm của hàm có giá trị vô hướng là một vectơ cột). Theo kết quả của sự sắp xếp này, mọi kết quả khác biệt là sự hoán vị của kết quả trong quy ước khác. Lợi ích của quy ước này, tôi đoán ở đây, chỉ là độ dốc và đạo hàm là bằng nhau. Vì vậy, đối với các nhiệm vụ tối ưu hóa, thay vì phân biệt và sau đó thực hiện chuyển đổi, bạn chỉ có thể phân biệt.
Tôi nghĩ rằng sự căng thẳng là giữa Jacobian và gradient. Trong quy ước hàng, Jacobian theo trực tiếp từ định nghĩa của đạo hàm, nhưng bạn phải áp dụng một chuyển vị để có được độ dốc; trong khi đó trong quy ước cột, độ dốc là không cần phải hoán vị, nhưng bạn phải áp dụng chuyển vị để lấy Jacobian. Vì vậy, nếu bạn thích nghĩ về kết quả phái sinh như một bản đồ tuyến tính, thì quy ước đầu tiên có ý nghĩa; nếu bạn thích nghĩ về kết quả như một vectơ / hướng thì quy ước thứ hai có ý nghĩa. Vì vậy, bạn chỉ cần phải nhất quán.
Những quy ước nào được sử dụng phổ biến hơn trong Machine Learning? Tôi sẽ trở nên bối rối vô vọng nếu tôi dành quá nhiều thời gian để đọc công việc trong quy ước "sai"?