Trọng lượng và thiên vị trong học tập sâu là gì?


16

Tôi đang bắt đầu học Machine learning từ trang web Tensorflow. Tôi đã phát triển một sự hiểu biết rất thô sơ về dòng chảy mà một chương trình học sâu theo sau (phương pháp này khiến tôi học nhanh thay vì đọc sách và các bài báo lớn).

Có một vài điều khó hiểu mà tôi đã gặp, 2 trong số đó là:

  1. Thiên kiến
  2. Cân nặng

Trong hướng dẫn của MNIST trên trang web tenorflow, họ đã đề cập rằng chúng ta cần thiên vị và trọng lượng để tìm bằng chứng về sự tồn tại của một mẫu cụ thể trong một hình ảnh. Điều tôi không hiểu là, giá trị của Bias và Trọng lượng được xác định ở đâu và như thế nào?

Chúng ta có phải cung cấp các giá trị này không hay thư viện TensorFlow sẽ tự động tính toán các giá trị này dựa trên tập dữ liệu huấn luyện?

Ngoài ra nếu bạn có thể cung cấp một số gợi ý về cách tăng tốc độ học tập sâu của tôi, điều đó sẽ rất tuyệt!

Hướng dẫn cho người mới bắt đầu


3
tham số của mô hình thống kê , chúng được học hoặc ước tính bằng cách giảm thiểu chức năng mất phụ thuộc vào dữ liệu của bạn. Và đó là những gì máy học là tất cả về. Bạn sẽ hỏi rất nhiều câu hỏi nếu bạn làm theo phương pháp sư phạm này. Tôi khuyên bạn nên dùng MOOC giống như trên Coursera để bạn có thể học mọi thứ theo thứ tự hợp lý.
Emre

Điều này rất cơ bản, vì vậy bạn nên thực hiện một khóa học như @Emre đề xuất.
SmallChess

Câu trả lời:


11

Về mặt toán học. Hãy tưởng tượng bạn là một người mẫu (Không phải kiểu đó, hình 8)

Y=WX+nigerian

Vậy bạn hiểu gì? Xu hướng là giả định trước trong một mô hình như bạn có.

Về trọng lượng, nói một cách logic, Trọng lượng là Gradient của bạn (một đại số tuyến tính),

Gradient là gì? , đó là độ dốc của hàm tuyến tính.

Điều gì làm cho độ dốc tuyến tính rất dốc (Giá trị dương cao)?

Đó là bởi vì những thay đổi nhỏ trong X (đầu vào) gây ra sự khác biệt lớn về trục Y (đầu ra). Vì vậy, bạn (Không phải là một Người mẫu nữa, mà là một Nhà toán học lỗi lạc (cái tôi thay đổi của bạn)) hoặc Máy tính của bạn cố gắng tìm độ dốc này, mà bạn có thể gọi là trọng số. Sự khác biệt là bạn sử dụng bút chì và sách biểu đồ để tìm cái này, nhưng hộp đen thực hiện Magic điện tử với các thanh ghi.

Trong Quy trình học máy, máy tính hoặc Bạn cố gắng vẽ nhiều đường thẳng hoặc hàm tuyến tính trên các điểm dữ liệu,

Tại sao bạn cố gắng vẽ nhiều đường thẳng?

Bởi vì trong sổ biểu đồ / Bộ nhớ máy tính của bạn, bạn đang thử xem dòng phù hợp một cách chính xác.

Làm thế nào để tôi hoặc Máy tính biết dòng phù hợp?

Ở trường cấp hai của tôi, tôi được dạy vẽ một đường ngang qua các điểm dữ liệu, kiểm tra trực quan đường kẻ cắt xuyên qua hoàn hảo ở giữa tất cả các điểm dữ liệu. . Nhưng đối với máy tính, nó cố gắng độ lệch chuẩn và phương sai của từng dòng đối với các điểm dữ liệu. Dòng có độ lệch ít nhất (đôi khi sẽ gọi nó là hàm lỗi) được chọn.

Mát mẻ! vậy và chuyện gì xảy ra

Độ dốc của dòng đó được tính toán, giả sử Trọng số của vấn đề Học tập được tính

Đó là Machine Learning theo cách hiểu cơ bản của nó và một đồ thị vẽ đồ thị của học sinh trung học trong Biểu đồ của anh ấy / cô ấy


10

Tôi đồng ý với các ý kiến ​​về câu hỏi của bạn rằng bạn nên xem xét một khóa học, có thể là Machine Learning của Andrew Ng trên Coursera , một khóa học giới thiệu miễn phí, được đánh giá cao. Đây là một câu hỏi cơ bản về các nguyên tắc cơ bản của học máy. Như vậy tôi không đề cập đến các phép toán trong câu trả lời này, bạn có thể lấy nó từ nhiều nơi, bao gồm cả khóa học đó.

các giá trị cho Xu hướng và Trọng lượng được xác định ở đâu và như thế nào?

Trọng lượng và độ lệch là các tham số có thể học được trong mô hình của bạn. Cũng như các mạng thần kinh, chúng xuất hiện với cùng tên trong các mô hình liên quan như hồi quy tuyến tính. Hầu hết các thuật toán học máy bao gồm một số tham số có thể học được như thế này.

Các giá trị của các tham số này trước khi bắt đầu học được khởi tạo ngẫu nhiên (điều này dừng tất cả chúng hội tụ đến một giá trị). Sau đó, khi được trình bày với dữ liệu trong quá trình đào tạo, chúng được điều chỉnh theo các giá trị có đầu ra chính xác.

Chúng ta có phải cung cấp các giá trị này không hay thư viện TensorFlow sẽ tự động tính toán các giá trị này dựa trên tập dữ liệu huấn luyện?

Bạn không cần phải cung cấp các giá trị trước khi đào tạo, mặc dù bạn có thể muốn quyết định những thứ như có bao nhiêu tham số (trong các mạng thần kinh được kiểm soát bởi kích thước của mỗi lớp). TensorFlow tính toán các giá trị tự động, trong quá trình đào tạo. Khi bạn có một mô hình đã được đào tạo và muốn sử dụng lại nó, thì bạn sẽ muốn đặt các giá trị trực tiếp, ví dụ như bằng cách tải chúng từ tệp.

Mã cụ thể xử lý các thay đổi đối với trọng số và thành kiến ​​từ hướng dẫn là:

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

và điều này:

sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

Dòng đầu tiên xác định cách thay đổi trọng lượng và giá trị. Bạn có thể đọc điều này gần như theo nghĩa đen là "xác định chức năng đào tạo sử dụng trình tối ưu hóa giảm độ dốc để giảm entropy chéo của dữ liệu được cung cấp".

yx


8

Trọng lượng - Trọng lượng là sức mạnh của kết nối. Nếu tôi tăng đầu vào thì nó có ảnh hưởng như thế nào đến đầu ra.

Trọng lượng gần bằng 0 có nghĩa là thay đổi đầu vào này sẽ không thay đổi đầu ra. Nhiều thuật toán sẽ tự động đặt các trọng số đó về 0 để đơn giản hóa mạng.

Xu hướng - có nghĩa là bao xa dự đoán của chúng tôi là từ các giá trị thực. Nói chung các thuật toán tham số có độ lệch cao làm cho chúng nhanh học và dễ hiểu hơn nhưng thường kém linh hoạt hơn. Đổi lại, chúng có hiệu suất dự đoán thấp hơn đối với các vấn đề phức tạp không đáp ứng các giả định đơn giản hóa của sai lệch thuật toán.

Xu hướng thấp : Đề xuất nhiều giả định hơn về hình thức của hàm mục tiêu.

High-Bia s: Đề xuất ít giả định hơn về hình thức của hàm mục tiêu.


2
OP đã hỏi về tham số sai lệch trong mạng thần kinh. Định nghĩa của bạn cho sự thiên vị là OK, nhưng đừng trả lời câu hỏi.
Neil Slater
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.