Kích thước-nhảy trong máy học

10

Vấn đề nhảy kích thước trong học máy (xảy ra trong các mạng thần kinh tích chập và nhận dạng hình ảnh) là gì? Tôi đã googled về nó nhưng tất cả những gì tôi nhận được là thông tin về Vật lý biến dạng hình dạng vật liệu. Nó sẽ hữu ích hơn cho tôi nếu ai đó giải thích nó bằng một ví dụ liên quan đến học máy. Bất cứ ai có thể giúp tôi với điều này hoặc chỉ cho tôi về các tài nguyên có thể?

machine-learning image-recognition

— sdream
nguồn

7

Chào mừng bạn đến với DataScience.SE! Tôi chưa bao giờ nghe về vấn đề này vì vậy tôi đã tìm nó. Nó được giải thích trên slide thứ ba của bài trình bày này của Geoff Hinton:

Nhiều thứ khiến bạn khó nhận ra đồ vật

• Thay đổi về quan điểm gây ra những thay đổi về hình ảnh mà phương pháp học tập tiêu chuẩn không thể đối phó được.

- Bước nhảy thông tin giữa các kích thước đầu vào (tức là pixel)

• Hãy tưởng tượng một cơ sở dữ liệu y tế trong đó độ tuổi của bệnh nhân đôi khi nhảy vào kích thước đầu vào thường mã hóa cân nặng!

- Để áp dụng học máy, trước tiên chúng tôi muốn loại bỏ kích thước này.

Nói cách khác, đó là về các tính năng khái niệm di chuyển hoặc nhảy từ một chiều tính năng đầu vào sang một chiều khác trong khi vẫn đại diện cho cùng một điều. Người ta muốn có thể nắm bắt hoặc trích xuất bản chất của tính năng trong khi bất biến về kích thước đầu vào mà nó được mã hóa.

— Emre
nguồn

Tôi hiểu rằng trong Computer Vision, người ta muốn bất biến đối với các vị trí trong ảnh, nhưng tôi không lấy ví dụ về độ tuổi.

— Martin Thoma

Tôi nghĩ điều đó có nghĩa là tuổi tác và cân nặng phụ thuộc, nhưng tôi không chắc chắn; đó không phải là bài thuyết trình của tôi! Hoặc có thể họ có nghĩa là họ sử dụng cột sai và chúng tôi muốn phát hiện ra điều đó.

— Emre

@sdream Mình chỉ nhận xét; Emre đã đưa ra câu trả lời. (Nhưng có lẽ bạn vẫn nên chấp nhận nó). Điểm đáng chú ý với CNN là không chỉ một tính năng thay đổi khi một đối tượng ở một nơi khác, mà một mẫu hoàn chỉnh nằm ở một đầu vào khác.

— Martin Thoma

@Emre, điều tôi nhận được từ câu trả lời của bạn là, cho dù đầu vào của một thuộc tính cụ thể theo hướng nào, tính năng mà thuộc tính cụ thể này gây ra phải bất biến đối với kích thước đầu vào của thuộc tính này. Cảm ơn! :). Vẫn đang chờ một số câu trả lời cụ thể hơn, nếu không sẽ đánh dấu câu trả lời của bạn là câu trả lời.

— sdream

3

Ví dụ về độ tuổi được cho là làm nổi bật một tập dữ liệu không có kích thước nhảy. Tuổi và cân nặng không "nhảy" hoặc hoán đổi giá trị ngẫu nhiên giữa các ví dụ - chúng không thể thay thế cho nhau và ví dụ này cho thấy mức độ kỳ lạ của nó (và khó thực hiện các tác vụ đơn giản như hồi quy tuyến tính). Giá trị pixel trong hình ảnh (và dữ liệu tương tự trong nhiều tác vụ xử lý tín hiệu) thực hiện trao đổi hoặc di chuyển dễ dàng do bản chất của vấn đề.

— Neil Slater

7

Theo như tôi hiểu thì vấn đề là như sau: Trong nhận dạng hình ảnh, các đầu vào vào mạng của bạn có thể là các pixel (thang độ xám hoặc chỉ 1 và 0 cho màu đen và trắng). Nếu bạn muốn, ví dụ nhận ra các số viết tay, rất khó để chỉ làm việc với các giá trị như vậy vì bạn không bao giờ biết chính xác số đó (tức là các giá trị đen) sẽ ở đâu.

Là pixel 140 màu đen hay 142 màu đen? Trong cả hai trường hợp, nó cũng có thể là ba. Trong ví dụ về tuổi / cân nặng, các đầu vào này được xác định rõ. Tính năng 2 là trọng lượng. Đặc điểm 3 là tuổi tác. Những "kích thước" không nên "nhảy" trong tập dữ liệu của bạn.

Vì vậy: Trong hình ảnh của bạn, đào tạo "bộ ba" hoặc "ô tô" hoặc "nhà" phải được nhận dạng độc lập với vị trí của chúng trong ảnh, tức là các giá trị pixel, tức là vectơ tính năng / đầu vào, tức là kích thước trái ngược với xác định rõ ràng đầu vào như dữ liệu bệnh nhân.

Làm thế nào để bạn giải quyết điều này trong nhận dạng hình ảnh? Bạn sử dụng các thủ thuật bổ sung, ví dụ tích chập.

— D. Eggert
nguồn

2

Tôi đọc các câu trả lời trước đó, và bình luận của Neil Slater cho bài đăng của Emre, được sao chép lại bên dưới, nhấn móng tay. "Nhảy kích thước" là một thuật ngữ được tạo ra bởi Tiến sĩ Hinton về sự nổi tiếng của người học máy trong bối cảnh quan điểm. Để trích dẫn Tiến sĩ Hinton "Vì vậy, thông thường hình dung kích thước đầu vào tương ứng với pixel và, nếu một đối tượng di chuyển trên thế giới và bạn không di chuyển mắt để theo dõi nó, thông tin về đối tượng sẽ xuất hiện trên các pixel khác nhau." Tuổi và cân nặng là kích thước đầu vào không dễ nhầm lẫn. Bác sĩ Hinton đã sử dụng điều này rõ ràng KHÔNG có khả năng tình trạng nhảy vọt về tuổi và cân nặng của bệnh nhân có nghĩa là chúng tôi chắc chắn sẽ có thể phát hiện và khắc phục bất kỳ sai sót nào giữa các loại dữ liệu này (Thật khó để không nhận thấy hầu hết người lớn dưới 100 tuổi trở lên hơn 100 bảng). Vấn đề có thể xảy ra của nhảy kích thước, mà Tiến sĩ Hinton đang giải quyết, là các pixel có thể bị dịch chuyển do chúng ta có một điểm nhìn khác (ví dụ: đối tượng có thể đã di chuyển hoặc chúng ta đang nhìn nó từ một góc khác). Mạng thần kinh tuyến tính sẽ không thể phát hiện ra điều này, trong khi đó mạng lưới thần kinh tích chập theo thiết kế sẽ.

"Ví dụ về độ tuổi được cho là làm nổi bật một tập dữ liệu không có kích thước nhảy. Tuổi và trọng lượng không" nhảy "hoặc hoán đổi giá trị ngẫu nhiên giữa các ví dụ - chúng không thể thay thế cho nhau và ví dụ này cho thấy mức độ kỳ lạ của nó (và làm thế nào khó thực hiện các tác vụ đơn giản như hồi quy tuyến tính) Các giá trị pixel trong hình ảnh (và dữ liệu tương tự trong nhiều tác vụ xử lý tín hiệu) thực hiện trao đổi hoặc di chuyển dễ dàng do bản chất của vấn đề. - Neil Slater 29 tháng 5, 16 lúc 18:00 "

— Bị mê hoặc
nguồn

1

Giải thích trực tiếp từ khóa học của Hinton về Mạng nơ-ron cho học máy ....

"Nhảy kích thước xảy ra khi người ta có thể lấy thông tin có trong các kích thước của một số đầu vào và di chuyển giữa các chiều trong khi không thay đổi mục tiêu . Ví dụ điển hình đang lấy hình ảnh của một chữ số viết tay và dịch nó trong hình ảnh. Các kích thước chứa "mực" giờ đã khác (chúng đã được chuyển sang các kích thước khác), tuy nhiên nhãn chúng tôi gán cho chữ số không thay đổi. Lưu ý rằng đây không phải là thứ gì đó điều đó xảy ra một cách nhất quán trên tập dữ liệu, đó là chúng ta có thể có một tập dữ liệu chứa hai chữ số viết tay trong đó một chữ là phiên bản dịch của chữ kia, tuy nhiên điều này vẫn không thay đổi nhãn tương ứng của các chữ số. "

— yottabytt
nguồn

0

Hy vọng chỉ là về các vấn đề với một phần hình ảnh hoặc pixel di chuyển trong kích thước (chủ yếu) và đôi khi vào mờ khác (trường tiếp nhận khác nhau) nhưng đầu ra vẫn giữ nguyên.

Vấn đề này được xử lý với tính bất biến hoặc tương đương và có vẻ như ví dụ về cân nặng và tuổi tác là cách dễ dàng để nêu ra. Giả sử nếu chúng ta nhận thức được trọng lượng và tuổi nhảy này, chúng ta sẽ dễ dàng thực hiện các thay đổi đối với thuật toán và có được kết quả đúng. Nhưng giống như nhảy dữ liệu / thông tin, nhảy hình ảnh cũng xảy ra, nếu chúng ta coi một '4' và '4' đã dịch chuyển một vài pixel sang bên trái thành các lớp khác nhau có mục tiêu khác nhau.

Với Dịch thuật bất biến hoặc bộ lọc throguh tương đương tốt hơn, chuyển động hoặc nhảy này không phải là vấn đề lớn mặc dù nó làm tăng sự phức tạp và với chi phí vứt bỏ thông tin, chẳng hạn như vị trí.

Xin vui lòng cho tôi biết nếu bạn cần rõ ràng hơn, tôi sẽ cố gắng.

— Pradi KL
nguồn