Từ Mạng Bayes đến Mạng thần kinh: cách hồi quy đa biến có thể được chuyển sang mạng đa đầu ra


20

Tôi đang làm việc với Mô hình tuyến tính phân cấp Bayes , ở đây mạng mô tả nó.

Mô hình đồ họa mô tả vấn đề

đại diện cho doanh số hàng ngày của một sản phẩm trong siêu thị (quan sát).Y

là một ma trận các biến hồi quy đã biết, bao gồm giá cả, chương trình khuyến mãi, ngày trong tuần, thời tiết, ngày lễ.X

là mức tồn kho tiềm ẩn chưa biết của mỗi sản phẩm, điều này gây ra nhiều vấn đề nhất và tôi coi đó là một vectơ của các biến nhị phân, một cho mỗi sản phẩm có 1 chỉ ra hàng tồn kho và do đó không có sản phẩm. Ngay cả khi trong lý thuyết chưa biết, tôi đã ước tính nó thông qua HMM cho mỗi sản phẩm, vì vậy nó được coi là X.Tôi chỉ quyết định làm sáng tỏ nó để có hình thức chính thức.S1

là một tham số tác dụng hỗn hợp cho bất kỳ sản phẩm duy nhất nơi mà hậu quả hỗn hợp được coi là giá thành sản phẩm, chương trình khuyến mãi và stockout.η

là vector của các hệ số hồi quy cố định, trong khi b 1 b 2 là các vectơ của hệ số hiệu ứng khác nhau. Một nhóm chỉthương hiệuvà nhóm còn lại biểu thịhương vị(đây là một ví dụ, trong thực tế tôi có nhiều nhóm, nhưng ở đây tôi chỉ báo cáo 2 cho rõ ràng).βb1b2

, Σ b 1 Σ b 2 là siêu tham số qua các hiệu ứng khác nhau.ΣηΣb1Σb2

Vì tôi đã đếm dữ liệu, hãy nói rằng tôi coi mỗi doanh số sản phẩm là Poisson phân phối có điều kiện trên Regressors (ngay cả đối với một số sản phẩm, phép tính gần đúng tuyến tính và đối với các sản phẩm khác thì mô hình bơm hơi bằng 0 là tốt hơn). Trong trường hợp như vậy tôi sẽ có một sản phẩm ( điều này chỉ dành cho những người quan tâm đến chính mô hình bayesian, bỏ qua câu hỏi nếu bạn thấy nó không thú vị hoặc không tầm thường :) ):Y

ΣηIW(α0,γ0)

Σb1IW(α1,γ1)

, α 0 , γ 0 , α 1 , γ 1 , α 2 , γ 2 tiếng.Σb2IW(α2,γ2)α0,γ0,α1,γ1,α2,γ2

ηN(0,Ση)

b1N(0,Σb1)

b2N(0,Σb2)

, Σ beta được biết đến.βN(0,Σβ)Σβ

,λtijk=βXti+ηiXppsti+b1jZtj+b2kZtk

YtijkPoi(exp(λtijk))

, j 1 , ... , m 1 , k 1 , ... , m 2i1,,Nj1,,m1k1,,m2

Ma trận Z i của các hiệu ứng hỗn hợp cho 2 nhóm, X p p s i chỉ giá, khuyến mãi và tồn kho của sản phẩm được xem xét. I W chỉ ra các phân phối Wishart nghịch đảo, thường được sử dụng cho ma trận hiệp phương sai của các linh mục đa biến thông thường. Nhưng nó không quan trọng ở đây. Một ví dụ về Z i có thể là ma trận của tất cả các giá hoặc thậm chí chúng ta có thể nói Z i = X i . Như liên quan các priors cho ma trận hỗn hợp tác dụng sai-hiệp phương sai, tôi sẽ chỉ cố gắng duy trì mối tương quan giữa các mục, do đó σ i j sẽ là tích cực nếuZiXppsiIWZiZi=Xiσij j là sản phẩm của cùng một thương hiệu hoặc cùng một hương vị. ij

Trực giác đằng sau mô hình này sẽ là doanh số của một sản phẩm nhất định phụ thuộc vào giá của nó, tính sẵn có của nó hay không, mà còn phụ thuộc vào giá của tất cả các sản phẩm khác và hàng tồn kho của tất cả các sản phẩm khác. Vì tôi không muốn có cùng một mô hình (đọc: cùng đường cong hồi quy) cho tất cả các hệ số, tôi đã giới thiệu các hiệu ứng hỗn hợp khai thác một số nhóm tôi có trong dữ liệu của mình, thông qua chia sẻ tham số.

Câu hỏi của tôi là:

  1. Có cách nào để chuyển đổi mô hình này sang kiến ​​trúc mạng thần kinh không? Tôi biết rằng có nhiều câu hỏi tìm kiếm mối quan hệ giữa mạng bayesian, trường ngẫu nhiên markov, mô hình phân cấp Bayes và mạng nơ ron, nhưng tôi không tìm thấy bất cứ điều gì từ mô hình phân cấp Bayes đến mạng lưới thần kinh. Tôi đặt câu hỏi về các mạng thần kinh vì có vấn đề về chiều cao của tôi (xem xét rằng tôi có 340 sản phẩm), việc ước tính tham số qua MCMC mất vài tuần (tôi đã thử chỉ 20 sản phẩm chạy chuỗi song song trong runJags và phải mất nhiều ngày) . Nhưng tôi không muốn đi ngẫu nhiên và chỉ cung cấp dữ liệu cho mạng thần kinh dưới dạng hộp đen. Tôi muốn khai thác cấu trúc phụ thuộc / độc lập của mạng của tôi.

Ở đây tôi chỉ phác thảo một mạng lưới thần kinh. Như bạn thấy, các biến hồi quy ( S i chỉ ra giá tương ứng và hàng tồn kho của sản phẩm i ) ở trên cùng được nhập vào lớp ẩn như các sản phẩm cụ thể (Ở đây tôi đã xem xét giá và hàng tồn kho). PiSii(Các cạnh màu xanh và đen không có ý nghĩa đặc biệt, nó chỉ là để làm cho hình rõ hơn). Hơn nữa, Y 2 có thể tương quan cao trong khi Y 3Y1Y2Y3có thể là một sản phẩm hoàn toàn khác (nghĩ về 2 loại nước cam và rượu vang đỏ), nhưng tôi không sử dụng thông tin này trong các mạng lưới thần kinh. Tôi tự hỏi nếu thông tin nhóm được sử dụng chỉ trong việc vô hiệu hóa trọng lượng hoặc nếu một người có thể tùy chỉnh mạng cho vấn đề.

ví dụ con rối của một mạng lưới thần kinh

Chỉnh sửa, ý tưởng của tôi:

Có thể khởi tạo?

Ý tưởng của tôi sẽ giống như thế này: như trước đây, Y 2 là các sản phẩm tương quan, trong khi Y 3 là một sản phẩm hoàn toàn khác. Biết điều này một tiên nghiệm tôi làm 2 việc:Y1Y2Y3

  1. Tôi phân bổ một số tế bào thần kinh trong lớp ẩn cho bất kỳ nhóm nào tôi có, trong trường hợp này tôi có 2 nhóm {( ), ( Y 3 )}.Y1,Y2Y3
  2. Tôi khởi tạo trọng số cao giữa các đầu vào và các nút được phân bổ (các cạnh đậm) và tất nhiên tôi xây dựng các nút ẩn khác để nắm bắt 'tính ngẫu nhiên' còn lại trong dữ liệu.

Cảm ơn rất nhiều về sự trợ giúp của bạn


@Tomasso Guerrini ở đây có thể là câu trả lời cho bạn: stats.stackexchange.com/questions/4498/ Kẻ
Anton Danilov

cảm ơn @AntonDanilov, thật không may, câu trả lời được chấp nhận cho biết 'Trong khi các mạng thần kinh đi kèm với "biểu đồ", chúng thường không mã hóa thông tin phụ thuộc và các nút không biểu thị các biến ngẫu nhiên': /
Tommaso Guerrini

1
Bạn đã thử Stan , hoặc nó không khả thi cho vấn đề của bạn? Hamiltonian Monte Carlo có thể là các đơn đặt hàng có cường độ nhanh hơn so với lấy mẫu Gibbs và quy mô tốt đến hàng trăm (thậm chí hàng nghìn) biến.
lacerbi

1
Bạn đã thử đặt cùng một câu hỏi cho danh sách gửi thư của người dùng Stan chưa? Chúng thường cực kỳ hữu ích với các khía cạnh kỹ thuật để làm cho một mô hình hoạt động. Ví dụ, có thể các vấn đề trong trường hợp của bạn có thể được giải quyết với tham số hóa tốt hơn. ( Hamilton Monte Carlo nên trộn nhiều nhanh hơn so với lấy mẫu Gibbs.)
lacerbi

1
Có lẽ tốt hơn để nói rằng tôi đã spam danh sách gửi thư đó .. Cảm ơn bạn rất nhiều Luigi. Tôi đang ở trong tình huống mà tôi không còn thời gian để tìm hiểu các vấn đề như tôi nên, vì tôi có thời hạn đến. Có vẻ như STAN là một công cụ tuyệt vời, nhưng đường cong học tập hơi dốc để thực sự nhận ra hiệu suất đáng kinh ngạc của nó (đến bây giờ tôi đã nhận ra JAGS tăng tốc của nó)
Tommaso Guerrini

Câu trả lời:


1

Đối với hồ sơ, tôi không xem đây là một câu trả lời, mà chỉ là một nhận xét dài! PDE (phương trình nhiệt) được sử dụng để mô hình hóa dòng nhiệt qua một thanh kim loại cũng có thể được sử dụng để mô hình hóa giá quyền chọn. Không ai mà tôi biết đã từng cố gắng đề xuất một kết nối giữa giá quyền chọn và lưu lượng nhiệt mỗi se. Tôi nghĩ rằng trích dẫn từ liên kết của Danilov đang nói điều tương tự. Cả Biểu đồ Bayes và Mạng lưới thần kinh đều sử dụng ngôn ngữ của biểu đồ để thể hiện mối quan hệ giữa các phần bên trong khác nhau của chúng. Tuy nhiên, đồ thị Bayes cho người ta biết về cấu trúc tương quan của các biến đầu vào và đồ thị của mạng nơ ron cho người ta biết cách xây dựng hàm dự đoán từ các biến đầu vào. Đây là những điều rất khác nhau.
Các phương pháp khác nhau được sử dụng trong DL cố gắng 'chọn' các biến quan trọng nhất, nhưng đó là một vấn đề thực nghiệm. Nó cũng không nói cho ai biết về cấu trúc tương quan của toàn bộ tập hợp các biến hoặc các biến còn lại. Nó chỉ gợi ý rằng các biến còn sống sẽ là tốt nhất cho dự đoán. Ví dụ: nếu nhìn vào mạng lưới thần kinh, người ta sẽ được dẫn đến tập dữ liệu tín dụng của Đức, nếu tôi nhớ lại chính xác, 2000 điểm dữ liệu và 5 biến phụ thuộc. Thông qua thử nghiệm và lỗi tôi nghĩ rằng bạn sẽ thấy rằng một mạng chỉ có 1 lớp ẩn và chỉ sử dụng 2 trong số các biến cho kết quả tốt nhất để dự đoán. Tuy nhiên, điều này chỉ có thể được phát hiện bằng cách xây dựng tất cả các mô hình và thử nghiệm chúng trên bộ thử nghiệm độc lập.


Tôi không nhận được sự so sánh của bạn với ứng dụng của cùng một mô hình trên các dữ liệu khác nhau: ở đây dữ liệu giống nhau và mô hình khác nhau không phải theo cách khác. Hơn nữa, tôi không cố gắng suy luận về cấu trúc tương quan của các biến của mình bằng cách sử dụng mạng lưới thần kinh, điều này đã đạt được rất tốt thông qua suy luận sau của Bayes. Biểu đồ chỉ để hình dung những gì xảy ra trong mô hình phân cấp, vì vậy tôi không hiểu 'ngôn ngữ của biểu đồ' (Tuy nhiên tôi có thể đã đánh lừa bạn với tiêu đề, nhưng tôi cần một điều hấp dẫn: D)
Tommaso Guerrini

Và có lẽ tôi không hiểu câu hỏi của bạn. Tôi vẫn nghĩ rằng vấn đề là cách các cạnh được tạo ra trong hai cấu trúc đồ thị không liên quan gì đến nhau. Người ta chỉ có thể định nghĩa một mạng lưới thần kinh với một tập hợp các cạnh và trọng số cho trước, nhưng người ta không có lý do gì để nghĩ rằng một mạng lưới như vậy sẽ chính xác hoặc hữu ích. Trọng tâm của việc tạo ra một mạng lưới thần kinh là sử dụng một cái gì đó giống như truyền ngược để cho dữ liệu xác định trọng số 'chính xác'.
meh

"Biểu đồ chỉ là để hình dung những gì xảy ra trong mô hình phân cấp". Chúng tôi đồng ý rằng trong một trường hợp, chúng tôi xác định cấu trúc hiệp phương sai và mô hình có thể diễn giải rất tốt một posteriori, trong khi trong trường hợp khác, chúng tôi để độ dốc gốc thực hiện công việc và thậm chí nếu không thể hiểu nó thường (như trong trường hợp của tôi) sẽ cho kết quả tốt. Câu hỏi của tôi là: có cách nào để bảo đảm khả năng diễn giải trong khi không làm mất hiệu suất dự đoán? Đó là lý do tại sao tôi hỏi điều này trên stack và đó là lý do tại sao tôi đề xuất ý tưởng đó trong bản chỉnh sửa, tôi đang tìm ý tưởng. Tôi hy vọng bây giờ nó rõ ràng với bạn.
Tommaso Guerrini

Người ta không thể chứng minh điều tiêu cực, vì vậy tôi không thể kết luận rằng không có mối liên hệ nào giữa các biểu đồ của Mạng Bayes và mạng lưới thần kinh. Tôi có thể nói rằng tôi không có kiến ​​thức về một kết nối như vậy và tôi rất hoài nghi về bất kỳ kết nối nào. Mặc dù người ta có thể sử dụng cấu trúc biểu đồ của mạng Bayes để đưa ra cấu trúc biểu đồ cho mạng thần kinh, nhưng từ quan điểm mạng thần kinh, điều này có vẻ không hợp lý. Hiện tại tôi không có thời gian để tìm hiểu chi tiết, nhưng như một thử nghiệm suy nghĩ, hãy tưởng tượng một tập dữ liệu trong đó các biến độc lập đều theo thống kê
meh

y=xi+zizi=A×σ1(xi)σzixấp xỉ bằng không. Tuy nhiên, họ nên là một phần của bất kỳ mô hình tốt.
meh
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.