Mô hình dự đoán số lượt xem Youtube của Gangnam Style


73

Video âm nhạc "Phong cách Gangnam" của PSY rất nổi tiếng, sau hơn 2 tháng, nó đã có khoảng 540 triệu người xem. Tôi đã học được điều này từ những đứa trẻ trước tuổi của tôi vào bữa tối tuần trước và chẳng mấy chốc cuộc thảo luận đã đi theo hướng nếu có thể đưa ra một số dự đoán về việc sẽ có bao nhiêu người xem trong 10-12 ngày và khi nào (/ nếu) bài hát sẽ vượt qua 800 triệu người xem hoặc 1 tỷ người xem.

Đây là hình ảnh từ số lượng người xem kể từ khi nó được đăng: OY

Dưới đây là hình ảnh từ số lượng người xem của No1 "Justin Biever-Baby" và No2 "Eminem - Yêu cách bạn nói dối" mà cả hai đã có từ lâu Justin Eminem

Nỗ lực đầu tiên của tôi để lý giải về mô hình đó là đường cong S nhưng điều này dường như không phù hợp với các bài hát No1 và No2 và cũng không phù hợp với việc có bao nhiêu lượt xem video nhạc có thể có, chỉ có sự tăng trưởng chậm hơn.

Vì vậy, câu hỏi của tôi là: tôi nên sử dụng loại mô hình nào để dự đoán số lượng người xem video âm nhạc?


21
+1 để quản lý để điều khiển cuộc trò chuyện bàn ăn tối từ Gangnam để thống kê. Chúng tôi cần những người như bạn!
S. Kolassa - Tái lập Monica

4
Những gì tôi có thể thêm vào cuộc thảo luận mà tôi hy vọng sẽ hữu ích cho gui11aume hoặc những người khác đang viết phương trình để cố gắng mô hình hóa điều này, là trong ví dụ KONY, phân cụm địa lý là một khía cạnh quan trọng của sự lan truyền virus. Việc PSY là một hiện tượng của Hàn Quốc và sau đó là châu Á, là một phần quan trọng của câu chuyện. Không chắc chắn chính xác làm thế nào nó sẽ được mô hình hóa, nhưng nó có thể là một đầu mối.

Dữ liệu liên quan đến lượt xem, nhận xét, lượt thích và không thích của video trong tháng 11 năm 2012, có thể được tìm thấy tại docs.google.com.vn/sản ra
Lỗi

Câu trả lời:


38

Aha, câu hỏi tuyệt vời !!

Tôi cũng đã ngây thơ đề xuất một đường cong logisitic hình chữ S, nhưng đây rõ ràng là một sự phù hợp kém. Theo tôi biết, mức tăng liên tục là một xấp xỉ vì YouTube tính số lượt xem duy nhất (một lượt xem trên một địa chỉ IP), do đó không thể có nhiều lượt xem hơn máy tính.

x(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

r1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

r1>r2Yy(t)r2

Hệ thống này giải quyết

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

C1C2x(t)+y(t)

0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

và giải quyết

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

X=600,000,000r1=3.6671010r2=1,000,000

mô hình tăng trưởng của phong cách Gangnam

Cập nhật: Từ các bình luận tôi thu thập được rằng Youtube tính lượt xem (theo cách bí mật của nó) và không phải là IP duy nhất, điều này tạo ra sự khác biệt lớn. Trở lại với bản vẽ.

Để đơn giản, hãy giả sử rằng người xem bị "lây nhiễm" bởi video. Họ quay lại để xem nó thường xuyên, cho đến khi họ xóa nhiễm trùng. Một trong những mô hình đơn giản nhất là SIR (Kháng nhiễm trùng dễ nhiễm bệnh), như sau:

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

αβx(t)x˙(t)=kI(t)k

Trong mô hình này, số lượt xem bắt đầu tăng đột ngột một thời gian sau khi bắt đầu nhiễm trùng, điều này không xảy ra trong dữ liệu gốc, có lẽ vì video cũng lan truyền theo cách không lan truyền (hoặc meme). Tôi không có chuyên gia trong việc ước tính các tham số của mô hình SIR. Chỉ cần chơi với các giá trị khác nhau, đây là những gì tôi nghĩ ra (trong R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Ngoại suy các lượt xem của video Youtube theo phong cách Gangnam

Mô hình rõ ràng là không hoàn hảo, và có thể được bổ sung theo nhiều cách âm thanh. Bản phác thảo rất thô này dự đoán một tỷ lượt xem ở đâu đó vào khoảng tháng 3 năm 2013, hãy xem ...


5
(+1) Là cách tiếp cận đầu tiên. Lưu ý rằng chính sách của youtube để đếm lượt xem không được hiểu rõ do họ chưa công khai thuật toán của mình. Họ chỉ nói: "Lượt xem được tính bất cứ khi nào ai đó xem video trên YouTube. Chúng tôi không cụ thể hơn điều này để tránh những nỗ lực về số lượt xem tăng giả tạo" (xem) .

3
@FredrikD cảm ơn. Bạn vẫn có thể xóa 'chấp nhận' vào tháng 3 năm 2013 nếu tôi hiểu sai: D
gui11aume

2
Ước tính tham số mô hình SIR, xem rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD

1
Có vẻ như tôi sẽ mất cái này! Họ có thể đạt được hàng triệu ngay cả trước năm 2013 ...
gui11aume

2
engadget.com/2012/12/21/gangnam-style-one-billion-view Vì vậy, thế giới đã không kết thúc nhưng 1 tỷ lượt xem đã đạt được ngày hôm nay.
DanTheMan

5

Có lẽ mô hình phổ biến nhất để dự báo việc áp dụng sản phẩm mới là mô hình khuếch tán Bass , tương tự như câu trả lời của @ gui11aume - mô hình tương tác giữa người dùng hiện tại và người dùng tiềm năng. Việc áp dụng sản phẩm mới là một chủ đề khá nóng trong dự báo, tìm kiếm thuật ngữ này sẽ mang lại vô số thông tin (điều mà tôi không may có thời gian để mở rộng ở đây ...).


vâng, đó cũng là một mô hình ứng cử viên. Tuy nhiên, có vẻ như nó giả định rằng bạn chỉ có thể là người dùng một lần. Tại đây, bạn xem video nhiều lần nếu bạn bị "nhiễm bệnh".
FredrikD

1
@FredrikD: điểm lấy. (Mặc dù cá nhân tôi đã không quản lý để ngồi ngay cả khi sử dụng một "sản phẩm" này ...) Nên có những khái quát về Bass để giải quyết vấn đề này. (Ổ cắm không biết xấu hổ :) Hội nghị chuyên đề dự báo quốc tế năm tới sẽ diễn ra ở Seoul, vì vậy bất cứ ai cũng nên xem xét trình bày mô hình dự báo Gangnam yêu thích của mình ở đó! ;-)
S. Kolassa - Tái lập Monica

4

Tôi sẽ nhìn vào đường cong tăng trưởng Gompertz .

Đường cong Gompertz là một công thức hàm mũ đôi 3 tham số (a, b, c) với thời gian, T, là một biến độc lập.

Mã R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Công thức tăng trưởng Gompertz được biết là rất tốt trong việc mô tả nhiều hiện tượng trong vòng đời khi tốc độ tăng trưởng đầu tiên đang tăng tốc, sau đó giảm dần dẫn đến đường cong sigmoid không đối xứng có đạo hàm dốc hơn bên trái so với bên phải của đỉnh. Ví dụ, tổng số bài viết trên Wikipedia có bản chất lan truyền, đã theo đường cong tăng trưởng Gompertz (với các tham số a, b, c nhất định) trong nhiều năm với độ chính xác cao.

Biểu đồ các đường cong Gompertz: tổng kích thước và đạo hàm tốc độ tăng trưởng của nó

Chỉnh sửa: Nếu đường cong Gompertz không đủ gần đúng với hình dạng bạn đang tìm kiếm, bạn có thể muốn thêm các tham số d& θ như được mô tả trong Phân phối Gompertz Weibull Tổng quát hóa Exponentaited . Lưu ý rằng bài viết này sử dụng xthay vì tcho tham số thời gian độc lập. Thật thú vị, Wikipedia cũng sửa đổi xấp xỉ tốt nhất của họ bằng cách thêm một tham số thứ 4 duy nhất d, để tính đến sự phân kỳ dự đoán từ giá trị thực sau năm 2012 . Công thức đường cong Gompertz 4-param đã sửa đổi là:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Hàm Gompertz được đặt theo tên của Benjamin Gompertz (1779-1865) , một người đương đại Gauss (chỉ 2 năm tuổi của Gauss), nhà toán học đầu tiên mô tả nó.


Điểm tốt! Tuy nhiên, điều thách thức mô hình là nó dường như không phải là một giới hạn (xem No1 và No2). Đó là, yếu tố a trong mô hình cũng tăng theo thời gian.
FredrikD

Tôi sẽ thách thức "Dường như không có giới hạn." Phong cách Gangnam có thể đạt 1B? 10B? 100B? lượt xem? cuối cùng tốc độ tăng trưởng đạt gần bằng 0 và các cao nguyên đường cong. Điều này thật khó thấy khi bạn đang ở giai đoạn tăng trưởng cao, như chúng ta đang ở với Gangnam, nhưng chỉ cần chờ vài năm và bạn sẽ giành được Gompertz :) Bí quyết là tất nhiên, để tìm ra điều đúng (a, b, c) tham số cho trường hợp cụ thể này.
thân

2
Dưới đây là tài liệu tham khảo để ước tính các tham số của mô hình Gompertz, xem weibull.com/RelGrowthWeb/ Kẻ
FredrikD

3

Tôi nghĩ rằng bạn cần tách biệt các hiện tượng như Gangnam Style, vốn có nhiều quan điểm là một meme / virus, từ Justin Bieber và Eminem, những nghệ sĩ lớn theo cách riêng của họ và cũng sẽ lan truyền rộng rãi trong một khung cảnh truyền thống - JB hoặc Eminem cũng sẽ bán rất nhiều đĩa đơn, tôi không chắc chắn rằng PSY sẽ làm thế.


điểm tốt. Sau khi đọc và nghe các cuộc phỏng vấn của PSY và nhóm đằng sau "OGS" (Oppa Gangnam Style), rõ ràng là họ nhận thức rõ nút nào để nhấn để tạo ra một thứ virus. Thông qua một số phân tích hình ảnh của hình ảnh lượt xem ở trên, có vẻ như không có lượt xem nào tuyến tính đến khoảng 90 ngày sau khi ra mắt, sau đó PSY xuất hiện trên Grand Prix Hàn Quốc và số lượt xem trên mỗi đơn vị thời gian tăng lên.
FredrikD

- và hai lớp này khác với "kinh điển" như thế nào - những bài hát được cho là nổi tiếng khi chúng được tải lên lần đầu tiên trên YouTube (tôi đang nghĩ David Bowie)?
abaumann

2

5
Chào mừng đến với trang web, @ ProfRoy47. Bạn có thể giải thích chi tiết về bài viết này? Vẫn chưa rõ đây thực sự là một câu trả lời cho câu hỏi của OP / rằng nó hoàn toàn đứng riêng. OTOH, nó sẽ không phù hợp như một bình luận, và tôi nghĩ rằng nó có những đóng góp hữu ích cho chủ đề này. Câu hỏi thường gặp của chúng tôi có một số cuộc thảo luận cung cấp câu trả lời trên CV, có thể hữu ích cho bạn.
gung - Phục hồi Monica

1

Mô hình rõ ràng là không hoàn hảo, và có thể được bổ sung theo nhiều cách âm thanh. Bản phác thảo rất thô này dự đoán một tỷ lượt xem ở đâu đó vào khoảng tháng 3 năm 2013, hãy xem ...

Nhìn vào sự chậm lại trong số lượt xem trong tuần qua, ngày 13 tháng 3 có vẻ như là một vụ cá cược tốt. Phần lớn các lượt xem mới dường như đã bị người dùng bị nhiễm trả lại nhiều lần mỗi ngày.

Liên quan đến việc bổ sung cho mô hình của bạn, một phương pháp mà các nhà nghiên cứu sử dụng để theo dõi sự lây lan của virus là theo dõi các đột biến gen của nó - khi nào và ở đâu nó bị đột biến có thể cho các nhà nghiên cứu thấy virus lây truyền và lây lan nhanh như thế nào (xem theo dõi Virus West Nile ở Hoa Kỳ) .

Theo nghĩa thực tế, các video như Gangnam Style và Party Rock Anthem (của nhóm LMFAO) có nhiều khả năng 'biến đổi' thành nhại, flash mob, nhảy đám cưới, phối lại và các phản hồi video khác hơn là các bài hát của Justin Bieber's Baby hoặc Eminem.

Các nhà nghiên cứu có thể phân tích số lượng phản hồi video (và đặc biệt là nhại) như là một ủy quyền cho các đột biến. Đo tần suất và mức độ phổ biến của các đột biến này ngay từ đầu trong vòng đời của video có thể hữu ích là mô hình hóa lượt xem YouTube trọn đời của nó.


Chào mừng đến với trang web, @lucasng. CV được dành cho các câu trả lời nghiêm túc, thực tế cho các câu hỏi thực tế (bạn có thể muốn đọc faq của chúng tôi ), và tôi nghĩ rằng OP đã hỏi ý kiến ​​này. Câu trả lời của bạn là trên đường biên giới ở đây; Tôi nghĩ rằng nó nên duy trì dựa trên ý tưởng của nó về đột biến, v.v., nhưng lưu ý rằng ý kiến ​​về giá trị của các video không thực sự là nguyên bản.
gung - Phục hồi Monica

Tôi nghĩ rằng ý tưởng là tốt. @gung Đúng là đó không phải là câu trả lời cho OP, nhưng câu trả lời thứ hai cũng không có.
gui11aume

@gung: (Một tìm kiếm của Google gợi ý rằng) lucasng không nêu ý kiến ​​trong phần bạn đã sửa lại mà chỉ trích dẫn tên của nhóm thực hiện bài hát!
Đức hồng y

1
@cardinal, cảm ơn vì đã ngẩng cao đầu. Lucasng, xin lỗi về sự nhầm lẫn; Tôi đã đặt lại tên nhóm.
gung - Phục hồi Monica
Khi sử dụng trang web của chúng tôi, bạn xác nhận rằng bạn đã đọc và hiểu Chính sách cookieChính sách bảo mật của chúng tôi.
Licensed under cc by-sa 3.0 with attribution required.