樂(lè)視視頻借力開(kāi)源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享
來(lái)源:易賢網(wǎng) 閱讀:1249 次 日期:2016-07-14 10:31:29
溫馨提示:易賢網(wǎng)小編為您整理了“樂(lè)視視頻借力開(kāi)源技術(shù)處理大數(shù)據(jù)的經(jīng)驗(yàn)分享”,方便廣大網(wǎng)友查閱!

從年底破百億的“羋月傳”和有毒的“太子妃”到年初舉報(bào)快播的“背鍋俠”,樂(lè)視簡(jiǎn)直賺足了國(guó)民的關(guān)注?,F(xiàn)在看來(lái),游戲才剛剛開(kāi)始,最近樂(lè)視又在忙活著升級(jí),改Logo改域名,這意味著樂(lè)視已經(jīng)準(zhǔn)備火力全開(kāi),進(jìn)軍全球市場(chǎng)了。小編覺(jué)得,樂(lè)視之所以有這么大的野心,是因?yàn)楸澈笥写髷?shù)據(jù)作支撐,而且未來(lái),大數(shù)據(jù)在樂(lè)視全球化戰(zhàn)略中也將發(fā)揮舉足輕重的作用。

從內(nèi)容來(lái)看,樂(lè)視大數(shù)據(jù)打造的超級(jí)IP實(shí)力確實(shí)強(qiáng)大。2013年樂(lè)視最早借大數(shù)據(jù)跑贏宣傳檔為即將上映的《小時(shí)代》做了最精準(zhǔn)的預(yù)測(cè)和分析,開(kāi)展了一場(chǎng)漂亮的電影營(yíng)銷(xiāo),拉開(kāi)了大數(shù)據(jù)電影營(yíng)銷(xiāo)的模式。再后來(lái),國(guó)內(nèi)影視開(kāi)始掀起IP潮,2015年是IP炒的最熱的一年。年底,樂(lè)視給用戶(hù)呈上滿(mǎn)意的答卷,其自制的“十年劇王”《羋月傳》以全網(wǎng)200多億的播放總量創(chuàng)下紀(jì)錄。網(wǎng)絡(luò)雷劇《太子妃升職記》,目前全網(wǎng)播放量已接近15億。大數(shù)據(jù)+超級(jí)內(nèi)容IP給樂(lè)視進(jìn)軍全球市場(chǎng)注入了無(wú)限動(dòng)力。

然而,這不是重點(diǎn),“內(nèi)容+”才是樂(lè)視生態(tài)的看點(diǎn)?!读d月傳》播出后,樂(lè)視同步推出了《羋月傳》定制版超級(jí)電視、智能手機(jī)、羋酒、手機(jī)殼、《羋月傳》經(jīng)典臺(tái)詞版手機(jī)鈴聲等個(gè)性化產(chǎn)品,還與天貓合作,打造《羋月傳》衍生品旗艦店,《羋月傳》手游也已經(jīng)發(fā)布。注意,請(qǐng)注意,這是一個(gè)360°無(wú)死角的IP布局,樂(lè)視超級(jí)IP已經(jīng)形成一個(gè)完美的閉環(huán)。

如果說(shuō)IP是軟件的話(huà),那樂(lè)視云就是硬件了。大數(shù)據(jù)時(shí)代,最不缺的就是“云”了,樂(lè)視云是一個(gè)專(zhuān)注于視頻領(lǐng)域的云計(jì)算平臺(tái),2016年樂(lè)視云已經(jīng)與戴爾達(dá)成兩年全球戰(zhàn)略合作、聯(lián)手全球領(lǐng)先大數(shù)據(jù)運(yùn)營(yíng)商Equinix,法國(guó)第一大電信運(yùn)營(yíng)商O(píng)range、澳大利亞最大電訊公司澳大利亞電信、世界領(lǐng)先綜合性國(guó)際電信公司西班牙電信、全球頂級(jí)通信方案運(yùn)營(yíng)商香港和記環(huán)球電訊有限公司等全球多家頂級(jí)運(yùn)營(yíng)商,打破數(shù)據(jù)孤島,加速視頻生態(tài)體系建設(shè),未來(lái)樂(lè)視大數(shù)據(jù)的觸角將會(huì)伸向更多行業(yè)。

再來(lái)看市值,樂(lè)視網(wǎng)2004年成立,2010年上市,當(dāng)年市值僅為50億。五年下來(lái),樂(lè)視依托大數(shù)據(jù)平臺(tái)在互聯(lián)網(wǎng)視頻、影視制作、智能終端、電子商務(wù)等垂直領(lǐng)域深耕,到現(xiàn)在,總市值已接近1100億。但是,看看樂(lè)視這次全面升級(jí)沖擊全球的架勢(shì),貌似,樂(lè)視的故事才剛剛開(kāi)始!

白德鑫現(xiàn)在正在從事樂(lè)視網(wǎng)超級(jí)電視做數(shù)據(jù)挖掘。他表示,原來(lái)初期的業(yè)務(wù)做得適應(yīng)不了當(dāng)前業(yè)務(wù)發(fā)展,所以要進(jìn)化。主要做的事情,構(gòu)建每件事的時(shí)候,分析數(shù)據(jù)的平臺(tái),給樂(lè)視網(wǎng)的超級(jí)電視提供數(shù)據(jù)挖掘服務(wù).如何從最初業(yè)務(wù)發(fā)展到現(xiàn)在,包括在超級(jí)電視上做實(shí)時(shí)分析和用戶(hù)離線(xiàn)挖掘,通過(guò)數(shù)據(jù)挖掘,給很多業(yè)務(wù)部門(mén)提供數(shù)據(jù)挖掘的支持。

白德鑫提到自己是谷歌粉絲,目前正在做第一批超級(jí)電視數(shù)據(jù)挖掘。云視頻搞清播放機(jī)的時(shí)候,那時(shí)候比較屌絲,只有幾萬(wàn)臺(tái)數(shù)據(jù),數(shù)據(jù)當(dāng)時(shí)也比較少,做了一些開(kāi)機(jī)數(shù)之類(lèi)的、日常數(shù)據(jù)。在業(yè)務(wù)里做,在數(shù)據(jù)節(jié)點(diǎn)做計(jì)算。

后來(lái)性能越來(lái)越低,因?yàn)榱吭絹?lái)越大,當(dāng)時(shí)每天數(shù)據(jù)量,當(dāng)時(shí)覺(jué)得很大,每天只有幾千萬(wàn)行數(shù)據(jù)。這時(shí)覺(jué)得需要嘗試一些新的技術(shù),就用Cassandra為存儲(chǔ),存儲(chǔ)日至,做簡(jiǎn)單處理切分以后放進(jìn)里面,使用Hodoop進(jìn)行計(jì)算,把結(jié)果塞到MySQL里。每天計(jì)算數(shù)據(jù)對(duì)自己來(lái)說(shuō)是一個(gè)中間數(shù)據(jù)??梢猿鰜?lái)一些報(bào)表。數(shù)據(jù)組合比較多,剛開(kāi)始只是盒子、應(yīng)用,后來(lái)還有一些視頻播放內(nèi)容,開(kāi)始嘗試把每天數(shù)據(jù)把MySQL和Kettle進(jìn)行分析。但是做了三四個(gè)月又換了,使用Kafka、Storm、Hodoop、Hpase、Hive、Oozie、Sqoop,唯一修改是有一些大的,跟隨開(kāi)源社區(qū)來(lái)做,進(jìn)行相應(yīng)升級(jí),盡量跟社區(qū)保持一致。

樂(lè)視網(wǎng)大數(shù)據(jù)的起點(diǎn)

白德鑫表示,剛開(kāi)始只有一個(gè)數(shù)據(jù)分析員,抓一些數(shù)據(jù),這是做的分析。電視的盒子,包括電視開(kāi)機(jī),看了什么電視節(jié)目,因?yàn)闃?lè)視網(wǎng)是做視頻內(nèi)容的,點(diǎn)開(kāi)了什么視頻節(jié)目,看了多長(zhǎng)視頻節(jié)目是通過(guò)心跳來(lái)做的,三分鐘一個(gè)心跳,這個(gè)放到終端記錄下來(lái)。播放有開(kāi)始、有心跳,電視好一些,但是盒子有些用戶(hù)看著看著直接斷電了,結(jié)束就沒(méi)有了,只能從心跳往回挖。

自從發(fā)布超級(jí)電視以后,剛開(kāi)始盒子價(jià)格比較貴,沒(méi)人買(mǎi),后來(lái)盒子賣(mài)299,賣(mài)出去很多。數(shù)據(jù)量按照三分鐘心跳,幾十萬(wàn)用戶(hù)看視頻,開(kāi)機(jī)有心跳、播放視頻有心跳,數(shù)據(jù)量特別大,沒(méi)辦法,樂(lè)視當(dāng)時(shí)上了四臺(tái)。四臺(tái)數(shù)據(jù),看怎么發(fā)布的。之后輸出,然后進(jìn)行分析??从心男﹩?wèn)題。

當(dāng)時(shí)做這個(gè)事情的時(shí)候一個(gè)人在做這些事情。然后后來(lái)有人離職,后來(lái)Cassandra這塊沒(méi)人了,交接的時(shí)候?qū)懲?,?duì)系統(tǒng)影響很大。在這個(gè)時(shí)候沒(méi)人接手,他走了技術(shù)也走了,一個(gè)蘿卜一個(gè)坑,蘿卜走了坑很不容易填的。后來(lái)想找一個(gè)技術(shù)更牛一些的人幫樂(lè)視來(lái)做,但是到現(xiàn)在一個(gè)多月沒(méi)有找到。系統(tǒng)要繼續(xù)做,數(shù)據(jù)也在瘋狂增長(zhǎng),沒(méi)辦法就把Cassadnra去掉,往MySQL里放。

通過(guò)另外一種方式,分析人員對(duì)樂(lè)視意見(jiàn)很大,他多的時(shí)間有兩個(gè)小時(shí),要看今天開(kāi)機(jī)量,和昨天的對(duì)比,再分時(shí)段看開(kāi)機(jī)量,兩個(gè)小時(shí)就過(guò)去了。他說(shuō)系統(tǒng)老死機(jī),我說(shuō)是查詢(xún)太慢了。希望系統(tǒng)可以做大一些。

現(xiàn)階段數(shù)據(jù)量的變化

白德鑫自己說(shuō),樂(lè)視的數(shù)據(jù)量從年初的三個(gè)月翻一番,到現(xiàn)在的我寫(xiě)得稍微早一些,到每周翻一番,現(xiàn)在每天數(shù)據(jù)量一百G,超級(jí)電視以及盒子賣(mài)得非常快。從設(shè)備行為快速向用戶(hù)行為轉(zhuǎn)變。我的計(jì)劃量是多少,賣(mài)得多了老百姓開(kāi)始考慮業(yè)務(wù)行動(dòng),按照互聯(lián)網(wǎng)方式做,用戶(hù)拿著我的盒子看什么使的,是看電影還是看電視劇,所以這個(gè)時(shí)候很多用戶(hù)行為來(lái)分析。現(xiàn)在電視版本和盒子版本一周一個(gè),這個(gè)版本每周更新一個(gè)系統(tǒng)版本,用戶(hù)是不是接受,這些都在樂(lè)視這里做分析。

還有一個(gè)是樂(lè)視在這里做了一些測(cè)試,因?yàn)樵诤凶永?,?lè)視叫UI里做一些測(cè)試,今天做一個(gè)海報(bào)推薦,明天加一個(gè)分析,看用戶(hù)量高還是低。

用戶(hù)數(shù)據(jù)量增長(zhǎng)很快,人也沒(méi)有,一邊找土豪開(kāi)發(fā)者幫樂(lè)視解決這個(gè)問(wèn)題,另外自己要解決這個(gè)問(wèn)題了。看數(shù)據(jù)分析的人,團(tuán)隊(duì)從內(nèi)部調(diào),數(shù)據(jù)分析招聘了一個(gè)。還有一個(gè)比較牛的是從公司別的部門(mén)挖的一個(gè)人。從今年年初開(kāi)始履行,從原有的來(lái)進(jìn)行。最后換成現(xiàn)在的方式。這個(gè)是自己在做,研發(fā)團(tuán)隊(duì)兩個(gè)人,現(xiàn)在也是兩個(gè)人。

差不多半年搭成新的,新平臺(tái)通過(guò)Kafka搭建,通過(guò)很多業(yè)務(wù)系統(tǒng),點(diǎn)播、第三方的,包括一些日志,存儲(chǔ)數(shù)據(jù),以及需要對(duì)用戶(hù)進(jìn)行分析的數(shù)據(jù)。還有一些元數(shù)據(jù),進(jìn)行一些加工、處理。整合之后,其實(shí)就是前段所有的請(qǐng)求打到這里。Storme是最后的數(shù)據(jù),另外Hodoop寫(xiě)的已經(jīng)換了,數(shù)據(jù)量大以后,換其他的數(shù)據(jù)庫(kù),剛開(kāi)始選,公司自己開(kāi)始做自己的數(shù)據(jù)庫(kù)。通過(guò)Hodoop以及數(shù)據(jù)服務(wù)wAD-HOC的搭建、處理,實(shí)時(shí)查詢(xún)、開(kāi)放數(shù)據(jù)平臺(tái)也做了查詢(xún)、進(jìn)行了報(bào)表,對(duì)一些實(shí)時(shí)數(shù)據(jù)分析系統(tǒng),還有做了門(mén)戶(hù),對(duì)各個(gè)業(yè)務(wù)提供數(shù)據(jù)服務(wù),要調(diào)哪些數(shù)據(jù)。運(yùn)營(yíng)商需要知道在四川電信、某個(gè)電信部門(mén)的視頻點(diǎn)播量。這些都是靠?jī)?nèi)部挖掘的。

樂(lè)視的數(shù)據(jù)源通過(guò)前端的,從三款到六款,所有數(shù)據(jù)都打到這里,好處是在于跟著開(kāi)源社區(qū)升級(jí)系統(tǒng),依然可以接收數(shù)據(jù),不影響業(yè)務(wù)。后面再隨便操作。數(shù)據(jù)稍微做一下處理放到STORE,放到數(shù)據(jù)實(shí)時(shí)計(jì)算、然后進(jìn)行拆分。現(xiàn)在沒(méi)有用PEED,用戶(hù)交互是OEE,把多個(gè)任務(wù)組合,把它放到,最后是一個(gè)結(jié)果,是一個(gè)業(yè)務(wù)流程的管理工具。

數(shù)據(jù)輸出之后通過(guò)查詢(xún),然后提供給別人,反饋到前端數(shù)據(jù)。這叫矩陣式的業(yè)務(wù)。這是進(jìn)行的測(cè)試。服務(wù)器兩臺(tái)4Core cpu、6G,用戶(hù)38萬(wàn)左右,38萬(wàn)有效數(shù)據(jù)。跟官網(wǎng)50萬(wàn)對(duì)比稍微差一些。因?yàn)闃?lè)視的機(jī)器性能比他們差很多。

當(dāng)時(shí)做的時(shí)候兩個(gè)節(jié)點(diǎn)做的,用了一個(gè)發(fā)送,用的是同步發(fā)送,消息格式是兩種,格式是30字節(jié)、50字節(jié)、200字節(jié)。如果30字節(jié)38萬(wàn),其他數(shù)據(jù)基本上是在30萬(wàn)左右。這是單臺(tái)數(shù)據(jù)。單臺(tái)差不多30萬(wàn)。這是樂(lè)視的Spout集群,做一些業(yè)務(wù)拆分,比如有些數(shù)據(jù)需要組織,點(diǎn)播、心跳的,其實(shí)有些消息是隨機(jī)的,雖然連續(xù)發(fā)過(guò)來(lái)的,但是每臺(tái)機(jī)器都往外發(fā),把數(shù)據(jù)寫(xiě)到里面,比方說(shuō)播放時(shí)長(zhǎng),每個(gè)劇播放時(shí)長(zhǎng)、按時(shí)段的數(shù)據(jù)計(jì)算。

這個(gè)借用官網(wǎng)的圖,我用的0.9幾,實(shí)際上標(biāo)準(zhǔn)是一個(gè),但是樂(lè)視怕數(shù)據(jù)丟失,所以做了兩個(gè),其實(shí)做得比較簡(jiǎn)單,把數(shù)據(jù)復(fù)制。存的一些數(shù)據(jù),這些沒(méi)有太多可講的,當(dāng)時(shí)做了一些簡(jiǎn)單優(yōu)化,這個(gè)不多說(shuō)。默認(rèn)垃圾是關(guān)閉的,自動(dòng)回收,不想讓它自動(dòng)回收要手工做一些處理。這是Sqoop,原來(lái)的數(shù)據(jù)都在這里存儲(chǔ),樂(lè)視導(dǎo)入集群里,樂(lè)視用這個(gè)來(lái)做。當(dāng)時(shí)做了一些事情,把數(shù)據(jù)抽取整合。

沒(méi)有寫(xiě)在上面的OLD,包括查詢(xún),有些數(shù)據(jù)處理處理的中間結(jié)果,中間結(jié)果到最后沒(méi)有,不可能到使用階段。

ROI分析

數(shù)據(jù)量每個(gè)月翻一番,現(xiàn)在不只這個(gè)了,樂(lè)視原有架構(gòu)沒(méi)辦法滿(mǎn)足新的需求,之前就是日?qǐng)?bào),現(xiàn)在每天實(shí)時(shí)數(shù)據(jù)都很多。Kettle方式數(shù)據(jù)整合時(shí)間越來(lái)越長(zhǎng),采用hadoop-Storm方案,不會(huì)對(duì)數(shù)據(jù)挖掘產(chǎn)生太大的影響,資源稍微豐富一點(diǎn),集群不夠使的時(shí)候要添加機(jī)器,數(shù)據(jù)每日跑一次,每天晚上12點(diǎn)跑一次收取數(shù)據(jù)生成報(bào)表,到現(xiàn)在實(shí)時(shí)查詢(xún),時(shí)間還是比較長(zhǎng)的,五分鐘左右。因特爾給樂(lè)視推薦過(guò)一個(gè),但是它那個(gè)對(duì)內(nèi)存要求太高,暫時(shí)做不到?,F(xiàn)在都是6G內(nèi)存服務(wù)器。支持硬件設(shè)備。

目前還有很多事情要做,其實(shí)對(duì)樂(lè)視來(lái)說(shuō)不同階段選擇不同方案,剛開(kāi)始初期的時(shí)候,一年賣(mài)幾萬(wàn)個(gè)盒子,剛開(kāi)始三千一臺(tái)盒子,不可能建十幾個(gè)節(jié)點(diǎn)的數(shù)據(jù)。人員流失會(huì)導(dǎo)致技術(shù)流失。技術(shù)儲(chǔ)備和內(nèi)部自薦比招聘牛人更快?,F(xiàn)在招聘也很困難,hadoop圈里人比較少。新業(yè)務(wù)平臺(tái)都要小心對(duì)待。否則出問(wèn)題很難解決。數(shù)據(jù)這塊還好一些,如果前端沒(méi)有,對(duì)業(yè)務(wù)影響很大。

數(shù)據(jù)安全很重要,樂(lè)視有40多T數(shù)據(jù),放到兩個(gè)備份存儲(chǔ)上。服務(wù)器多了就是爽,四臺(tái)不夠加八臺(tái),計(jì)算量可以很快。

更多信息請(qǐng)查看網(wǎng)站運(yùn)營(yíng)
由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢(xún)回復(fù)僅供參考,敬請(qǐng)考生以權(quán)威部門(mén)公布的正式信息和咨詢(xún)?yōu)闇?zhǔn)!
關(guān)于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡(jiǎn)要咨詢(xún) | 簡(jiǎn)要咨詢(xún)須知 | 加入群交流 | 手機(jī)站點(diǎn) | 投訴建議
工業(yè)和信息化部備案號(hào):滇ICP備2023014141號(hào)-1 云南省教育廳備案號(hào):云教ICP備0901021 滇公網(wǎng)安備53010202001879號(hào) 人力資源服務(wù)許可證:(云)人服證字(2023)第0102001523號(hào)
云南網(wǎng)警備案專(zhuān)用圖標(biāo)
聯(lián)系電話(huà):0871-65317125(9:00—18:00) 獲取招聘考試信息及咨詢(xún)關(guān)注公眾號(hào):hfpxwx
咨詢(xún)QQ:526150442(9:00—18:00)版權(quán)所有:易賢網(wǎng)
云南網(wǎng)警報(bào)警專(zhuān)用圖標(biāo)