改變演算法 Netflix 改變全世界看電影的方式

0
netflix-program

Netflix 除電影外,也有許多知名自製影集,如《紙牌屋》《漫威夜魔俠》等。

網飛推出百萬美元獎金的「網飛獎」,提供一億訂戶的電影評分巨集資料做基礎,三年內吸引全球一百八十六國、四萬組團隊競賽,科技菁英、實驗室專家和業餘好手,競相為網飛打造最先進的電影推薦系統:顧客什麼都不用做,看就對了!

網飛的最高原則,一直是讓每部電影看起來都很吸引人。這種智慧承襲自藍道夫(註:網飛創辦人之一)的「直效郵件聖經」,那時才剛有 DVD 格式、片名選項不足,並且偏向老片和知名度不高的電影,在那種情形下,這個原則對網飛的生存非常重要。

幫助訂戶發現他們喜愛(而不只是喜歡)的電影,可以確保訂戶不斷回到目錄去尋寶,支付月租,並宣傳這項服務。其中最吸引人的是, Cinematch 演算法會充當嚮導,以意想不到的方式,引導訂戶檢索大量的目錄。

在最終列入訂戶佇列的影片中,差不多有 70% 來自 Cinematch 的推薦。這個推薦引擎非常強大,網飛甚至用來預測,並控制庫存需求,有助於讓新發行影片的高度需求變得更順暢,並引導訂戶選擇更具經濟效益的老電影。找片的經驗對訂戶而言頗具吸引力,在開始的幾年裡算是意外收穫,不過,在網飛與百視達的慘烈戰爭中,這個事實有可能因此改變了遊戲規則。

螢幕快照 2016-03-24 下午5.58.13

Netflix 的電影評分。

最初, Cinematch 會根據使用者之前對其他電影的評分,分類提供用戶可能給予較高評分的電影名稱列表,以及由網飛內容編輯建立的主題清單。使用者評分的電影越多,系統就會變得越準確。隨著網站功能日益精確, Cinematch 會只提供某個訂戶可能會喜歡的片名,這意味著每個訂戶每次登錄時,都會看到不同的網站。搭配由亞馬遜設計的軟體, Cinematch代表世界上最好的協同過濾系統。

多年來,哈斯汀(註:網飛董事長兼首席執行長)要求軟體工程師配合數學家改進演算法,並且親自加以調整。將人類行為和喜好歸結為一組方程式的想法吸引了哈斯汀:是否真的有可能在數字範圍內,取得這麼多的不確定性?

網飛提供高額獎金,舉辦科技競賽

到了 2006 年,哈斯汀及其團隊已經竭盡所能進行所有改進。爭取局外人的幫助看來毫無意義,他聘用的是可以找到的最優秀人才。正如他的外曾祖父透過建立圖瑟多.帕克實驗室,吸引世界頂尖科學家探索那個時代最大的物理學奧秘,哈斯汀也決定舉辦提供一百萬美元獎金的科學競賽,希望能突破支援 Cinematch 的演算法。外曾祖父艾佛雷德.盧米斯曾以尖端設備、豪華食宿及豐厚津貼,吸引世界知名的科學家到他的物理實驗室做研究。哈斯汀將會提供科學界前所未見、來自真實世界的資料集,吸引機器語言科學家參加競賽。

用科技找出顧客喜歡的電影類型

螢幕快照 2016-03-24 下午6.43.09

《麻雀變鳳凰》(左)和《美國舞男》(右)雖然影片背景類似,但兩者不可能吸引到同一批觀眾。

1999 年,包括哈斯汀在內、創辦網飛的軟體工程師打算建立一個推薦引擎時,剛開始的方法相當幼稚,是透過共同屬性,即類型、演員、導演、背景、喜劇或悲劇,來將電影分類。隨著電影庫存增加,這種方法被證明既繁瑣又不精確,因為無論賦予每部電影多少屬性,都無法判斷《麻雀變鳳凰》( Pretty Woman )和《美國舞男》( American Gigolo )的差別所在。這兩部電影都由李察.吉爾( Richard Gere )主演,都和賣春有關,也同樣以美國大城市做為背景,但是兩者不可能吸引到同一批觀眾。

早期的推薦引擎無法進行預測。廣為人知的一次失誤是,沃爾瑪網站推薦電影給尋找「黑人歷史月」( Black History Month )相關電影的購物者,結果推薦的竟然是《決戰猩球》( Planet of the Apes ),該公司不得不發表道歉聲明,並且終止搜尋引擎。

螢幕快照 2016-03-24 下午6.00.04

美國科幻片《決戰猩球》( 2001 )的背景設定是,未來地球被人猿佔領,人類成為奴隸。

接下來,網飛軟體工程師轉向一個「最接近」( nearest neighbor )的演算法,這種演算法主要是根據顧客的電影愛好來分組,而不是將影片的關係相互串連。

到了網飛獎公布時,訂戶已經對六萬部電影與電視節目進行十億次評分,這是一個豐富的資料集,只是 Cinematch 未能探究到其中微妙之處。

「貝爾科」及其他團隊從零開始,寫出各自的推薦演算法,而且他們在短短幾個月內,就經歷網飛花了好幾年時間才度過的學習曲線,之後更加以超越。他們建立的演算法,發現了龐大的資料集中沃林斯基、貝爾及科倫完全陌生的領域。演算法分析根據訂戶評分建立的模式,為每部影片指派專屬的「描述子」*(descriptor),這些描述子比導演、演員和類型等標籤更豐富也更精確,對於人類思維卻沒有實質意義。

*註:描述特徵的方法,不同的描述子會描述不同的區塊特徵。

例如,貝爾注意到,這個演算法「學習」到:喜歡伍迪.艾倫( Woody Allen )電影的訂戶,往往只關心他創作(也許是在他生涯的某個時期,或是特殊的設定)的特定類型電影,因此不會再推薦他導演的其他作品。

woodyportrait-xlarge

美國導演伍迪艾倫至今已獲得 23 項奧斯卡獎提名,奪得 4 項奧斯卡獎:三項奧斯卡最佳原創劇本獎,及一項奧斯卡最佳導演獎。

一個被稱為「大混沌」( Big Chaos )的新團隊,由兩個年輕的奧地利數學家組成,根據「貝爾科」在第一年的成果為基礎,排名正在飛快上升,他們引起貝爾和沃林斯基的注意。在一場為了觀察雙方對問題的解決與個性是否吻合的科學「相親」中,貝爾向「安德瑞斯.托雪與麥可.亞赫里爾推薦研究」( Andreas Toscher and Michael Jahrer of Commendo Research )這個團隊發送電子郵件,探討合作的可能性。在一連串的電子郵件後,「貝爾科」團隊確信托雪和亞赫里爾會坦誠以待,於是雙方在跨越大西洋的電話中同意聯手,成為「大混沌中的貝爾科」( BellKor in Big Chaos )團隊。

他們接著開始尋找會影響人們用特定方式進行電影評分的環境與心理因素。訂戶在週末評分時,會比平時寬容還是更嚴苛?一次為很多部電影打分數,會有什麼後果?人們是否會根據心情而給出不同的評分,如果是的話,又要如何加以量化?嚴苛或寬容的個人性格,是否會隨著時間產生變化,如果是的話,變化的方式與原因又會是什麼?

每個問題都變成跟自身相關的一個有待測試的方程式,在結果一致且相關的情況下,這個方程式會被併入構成制勝公式的方程組中。

由於對 Cinematch 的改進,只增加了令人痛苦不堪的 0.5% 和 0.1% ,有少部分的電影仍然難以分類,並在第二年成為橫亙在網飛獎參賽選手及一百萬美元支付日之間的主要障礙。這些電影通常具有諷刺性或爭議性,到底算是傑作還是垃圾,觀眾與影評人有截然不同的看法。

此外,這類電影的代表性作品,是獨立製作的荒誕片《拿破崙炸藥》( Napoleon Dynamite )(在貝爾科所有的模型中,這個片名出現最嚴重的錯誤率),以及具有政治傾向的電影,如麥可.摩爾( Michael Moore )執導的紀錄片《華氏九一一》( Fahrenheit 9/11 ),講述針對紐約和華盛頓的恐怖攻擊,還有第二次伊拉克戰爭。為《心靈偵探社》( I Heart Huckabees )、《愛情不用翻譯》、《海海人生》( The Life Aquaticwith Steve Zissou )和《受難記:最後的激情》( The Passion of the Christ )等類的電影評分,當存在風險時,對於評分的眾多訂戶會站在哪一方的預測能力就會下降,因為之前的評分並不會呈現人們對這類電影的感受。

91AdsJIuk2L._SL1500_

美國鬼才導演魏斯安德森的《海海人生》,黑色幽默的劇情,讓電影評價好壞參半。

貝爾推論,《拿破崙炸藥》問題的解決方案,不僅在於找到近似的電影,還要在不夠了解某個訂戶的情況下,讓演算法全部進行預測。這樣的結果,可能會形成一個這樣的方程式—忽略了那些評分過低,或者對某類型電影評分太高,或是少數評分一直忽高忽低的訂戶。

更先進的推薦系統誕生了

這次比賽打造出先進的推薦系統,能從行為線索中讀取人們的電影喜好,也不再需要評分系統過多的輸入資訊,特別是搭配一個影片串流應用程式時。例如,這個系統可以快速推測:特定訂戶在週間的某幾個晚上看喜劇、在週末盡情欣賞以警察為主角的電視影集,或是在特定演員或場景出現時,倒帶觀看劇情的情況。

「我們在獲取你的喜好資訊,而你什麼都不用做。」沃林斯基在比賽結束後這樣告訴我。訂戶甚至不需要再為電影評分,因為植入機上盒或網飛網站的一個程式,就會監測他們觀看的節目與電影,以及觀看方式,進而分辨訂戶的選擇是否值得記憶,以及如何在串流資料庫提供的電影複製這個經驗。如果演算法精確的機會比失誤來得多,就具備了一個成功品牌的要素—消費者的信任。


網飛(無書腰)
本文節錄自《 NETFLIX:全球線上影音服務龍頭網飛大崛起》,商業周刊出版。

關於作者

Punch

娛樂重擊希望能透過網路社群的力量,為台灣影視音產業找到突破點,恢復相關議題該有的注目程度。本帳號將會代表娛樂重擊編輯部,以及發表各方投稿,針對影視音產業提出心得與建議,也歡迎與我們聯繫。