收視率調查視角下的大資料與抽樣資料

大資料 · 發表 2018-09-21 14:33:08

摘要：電視收視率調查，在看似簡單的收視率數字結果背後，是科學的方法和規範的標準。收視率調查視角下的大資料與抽樣資料之爭，是近年來非常熱門的一個話題。作為研究者，對不同型別資料的價值挖掘，我們一直有所關注，這在世界範圍內也是一個熱點話題。近年來，收視率被認為是電視行業中最主要的評估標準，收視率...

電視收視率調查，在看似簡單的收視率數字結果背後，是科學的方法和規範的標準。收視率調查視角下的大資料與抽樣資料之爭，是近年來非常熱門的一個話題。作為研究者，對不同型別資料的價值挖掘，我們一直有所關注，這在世界範圍內也是一個熱點話題。

近年來，收視率被認為是電視行業中最主要的評估標準，收視率資料也引起了高度的重視，收視率引發的資料準確性問題也日益增多。有人將收視率低，收視率資料容易被造假的罪名歸於抽樣資料。言下之意，似乎大資料的收視結果更為完美。那麼抽樣資料與大資料之間哪個更勝一籌？哪個更能全面還原觀眾收視行為和電視市場競爭呢？要回答這些問題，我們需要了解兩者之間的特質與差異。

抽樣資料的優勢與侷限性

1、抽樣調查具有樣本代表性並能推斷總體的特點

現實生活中，有很多這樣的例子，比如我們要知道工廠生產的一批燈管的壽命，肯定不能把燈管一支支點亮直到它壽終正寢，那樣的話，我們就沒有燈管可用了。所以，實際工作中採用的手段，就是從每批燈管中抽取部分代表性的樣本，進行壽命試驗，這批燈管就是總體，參與試驗的燈管就是樣本。

這種根據科學的統計理論和方法，設計從調查總體中抽取樣本，在一定樣本量下確保對總體的代表性和預定的精度，是一切市場調查的基本要求和普遍採用的方法。按照總體的情況和調查的精度要求，可以設計具體的抽樣方案和確定所需的樣本量，這樣抽取的隨機樣本對總體代表性好，可以對總體指標進行統計推斷。

收視率調查的抽樣就是這種思路，抽取有代表性的樣本，通過觀察、記錄這些樣本的收視情況，來對總體觀眾的收視情況進行統計推斷，只要採用科學的抽樣方法保證了樣本的代表性和合適的樣本量，其推斷結果就是有理論保證的。

2、抽樣調查因樣本量規模不夠大容易引起業界質疑

但是在收視率調查領域，由於抽樣調查的樣本量有限，而觀眾收視碎片化特徵越來越明顯，使得有些節目會出現低收視現象，因此被業界和輿論所關注，並上升到抽樣資料失真或者作假層面，屢屢引發負面輿情。

不可否認的是，隨著當前傳播環境的發展，收視率調查的確需要用更大規模的樣本去刻畫更精細和更多元的收視行為。因為抽樣資料的精度和樣本量是高度相關的，如果樣本量足夠大，理論上調查精度就可以足夠高，但是樣本量的大幅增加會對客戶和市場帶來巨大的成本壓力，因此進行收視率調查就需要在成本和精度之間尋找適當的平衡。

大資料的優勢和侷限性

伴隨網際網路的發展及電視裝置的數字化更新，對受眾收看電視行為的監測就有了更多新的方式。大資料也被認為是收視率調查的新方向。

1、大資料因總量大而受到行業推崇

當前電視行業談論的大資料、海量資料通常指的是機頂盒資料和智慧終端資料 ，即通過數字有線電視以及IPTV和智慧電視機等直接採集使用者終端的收視行為而得到一定範圍內的海量行為資料。這種採集方法具有資料量大、時效快等優勢而日漸受到推崇。

但是大資料到底有多大呢？

2、現實工作中，全量的電視大資料其實是“部分全量”的資料孤島

我國電視數字化產業非常發達，參與主體也非常多，事實上就形成了很多大資料孤島。比如IPTV使用者收視資料，每個城市的IPTV使用者資料分散在中國電信、中國聯通和中國移動的各省公司裡；而數字雙向有線使用者資料更為分散，基本為每個省直轄市的有線運營商所有。智慧電視終端的收視資料則分屬海信、TCL、創維、長虹、康佳、小米、樂視等十餘家主要廠商所有。每家運營商和廠商都視資料為生命，很難與外界分享，這就形成了事實上以運營商、地域、品牌為特點的資料孤島。即便某些機構或者公司能夠獲得多家運營商或者廠商的部分資料，其實也沒有改變其資料孤島的性質。因此，想通過這些孤島的大資料準確瞭解一個城市、一個市場的收視全貌是非常困難的。

3、電視大資料是終端收視資料，不是個人收視資料

電視收視主要是家人或多人收視場景。而目前電視大資料均是終端資料，無法還原成個人的收視情況，這是全球電視行業所面臨的難題，也是電視大資料被廣泛應用面臨的最重要的障礙。終端資料不能滿足市場營銷和廣告行業客戶所需要明確“誰在看”的個人收視資料要求。

由此可見，網際網路時代，大資料似乎一直在為大眾描繪一道靚麗景色，事實上，現階段的大資料還有很多無法逾越的侷限性，理想化的全量資料目前行業內尚不存在。

任何資料的應用都應被市場重視並監管

近年來談及當前的電視傳播與觀眾測量，一直繞不開大資料與抽樣資料之爭。但從前文分析來看，大資料雖然總量大，但多是源自各自區域性的“大覆蓋”，同時因個人層面資訊的缺失，目前仍有較大的侷限和偏失。抽樣資料雖然樣本量有限，但是基於科學合理的隨機抽樣，並能回答“誰在看”的問題，為節目編排和廣告策劃提供了更具目標性的參考。因此，目前在電視受眾研究領域，大資料與傳統抽樣資料並存應該成為業內常態。

其實，無論是哪一種調查體系，收視率資料都要保障資料的公正和客觀，必須要實現標準的唯一性和統一性。多套收視率資料並存，會造成市場秩序和市場交易的混亂。從國際通行的操作來看，在大多數國家和地區已經形成一定時期內使用一家收視率調查公司資料的格局。

也就是說，競爭並非收視率調查的最佳狀態，在一定時期內，有監督、有標準的一家壟斷是更為普遍的常態。壟斷的形成各國有各國的特點，美國是靠市場充分競爭後形成了一家收視率調查公司的事實壟斷，從而達到了唯一性與統一性；在英國則通過行業協會統一監管和購買的方式，從而形成全英國市場的唯一性與統一性；而在日本，則是其國內相關利益方（廣告公司和電視臺）合資成立收視率調查公司從而實現了統一。

最終無論哪一家成為行業貨幣，都需要按照國際通行標準規範操作，並接受行業與主管部門或是第三方監管機制監管。除了收視率資料在廣告交易和節目交易中扮演的角色，行業也應重視節目內容的多元價值，建立完善的節目評估體系，通過多維度的綜合評價指標體系全面地考量電視節目的多元價值。

最後一點，我想說的是，在個人資訊保護意識越來重要的今天，無論電視大資料系統還是抽樣的收視調查系統，都要充分重視個人資訊保護。我國的個人資訊保護法正在起草討論中，未來將會形成正式的法律法規。收視率抽樣調查資料和電視大資料的採集，都是對家庭及個人收視行為資訊進行收集、處理及再應用的過程，其中涉及了大量的個人資訊保護工作，這一點需要引起行業主管部門及各方參與者足夠的重視。

（本文作者：中國傳媒大學電視與新聞學院教授，博士生導師柯惠新）