大數據

盤點技術史:流量運營(PC 時代)

前言:
-更多關於數智化轉型、數據中臺內容請加入阿里雲數據中臺交流群—數智俱樂部 和關注官方微信公總號(文末掃描二維碼或點此加入

-阿里雲數據中臺官網 https://dp.alibaba.com/index

(作者:DeeperMan)

提到流量運營的歷史,我們首先需要簡單介紹一下互聯網的歷史。人類最偉大的構想往往都需要幾代人不斷地嘗試和完善,蒸汽機如此,飛行器如此,攻克癌症也將如此。從1876年貝爾發明了電話起,整個20世紀人類都在不斷嘗試如何遠距離傳輸除語音以外的信息或者數據,從20世紀初特斯拉即已經有了互聯網的構想,同時Otlet等一大批先驅在不斷探索和完善信息的數字化存儲和讀寫技術,1960年MIT教授Licklider提出了“IntergalacticComputerNetwork”即IGCN理論,為現代互聯網概念奠定了基礎。直到1990年,現代互聯網才真正誕生,英國人TimBerners-Lee提出併成功實現了基於客戶端和服務端之間通信的HTTP協議。

流量分析只比互聯網誕生晚幾年,作為一個生態,互聯網需要有人提供服務,同時也需要有人消費服務,而在互聯網上經營服務跟在線下經營五金店一樣,如果想要成功,需要時刻關注來訪問的顧客的情況:今天有多少人來消費?有多少人來了但是沒有購買?我的顧客有一些什麼特點?為什麼今天的銷售額比昨天少了很多?



1993年,在互聯網誕生3年後,全世界有大約600個網站,如果你有幸成為這600個提供互聯網服務的網站主之一,要回答這些問題就沒有這麼容易了,首先你面對的是你的服務器上的一大堆服務請求日誌,大概長成這樣:

image.png

如果你不是學計算機專業的,基本不大可能從成千上萬的日誌中獲得任何有用的信息。有了痛點自然就有解決痛點的產品誕生。此時,歷史的潮流將一家叫WebTrends的公司推向了沙灘,這家公司今天依然存在,當然技術上早就與時俱進了。然而,在1993年,它僅僅為網站主提供了一個簡單服務端日誌解析和分析的服務,可以認為就是設計了一個grep語句將這些日誌的IP地址信息提取出來去重,然後告訴網站主今天有多少人訪問了網站。這家公司因為這個idea在2001年賣了11億美元,同時這個idea催生了一個叫digital analytics(流量分析)的行業的誕生,並且每年產生上千億美元的revenue。

# 劃重點的1995年

1995年是互聯網發展的重要一年,Amazon, Craigslist, eBay領頭的電子商務開始進入互聯網,Match.com也將社交需求帶到了網上,Yahoo在之前一年已經上線,隨著互聯網服務的日益豐富和多樣化,Windows 95的火爆登場,個人電腦大賣,網民數量也出現了爆炸式增長,WebTrends已經無法滿足大的網站主洞察客戶的需求。
image.png


此時誕生了Analog,一款免費的流量分析工具,並且提供一定的可視化分析能力。當然,到目前為止,互聯網網頁還是以靜態頁面為主,如果一個用戶訪問了某網頁,我們可以認為他訪問了整個網頁的所有內容,現在我們知道,這個假設很快就變成了不對的。



1996年,專業的互聯網市場營銷團隊開始出現在一些大公司的組織架構中,他們可以熟練使用Analog這款免費工具,然而免費的工具在沒有營收的支撐下總是難以滿足高階用戶的需求。此時更多的玩家進入了流量分析領域,幫助網站主洞察流量和挖掘客戶價值,大的網站主也開始大量投資購買流量分析軟件對服務端日誌進行分析。此時流量分析的四巨頭出現:WebTrends, Web-counter, Accrue, Omniture。其中Web-counter開創了一種廣為人知的的hit counter service, 它反向為之,針對中小網站主和在免費host網站host網頁的個人網站主(他們沒有讀取服務端日誌的權限),國內的80後互聯網使用者可能並不陌生。



它的劃時代意義在於讓所有的網站主都可以做最直觀的流量洞察,真正讓流量分析做到了零門檻,網站主不需要懂如何讀取服務端日誌、不需要懂日誌管理、不需要懂日誌解析,只需要在網站裡面嵌入一段簡單的PHP代碼即可。當然它沒有fancy的分析功能,也沒有任何過濾爬蟲的能力。

Google上線的1997年

1997年,互聯網持續迭代發展,此時的網站開始注重美觀,各種精裝修技術開始盛行,動態加載的網頁技術開始出現,服務端請求的次數跟網頁的瀏覽次數也基本沒有任何關聯了,服務端日誌分析已經不能精確地洞察用戶行為。此時一種新的用戶行為追蹤技術誕生,叫做Javascript Tagging。它可以精確地追蹤複雜網頁的用戶訪問行為,tag原來是指網絡請求的那張看不見的照片,它被有意嵌入在網頁內的某興趣點,當指定的用戶行為被觸發時會向服務器請求這張圖片資源,順便將相關的用戶信息隨著請求帶上去。隨著網頁技術的發展,現在tag是指一段用來追蹤用戶行為的複雜的Javascript代碼。除了能夠進行更加細粒度的頁面元素追蹤外,tag還能收集到更加複雜的內容,比如購物車內的商品信息、屏幕有多大、使用了什麼瀏覽器、視頻看了多少 等等。

值得注意的是,google.com在這一年上線,之後十幾年互聯網技術的重大發展基本跟它有點關係。
image.png

這家公司最初在1995年創立,進入前面提到的基於服務端日誌解析的流量分析服務,1997年開始發展Javascript tagging技術,到1998年,JS tagging還是將日誌發送到業務服務端進行日誌分析為主,其主要原因是各大互聯網公司都已經投入大量資金購買流量分析軟件,成本的壓力讓這些公司暫時還不考慮轉型,此時最大的軟件提供商就是Urchin,但是同時一種新的商業模式開始誕生,網站的流量數據不再發到自己的服務器,而是發送給專業的流量分析服務商管理的服務器,流量分析開始SaaS化,這種解決方案在中小企業中非常流行,同時大的host公司(為中小企業或者個人提供網站託管服務)也對此趨之若鶩。新的商業模式結合了流量分析的易用性和功能性,讓Urchin成長成為了最大的流量分析服務提供商,並於2005年賣給了Google,成為了Google Analytics。
image.png

接下來從2005年到現在,流量分析從主流的Page View過渡到了in-page analytics, 再到Universal Analytics(移動互聯網的興起),再到各種縱深流量分析和運營能力構建(cross-site、machine learning、lifetime value等),流量運營出現了百家爭鳴的業態。

三大門戶和導航站的黃金十年

1994年4月20日是中國互聯網發展史上開天闢地的大日子,通過一根64Kb(注意是bit不是Byte)的國際專線,中關村地區教育與科研示範網絡(NCFC)工程完成了與國際互聯網的全功能IP連接。這一年5月中國科學院高能物理研究所設立了國內第一臺WEB服務器“中國之窗”,服務於科研與教育的互聯網用戶主要是北京的科研院所和高校的人員。



隨後兩年多時間裡,中國科技網(CSTNET)、中國公用計算機互聯網(CHINANET)、中國教育和科研計算機網(CERNET)等相繼開工建設,開始了全面鋪設中國信息高速公路的歷程。1996年中國第一個網吧(電腦室)在上海出現,上網價格達40元/小時,上網衝浪只能是少數人的高科技休閒方式。1997年中國電信面向普通家庭推出價格較為低廉的163網(很容易猜到後來網易選用163.com作為域名的緣由)和169網,全國各地的網吧如雨後春筍般湧現。1998年中國網民開始成幾何級數增長,上網從前衛變成一種真正的需求,一場互聯網帶來的變革很快傳遍整個中華大地。



隨著上網的普及,提供上網內容的ISP也越來越多,但以複製海外的模式為主,美國出現什麼新網站,中國會很快拷貝過來,一開始目標肯定是精英,3年後才會真正開始爆發流行。這個階段逐步誕生了佔據中國互聯網黃金十年的三大門戶:網易、搜狐、新浪。這裡不展開介紹它們的業務發展和上市歷程,從流量運營角度我們來看導航站和中國站長的發展,他們成為這個時代中國互聯網的特色之一。



在互聯網網站鼻祖雅虎剛上線時,以網站分類導航的形式提供內容服務,後來逐漸發展成搜索、門戶等產品。同樣得入口者得天下,中國互聯網也出現了簡單到基本不需要技術的導航站,這與中國網吧和網民特點密不可分。1999年還是網吧管理員的李興平,發現找資料很困難,而且要記住英文網址難度很大,他就把中國排名前5000位的站點進行分門別類,再按用途組合在一起,做成一個“網址大全”式的網站,這就是hao123網址之家的前身。他要逐個檢查鏈接,去除死鏈和非法鏈接、調整鏈接排序,工作耗時逐漸增長到每天需要6-7個小時,這就是中國站長的早期人工流量運營。



2004年hao123成為眾多網吧和家用電腦的開機首頁,甚至在全球權威的Alexa網絡監測中,成為全球流量極大的中文網站之一。根據百度的統計,來自hao123的搜索請求廣告佔到整個百度的搜索量的1/10,而整個網站流量能佔到百度的40%,因此這一年百度斥資1000多萬現金加股票收購了hao123。蔡文勝創辦的比hao123晚了4年的265.com也在2007年賣給的谷歌中國。

隨著這兩家被收購,網址導航的盈利模式被認可,進入了群雄爭鹿的高速發展期,360依靠海量的安全衛士和瀏覽器裝機量捆綁推廣360網址導航,瞬間擠入了網址導航的第二陣營,2345依靠與熱門網絡應用捆綁以及強大的地推資源迅速崛起,114啦依靠與自身雨林木風盜版系統推廣結合也獲得大量的用戶,隨後的搜狗、QQ也都相繼推出了自身的導航網站,網址導航逐漸成為各大公司的標配流量入口。
image.png



站長三件套:域名、空間、統計代碼

言歸正傳,在沒有云計算和大數據的時代,搭建和運營網站的門檻卻是極低的。國內出現了很多提供價格低廉設置免費的個人空間和二級域名服務的網站,催生了一大批站長,提供各式各樣的論壇和網站。他們開始學習如何用asp、php、html和css來裝修完善自己的網站。比如提供統計服務的就有熱訊統計,itsun等,其中在站長服務中最有名的當屬網易了,提供了免費域名、主頁空間、易數統計整套方案,雖然有廣告但做個初級網站還是非常容易。網易這家公司讓人佩服的是,每個時代都能低調做出符合用戶需求的產品,諸如門戶、163郵箱、夢幻西遊、網易雲音樂、考拉海購都成功收穫大批用戶。

image.png
image.png

基礎設施有了,如何提升網站訪問量成了站長們關心的首要問題。在搜索引擎流量未成為主流時,統計排行榜和換量聯盟(太極鏈、51link等)是站長們關注的重點。甚至在2005年蔡文勝舉辦的第一屆中國站長大會上,站長們交流網站流量運營經驗的同時,也在交流在各個平臺刷量的葵花寶典,可見中國站長對商業化和盈利的渴望。
image.png



來源分析和關鍵詞分析

這個時期的統計分析工具,已經進入了基於服務器日誌解析的流量分析的技術架構,除了統計網頁PV、UV的這些基礎指標外,做網站運營最關注的就是流量來源。通過用戶來源網站統計,可以瞭解用戶來自哪個網站的推薦、哪個網頁的鏈接,如果是通過搜索引擎檢索,可以看出是來自哪個搜索引擎、使用什麼關鍵詞進行檢索,以及你的網站索引出現在搜索結果的第幾頁第幾項。這些分析對於站長去做SEO尤為重要,所以這裡展開介紹一下來源和關鍵詞分析的技術原理。



通常有兩種技術來實現來源分析,一種方案在來源頁面鏈接加自定義參數來標註用戶來源,比如在hao123首頁點擊百度連接後會打開baidu.com/?,tn參數就是標識來源的字段。



另一種方案通過http header中的referer作為來源,比如你在百度搜索網站hao123(記為鏈接A:baidu.com/s?),點擊跳轉後,hao123的首頁(記為鏈接B:hao123.com/)就可以通過document.referer來獲取來源為(記為鏈接C:baidu.com/link?)。



前一種比較適合在網站內部頁面跳轉中來使用,因為需要所有來源都加上相應參數;第二種更適合分析站外流量來源,往往referer的url參數會比較長,分析來源網站會截取域名段,分析來源頁面時通常會取?之前的靜態URL。理論上鍊接A就是B可以獲取到的referer,也是說A=C,這樣B就可以分析來源於搜索引擎的關鍵詞了(A鏈接中帶了搜索關鍵詞“wd=hao123”),這就是統計分析產品中提供關鍵詞分析的基本原理。但實際上A和C差異很大,這是為什麼呢?懂點瀏覽器知識的觀察下就明白,其實在鏈接A頁面上點擊時並沒有直接跳轉到鏈接B,而是加了跳轉中間頁鏈接C,鏈接C也是百度的網頁,可以很靈活地控制URL中攜帶的參數,屏蔽目標網頁C做關鍵詞分析。



Google早在2011年推廣搜索https化時開始屏蔽來源關鍵詞分析,國內的百度是在2015年發佈公告正式取消referer中關於關鍵詞的顯示,宣稱此舉能夠更好的保護站點流量關鍵詞數據信息,使站點數據更加私密化。私密化的結果是你只能在百度統計分析中看到關鍵詞分析,你懂的:)

CNZZ和百度統計崛起

2005年後谷歌的Google Analytics和雅虎量子統計逐步進入中國,站長們見識了國際一流公司的產品。但技術實力不是佔領市場的第一要素,有時體驗更重要,由於國際化的產品設計理念,加上糟糕的中文翻譯質量,給了國內流量分析產品不少機會。國內的創業者逐漸推出了51la、51yes、cnzz等中國第二代流量分析產品,也提供了實時在線用戶統計等差異化的功能。這個時期很多站長會同時集成Google Analytics和國內流量分析工具,使用各平臺的特色功能的同時也可以核對各平臺數據是否一致。後來51la、51yes由於服務穩定性一直被詬病,廣告過多和產品功能規劃不明確,逐漸被cnzz拉開差距。cnzz將自己定位為專業、權威、客觀的第三方數據統計,這迎合了國內互聯網市場的巨大需求,到2008年上線4年的cnzz獲得了60多萬的站點用戶,當時據CNNIC統計國內網站數量在192萬,意味著cnzz已經覆蓋了國內三分之一的站點。
image.png

百度統計測試版在2007年11月發佈,2009年8月發佈正式版,商業公司提供的統計服務更加穩定、安全、專業,在2010年逐漸成型後一統江湖,成為國內流量分析工具百家爭鳴時代的終結者。隨著國家工信部加強對域名和內容的備案審查,中小站長開始衰落,cnzz市場份額也逐步降低,網站流量分析工具也跨入被搜索引擎寡頭(百度、Google)統治的時代。
image.png

移動互聯網興起,移動統計分析迅速崛起,Flurry和友盟在中美各領風騷,TalkingData、神策、阿拉丁等後期之秀異軍突起。

參考文獻:
a-brief-history-of-web-analytics
the-early-days-of-web-analytics
leadforensics.com/web-a
en.wikipedia.org/wiki/N
en.wikipedia.org/wiki/P
en.wikipedia.org/wiki/T
https://en.wikipedia.org/wiki/IntergalacticComputerNetwork
en.wikipedia.org/wiki/J
en.wikipedia.org/wiki/W
en.wikipedia.org/wiki/A
en.wikipedia.org/wiki/W
leadforensics.com/web-a
en.wikipedia.org/wiki/G
en.wikipedia.org/wiki/U
media.people.com.cn/n/2
old.geekpark.net/topics
http://web.archive.org
pcworld.idg.com.au/arti
iheima.com/article-1481
williamlong.info/archiv
sohu.com/a/32682577_235
meiwen.org/article/7854

數據中臺是企業數智化的新基建,阿里巴巴認為數據中臺是集方法論、工具、組織於一體的,“快”、“準”、“全”、“統”、“通”的智能大數據體系。目前正通過阿里雲數據中臺解決方案對外輸出,包括零售金融互聯網政務等領域,其中核心產品有:

官方站點:
數據中臺官網 https://dp.alibaba.com
數據中臺釘釘群二維碼2.jpg

Leave a Reply

Your email address will not be published. Required fields are marked *