大數據

大數據

提升數據安全,讓人工智能更可信

京東探索研究院院長陶大程曾經做過一個實驗:在道路交通牌上貼一個小廣告,結果無人駕駛系統進行了誤判,“由於缺乏可解釋性,也限制了人工智能更廣泛的應用和賦能”。這是“雙面”人工智能的一個切面:一方面,運用機器學習等人工智能技術,能夠實現數據的識別保護、數據安全溯源等功能,提升了數據安全的防護能力;但另一方面,人工智能也會帶來新的安全問題,如過度採集數據,甚至產生算法歧視、“數據投毒”等。 新技術安全問題再受熱議,如何讓人工智能更可信?近日在上海舉行的世界人工智能大會上,眾多專家學者不約而同地關注到這個問題,指出人工智能在數據和網絡安全中不可忽視的一面。 新型安全問題不容忽視儘管我國已經躋身於世界人工智能的第一方陣,但是在人工智能發展與安全方面,依然面臨嚴峻的考驗。 全國政協社會和法制委員會副主任陳智敏指出,數字信息的過度採集和非法使用,可能侵犯公民的權利和隱私;算法的偏好可能加劇社會的偏見或歧視,威脅公平正義。 信息被竊取、盜賣,則可能引發更嚴重的刑事犯罪。他列舉了一組數據:當前我國電信詐騙案件處在高發期,在一些地方已經佔了所有刑事案件的一半以上,超過傳統的盜竊案件。 “機器深度學習難以理解人性的道德,比如說,無人駕駛汽車緊急避險等智能決策可能威脅特定人群的生命。”他說。 算力、算法、數據,是人工智能三要素,人工智能也引起了新型數據安全的問題。國家工業信息安全發展研究中心副主任何小龍指出,人工智能的算法對數據具有較強的依賴性,可能會帶來“數據投毒”等類似新型的數據安全挑戰。 所謂數據投毒,指的是在訓練數據其中加入了偽裝數據或者惡意樣本,破壞數據完整性,造成算法模型結果的錯誤。“比如說原來微軟的聊天機器人Tay就發佈過歧視性和攻擊性言論而被關閉,主要原因就是在對話數據集裡面被惡意增加了不當的數據。”何小龍說。 其次是樣本偏差問題。基於基礎數據集多樣性和代表性不足,會導致人工智能的算法隱藏特定性的社會價值傾向或偏見,輸出不公平結果。 越來越多的開源框架也引發了新的風險,“比如在一項目針對主流開源架構的安全測試,我們在短短時間內發現了24個安全問題,其中包括2個嚴重危險漏洞和8個高危漏洞。”何小龍說。 “事實上,人工智能應用當中帶來了很多風險,包括自身的算力、算法帶來的脆弱性,也包括人工智能在應用中的魯棒性(異常和危險情況下系統生存的能力)、可解釋性、公平性問題。這些新技術在和原有業務相結合時,可能會給原業務或者系統帶來巨大的系統性風險。”上海市委網信辦總工程師楊海軍說。 如何為人工智能“定責”“當人類把思考、控制甚至決策外包給了算法,人工智能首先要做的事情就是如何證明自己是值得信賴的。”中國信通院雲計算與大數據研究所所長何寶宏說,值得信任的人工智能已成為全球的共識。 那麼,什麼樣的人工智能才是可信的?不同的機構對此有不同的理解,根據IEEE(電氣與電子工程師協會)提出“透明性”,以正確的方式使用技術,以人為本明確責任、造福人類;歐盟則提出魯棒性、安全性、人類的監督和干預、明確責任等等。2017年底,何積豐院士在香山科學會議上在國內首次提出了“可信人工智能”概念。 目前,世界各國不約而同地廣泛關注可信人工智能。陶大程介紹,它匯聚成了四個主要的性能,從四個方面度量這個可信,一是穩定性,即人工智能系統在抵抗惡意攻擊或者是環境噪聲並且做出正確決策的能力;二是可解釋性,就是人工智能系統做決策的過程中,需要用人能夠理解的方式解釋是怎麼做這些事情的;三是隱私保護,即人工智能系統不會把個人的隱私信息或者群體的隱私信息對外洩露;四是公平性,就是系統需要公平公正,正確對待所有的用戶,無論是針對大眾用戶還是小眾用戶,男人還是女人。 而針對自動駕駛事故這一複雜事件,也可以按照這個邏輯不斷拆解:系統出現問題,需要知道為什麼,誰來承擔責任,並以怎樣的方式承擔等等,都需要有明確的指標,度量可信人工智能。 上海交通大學約翰·霍普克羅夫特計算機科學中心副教授張拳石就介紹,如果自動駕駛汽車發生撞人事件,首先在確定責任之前,要先知道系統的真實原因,可能20%的原因為了避讓另外兩個人,還有10%的原因可能涉及時間檢測算法模塊的失誤,界定清楚了內在的機理原因,再給法官判斷。 螞蟻集團副總裁、首席AI科學家漆遠談到,人工智能的公平性表現在多個地方,比如一個很重要的社會問題事關普惠性,即技術的包容性、服務平等性。他舉了一個例子:驗證碼本來是為了提升安全,但它本身會導致視障人群不能使用,於是支付寶開發空中手勢;用人工智能技術進行舊物分類回收,能夠識別哪一類舊衣服哪一類回收得多,給用戶更多的能量進行螞蟻種樹,螞蟻集團也承諾將在2030年實現淨零排放。 加強可信AI技術攻關應對人工智能安全挑戰,各國都在積極採取措施。在我國,從頂層設計來看,最新頒佈的《數據安全法》,將於9月1日開始正式實施,它為規範數據處理活動、保障數據安全提供法律依據。 此外,相關部門面對人工智能的重要領域也提出了詳細的管理規定和管理框架,提出了針對性的數據管理的要求。 如今年3月份,中國人民銀行印發《人工智能算法金融應用評價規範》;2021年4月,工業和信息化部《智能網聯汽車生產企業及產品准入管理指南(試行)》,對各個領域人工智能安全的保護提出了相關的要求。

大數據

我國加速推進AI醫療器械標準化

今年是新修訂《醫療器械監督管理條例》施行的第一年,企業主體責任更加突出,產品的驗證與確認活動趨於多元化,業界對標準規範的需求更加強烈。在國家政策與監管科學研究支持下,國內獲批上市的醫療器械產品數量持續增加,影響力不斷增強,臨床轉化與推廣步伐加快。與此同時,國外醫療器械法規、監管政策與標準化研究處於新的活躍期,將對我國相關工作的開展帶來有益啟示。國際AI醫療器械監管趨嚴 當前,AI技術作為熱點創新技術,廣泛應用於包括醫療器械在內的各行各業,各國對人工智能的監管認識與法規建設不斷升級。 今年4月,歐盟就監管人工智能的使用公佈立法框架,提出人工智能風險分級管理理念。其中,人工智能的醫學應用被劃入高風險等級,預示著歐盟對人工智能醫療器械的監管將趨於嚴格。該立法框架與歐盟在2019年所提出的“可信賴的人工智能”倫理理念一脈相承,從人與人工智能的關係出發,旨在強調和保護人的安全、權益和公平。 今年1月,美國食品藥品管理局(FDA)發佈《基於人工智能/機器學習的醫療器械軟件行動計劃》(以下簡稱《計劃》)。《計劃》迴應了2019年FDA發佈《基於人工智能/機器學習的醫療器械軟件變更監管框架》後收到的社會反饋。在質量管理方面,該《計劃》繼續研究軟件持續學習背景下的預定義變更控制的指南草案,開發良好機器學習規範以評估和改進機器學習算法。在監管要求方面,該計劃提倡以患者為中心的路徑,包括器械對用戶的透明度,與歐盟的立法框架存在相通之處。在質量評價方面,該計劃重視對算法偏倚和魯棒性的評價,推動真實世界性能監測的試點。 今年,國際醫療器械監管機構論壇(IMDRF)的人工智能醫療器械工作組組織了多次線上會議。各個國家和地區監管機構的代表圍繞基於人工智能/機器學習的醫療器械術語文稿的編制展開了細緻的討論。其中,歐美國家和地區關注“持續學習”“算法變更”等關鍵詞,重視良好機器學習規範在質量管理中的作用,值得關注。 根據國外的發展趨勢,人工智能倫理思想、全生命週期質量管理理念、產品快速更新的需求等因素對人工智能醫療器械的標準化可產生較大影響,產品的測試思路也在轉型,與傳統計算機輔助診斷軟件產品的差異越來越大。 我國AI醫療器械標準化進程加快 2020年,我國首批人工智能醫療器械行業標準《人工智能醫療器械 質量要求與評價 第1部分:術語》和《人工智能醫療器械 質量要求與評價 第2部分:數據集通用要求》已經進入報批階段。 《人工智能醫療器械 質量要求與評價 第1部分:術語》旨在為人工智能醫療器械的質量評價提供基礎通用的術語,為後續標準的起草提供字典。該標準在基礎共性技術、數據集、質量評價指標、質量評價方法、應用場景等方面列出100多個詞條及定義,並以附錄的形式給出部分公式。 《人工智能醫療器械 質量要求和評價 第2部分:數據集通用要求》旨在把數據集納入人工智能醫療器械的質量評價體系,明確數據集的評價對象及技術路徑。該標準借鑑了醫療器械、信息技術、臨床試驗等領域對數據質量的管理思路,結合對人工智能可解釋性、可溯源性等方面的需要,提出數據集的描述文檔、質量特性、風險分析文檔等方面的要求,並給出評價方法。同時,中國食品藥品檢定研究院(以下簡稱中檢院)聯合中華醫學會放射學分會、國家衛生健康委能力建設與繼續教育中心等共同發佈《胸部CT肺結節數據集構建及質量控制專家共識》,為標準的落地提供參考。 根據國家藥監局公示的標準制修訂計劃,2021年中檢院作為歸口單位圍繞“人工智能醫療器械 質量要求和評價

大數據

業務連續性管理最佳實踐

業務連續性管理最佳實踐 1、背景 2、什麼是業務連續性管理 3、最佳實踐經驗 4、最佳實踐案例 說明:本文根據付來文老師在 GOPS 全球運維大會 2021 · 深圳站的演講速記整理而成。 作者簡介 付來文,花名“鬱鬆”,2013年加入阿里巴巴,多年來專注於業務連續性管理領域,見證了服務於阿里經濟體的業務連續性管理體系發展。現負責阿里雲一站式服務管理平臺(AIOS)產品及服務,幫助雲上企業解決數字化轉型所需的實時運營及管理問題,保障業務連續性,降低服務成本。 本文介紹更偏業務連續性管理領域的事情,將從兩大塊進行介紹: 一是業務連續性管理的邏輯,不止是業務連續性,而是業務連續性管理,是最佳實踐,包括背景及定義; 二是闡述一下我理解的業務連續性管理,也是我們在實踐中沉澱下來的體系,包括實踐經驗和實踐案例。 1、背景 去年由於疫情所催發的社會現象,相信大家或多或少都有一些感受。我是從杭州過來,昨晚看到新聞說深圳又發現一例,我還擔心回不去杭州了:) 健康碼也好,直播教學等等,都是疫情所催生的非常典型的業務應用場景。我不知道今天在座有多少同學真正參與到這個業務過程中去?疫情孵化的機會很短暫,但是如果抓住這個機會,對企業的發展有非常大的幫助,最典型是直播帶貨和在線教育。 我個人認為,之前在線教育發展趨勢可能會趨於平緩(整體來說),但是疫情把它又帶起來了。有一個典型的例子,去年在疫情的時候,因為直播教學非常火,有一家公司原來服務非常多的學校,有很多的高中生、中學生、小學生在學校上學,現在由於疫情需要轉移到線上。他的系統假設只能承載X萬人同時在線,疫情帶來了業務增長10倍的機會,但是生產環境在IDC裡面怎麼來快速承載?今天都在提數字化轉型,包括疫情這樣的突發事件帶來的機會,但當機會真的來臨時,在座的同學是否準備好相關的能力去迎接好這樣的機會?從X萬的最高承載量忽然提升10倍,今天我們的經驗和能力是否足夠?尤其是從運維角度,是否能夠幫助公司業務支撐好這個增長規模?這給運維帶來非常大的挑戰。直播帶貨也是一樣,很多電商公司想抓住這個風口,今天我們能否在很短的時間內利用成熟的商業化技術及產品快速搭建一套直播系統,5天搭建和50天自研是兩回事。數字化轉型帶來了非常多的挑戰,今天舉手說用到公有云的公司只有一小部分,我相信上雲趨勢一定會越來越突出。另一個層面,怎麼在數字化轉型的過程中保障好業務連續性。所以每次社會變革都孕育著一些機會,在每次變革過程中,例如第一次工業革命在英國,第二次在美國,都對世界格局帶來很大的變化。那在這次數字化變革過程中,也一定有很大的機會。

大數據

以dataphin為例,看阿里雲數據中臺如何助力金融行業數智化轉型

-更多關於數智化轉型、數據中臺內容請加入阿里雲數據中臺交流群—數智俱樂部 和關注官方微信公總號(文末掃描二維碼或點此加入) -阿里雲數據中臺官網 https://dp.alibaba.com/index   今年正值三年發展規劃的收官之年,包括銀行、證券、保險在內的金融機構的數字化轉型的緊要性進一步凸顯。   阿里巴巴雲上數據中臺負責人王賽在今天舉行的2021阿里雲金融數據智能峰會上透露,阿里巴巴數據中臺建設的經驗,或許可以給金融企業數智化轉型帶去一些借鑑。 阿里巴巴雲上數據中臺負責人 王賽   阿里巴巴數據中臺建設的6道經驗   2015年,阿里巴巴正式提出數據中臺戰略,這也是數據中臺這一概念在國內首次亮相——但在更早之前,阿里巴巴其實就有動作。   王賽表示,早在2011年,阿里巴巴就重新梳理並重建了內部數據團隊,以“業務版塊+分析維度”為架構構建數據中心。2013年,統一的數據服務中間件OneService正式誕生,經過深度加工後的數據可以由OneService為前端各業務提供統一的數據服務。   在他看來,阿里巴巴數據中臺建設絕不是一簇而就,而是面對阿里巴巴集團內部複雜場景以及多樣需求,必須完成的一條數智轉型通路。   這些場景和需求可以歸納為六大類,分別是:數據質量與安全、數據價值、產品工具沉澱、成本管控、組織與運營、質量與考核。   數據質量與安全主要集中於四方面,首先是一致性,面對同一份數據,各個業務的定義口徑不一致,這為後期開發、分析、應用帶來極大困擾,因此數據中臺首先要解決的就是指標標準化定義,並在此基礎上實現代碼總動化構建和數據結果產出;其次,是數據資產深度問題,通過數據深度融合與打通,數據中臺能夠為業務一線員工提供全方位的市場信息,並進行價值評估;再次,是保障數據及時性,通過數據運維基線管理和移動辦公協同,數據中臺能夠保證業務部門及時獲取多維過程及結果數據,即便是在移動辦公場景,也能保證可實時查看相關數據;最後,是聚焦數據流通安全,核心要解決數據安全審批權限定義和在保障數據安全的基礎上較少審批工作量兩項問題,阿里巴巴數據中臺的解決方案是在引入數據安全等級打標的基礎上,實現數據智能審批,通過可信模型構建和風險量化,讓智能流程代替繁瑣人工。   另一方面,數據價值主要體現在通過數據賦能,幫助平臺增長、商家成長和員工提效。   值得注意的是,阿里巴巴數據中臺建設的過程當中衍生出非常豐富的產品矩陣,用以應對繁雜的業務場景和個性化的崗位需求,如針對雙11場景的媒體大屏、面向管理層決策的分析類數據產品等等。   同時,積極建設數據人才培養體系,成立“數據委員會”讓各業務數據崗位員工可以形成高效聯動與信任,並凝鍊、傳播科學有效地數據文化。   而在整個數據中臺建設的過程中,王賽強調,“我們還提煉出數據中臺價值地顯性化表達,從用戶價值與體驗、資產沉澱、經營等多方位視角,來反覆驗證KPI、人員及預算地設定,這是一個動線過程。”  通過阿里雲全面輸出數據中臺能力   阿里巴巴數據中臺在歷經多年內部實踐後,於2018年正式通過阿里雲全面對外開放數據中臺能力,迄今已在金融、零售、政務、互聯網等行業成功落地。

大數據

乾貨|數據庫自治服務DAS首創SQL請求行為識別功能,全自動定位SQL異常

業務背景: DAS(Database autonomy service)為上百萬數據庫實例的穩定運行保駕護航,其中精準定位數據庫運行過程中的異常SQL是DAS最基本的功能。數據庫90%以上的問題都來源於數據庫的異常請求,無論是雙十一的集團海量交易請求行為,還是用戶業務變化導致的請求行為變化,每時每刻都影響著數據庫的性能。自動駕駛汽車通過感知路況圖像變化的行為來掌握車的方向,而自動駕駛數據庫通過感知和識別用戶請求行為來不斷修復優化數據庫的各種問題,為雲數據庫保駕護航。如何從海量數據庫中的海量請求定位出不同數據庫引擎不同場景的問題是多年以來困擾DBA的難題。在推薦領域,通過分析用戶的行為習慣代替了機械式網頁展示精準推薦給用戶期望的文字/視頻/產品,提升用戶體驗和產品轉化率,同樣下一代數據庫自動駕駛平臺也需要分析用戶請求行為,業務變化行為,推薦出相應優化修復擴容等操作,提升自動駕駛數據庫的效率,讓數據庫更快更穩更安全。所以從用戶請求行為和業務行為出發,在海量數據庫實例的海量請求中進行數據挖掘是一個非常值得深入研究的課題,同時也是數據庫自動駕駛平臺非常依賴的底層技術能力, 向上支撐DAS數據庫自治服務各個場景的自治能力。 DAS這這些年提供了多個對SQL數據進行分析的L2功能包括:專業版SQL洞察,全量SQL,慢日誌, 一鍵診斷, 鎖分析,會話等。每一個功能沉澱了DBA在不同角度分析不同問題的方法,不同實例,不同業務診斷問題的方法略有不同。對於並不是很熟悉DB運維的用戶來說,DAS在提供一個統一高效簡單的方式去幫助用戶去定位問題。我們結合SQL變慢的多指標特徵,提出一種基於特徵相似度匹配的方法 VLDB 2020 集成到自治中心功能當中, 但對於異常SQL中存在的業務屬性的相似性以及錯綜複雜的影響與被影響的關係,理清楚問題SQL與各種資源的異常現象的傳播關係是具有挑戰的問題,DAS團隊仍然在如何找到異常SQL這個課題上繼續進行了研究和探索,在探索的過程中我們提供了一個新的分析功能SQL請求行為識別幫助用戶更好的定位SQL問題。 問題描述: 以下圖為例,實例CPU出現尖刺突增的現象,數據庫有cpu打滿潛在風險,當用戶的請求量較少或者請求的SQL模式較少的時候,通過指標的排序篩選是很容易找到問題SQL的,但當用戶的全量SQL模板超過上萬甚至上億條,用戶通過當前DAS頁面無法快速定位異常SQL,我們需要通過更多數據提供更高效的方式,來定位異常請求。 當用戶使用DAS專業版SQL洞察的功能的時候,即使我們將全量SQL流水,聚合成SQL模板,SQL模板的數量也是相當龐大的,我們可以看到大量特徵趨勢相近的模板。所以如果我們根據SQL的請求行為將模板進一步壓縮,這樣用戶可以更清晰的搜索SQL模板。 目前DAS產品功能和業界雲廠商都有初步的異常SQL定位能力,功能大同小異,都是通過對採集的SQL數據在各個維度的排序,讓用戶自己定位數據庫問題,這種方式對於60%以上簡單的數據庫問題是可行的,但是在複雜業務場景和DBA都很難定位的數據庫問題效果是很差的。例如,數據庫請求SQL模板數量幾萬~幾億的數量級,單純依靠多維指標的排序搜索很難快速定位問題,所以通過對用戶請求行為的分析,可以更好的幫助解決我們複雜場景的數據庫性能問題,提高整個數據庫各個引擎的穩定性,易用性,效率。 挑戰&難點 規模化挑戰:用戶的業務請求豐富,如何從海量數據庫實例中的海量請求中定位多種數據庫引擎的性能問題。 監控診斷挑戰:針對潛在的SQL請求導致的數據庫性能問題,根因定位需要做到近實時問題定位 繁雜的數據庫異常現象: 異常指標通常與多條SQL請求有關,無法用單條SQL來解釋異常原因且多個業務的SQL請求之間相互影響,關聯的問題包括全表掃描/索引/鎖問題/緩存擊穿/內核問題等。多個問題在指標現象存在相似性和不同 幫助DBA或用戶解決性能問題,工單問題 幫助後端開發人員合理安排請求查詢的流程,儘量讓資源密集型請求從業務角度打散

大數據

產品解讀 | 敏捷版數據庫場景(DBStack)一站式快速構建企業全場景數據庫管理平臺

Gartner 的報告顯示預計到2022年將有75%數據庫將採用雲數據庫,與此同時,IDC預計到2024年傳統部署數據庫市場將達到13億美元,企業數字化轉型升級,積極擁抱開源、雲原生數據庫成為重要趨勢,也是必然選擇。 目前阿里雲數據庫在公有云市場佔有率已超過50%佔據半壁江山。2020年阿里雲數據庫成為唯一一家進入Gartner數據庫魔力象限領導者象限的中國廠商,榮佔亞太第一全球第三的位置。 為了更好的服務於傳統部署的數據庫市場,更全面的為雲化各階段政企服務,阿里雲混合雲與數據庫團隊聯合重磅推出敏捷版獨立場景輕量化單品:敏捷版數據庫場景(DBStack)。   產品介紹 敏捷版數據庫場景(DBStack),是阿里雲提供的集交易、分析、傳輸、治理於一體的企業級雲數據庫管理平臺,幫助企業快速構建穩定、安全、經濟的全場景數據庫解決方案,幫助企業快速升級如Oracle、DB2、Teradata等傳統數據庫與數據倉庫。 敏捷版數據庫場景 DBStack產品矩陣 核心功能 DBStack數據庫管理平臺提供的數據庫引擎方服務包含阿里巴巴自研的雲原生Oracle高兼容性數據庫PolarDB-O、雲原生分佈式數據庫PolarDB-X、雲原生分析型數據庫AnalyticDB等,也包含開源數據庫MySQL、Redis等,以及阿里自研的豐富的數據庫生態工具如DTS、DMS、ADAM等。   敏捷版數據庫場景(DBStack),針對所有的數據庫服務提供統一的智能化的管理服務,包括提供數據庫實例管控能力的DBaaS服務,提供如實例生命週期管理、備份恢復體系、安全加密管理、數據庫日誌和SQL審計、監控告警、高可用管理等核心特性,同時也包括提供DBStack平臺級的運維管理(Manager),提供如安全流程(如賬號安全)管理、外部設備系統管理、主機管理、數據庫實例任務管理、實例資源管理、容災管理和平臺升級擴容等服務。即平臺分為使用數據庫服務和管理平臺服務,用戶可通過系統的控制檯、OpenAPI、SDK等控制鏈路訪問管理平臺,通過實例提供的訪問連接訪問數據庫服務。   產品優勢 敏捷版數據庫場景(DBStack),產品優勢包含四個方面,包括豐富的數據庫引擎服務、完備的數據庫生態工具、跨平臺的部署能力、和雲原生的管控體系。 <1> 引擎豐富:DBStack中提供全域數據庫引擎,涵蓋OLTP、OLAP、和NoSQL的數據庫服務,還有分佈式數據庫和Oracle高兼容數據庫,滿足企業數據庫的絕大多數場景數據庫需求。   <2> 工具完備:DBStack的數據庫生態工具體系,包括數據管理、數據庫和應用遷移工具、數據傳輸。數據管理提供用戶管理數據庫內對象和數據管理。數據庫和應用遷移工具評估從傳統數據庫遷移升級到DBStack的兼容改動點。數據傳輸包括的數據的遷移、同步和訂閱,遷移是指從其他數據庫遷移數據到DBStack,或者遷移數據到其他數據庫,同步是指多個數據庫之間的不間斷數據庫同步,訂閱是指提供其他系統從數據庫訂閱數據的方案。   <3> 跨平臺部署:DBStack具備跨平臺部署的特性,可以部署到物理服務器或者虛擬機中,支持多種操作系統,如Linux和國產操作系統。  

大數據

社區內容流量調控系統設計——成本與指標平衡的背後

作者:閒魚技術——司遠 背景 在閒魚,除了可以進行閒置交易,當你點擊第二個tab“會玩”後,還會發現一個好玩、有趣的內容社區。內容分發作為社區的重要環節,核心目標是實現內容與用戶之間的匹配效率最大化,核心指標就是內容的點擊率(CTR)和停留時長,這也正是算法推薦模型的優化方向。然後運營在內容分發環節有著各種各樣的需求,主要有以下幾類: 活動運營:對於社會熱點、節日氛圍和品牌活動相關的內容,運營需要進行提前佈局,給予更多流量。 社區生態:存量的內容由於歷史積累的行為數據更多,更容易被算法推薦,導致流量分發存在馬太效應,內容新鮮度不夠。同時對於擦邊球的內容,雖然CTR很高,但是從長期平臺生態來看,需要限制其流量。 流量扶持:對於核心內容創作者、BD作者,運營需要進行一定的流量扶持,長期來看可以促進內容供給。 如果單純依賴推薦算法實現以上需求會帶來2個問題,一是開發成本高,二是有的運營需求短期會帶來核心指標的下降,和算法模型的優化目標是衝突的。因此我們設計了一套流量調控系統,面向運營提供靈活的流量調控能力,在內容分發時打通推薦算法,快速實現運營需求,同時兼顧核心業務指標。 系統整體設計 運營的需求整體可抽象為兩類: 針對具體內容的流量調控任務,核心是對具體內容,在具體時間、具體分發場景、針對具體目標人群、實現具體的調控目標(曝光量)。 基於規則的流量調控,即當特定事件發生時,自動生成流量調控任務。比如當特定等級的創作者發佈了特定質量的內容時,我們在一階段給與一定的曝光量,如果曝光目標完成後,同時CTR指標達到一定標準,會再次給予一定的曝光量。 針對上面的需求,我們設計了策略鏈路動態創建具體調控任務,然後通過調控鏈路實現調控任務的管理和調度,同時調控鏈路也支持運營手動創建調控任務。 分發鏈路則打通了推薦系統,在完成調控任務的同時,儘可能的優化核心指標。 流量數據處理服務負責採集用戶的曝光埋點數據,為流量調控模塊提供實時的調控任務狀態更新,同時沉澱數據資產,供流量洞察分析使用,最終在流量策略中心運營後臺為運營提供決策支撐。限於篇幅,這部分內容後續有機會再和大家分享。 具體方案實現 策略鏈路 策略事件接入將各種異構的消息事件進行歸一化處理,形成標準的策略事件,供後續的各種策略執行器進行訂閱。運營的各種調控策略被抽象為標準的策略處理器(StrategyManager),當監聽到策略事件後,策略路由器將其轉發給訂閱了該事件的策略執行器,策略執行器處理事件,創建相應的調控任務。 調控鏈路 調控任務生成後,經過任務調度,實時同步到算法所需的調控內容池(採用圖數據庫存儲),進行後續的內容分發。當內容在指定的分發場景曝光後,數據採集模塊會實時採集客戶端上報的用戶行為日誌埋點,進行3部分操作: 通過處理產生曝光、點擊等數據指標並存儲。

大數據

Java 之經典鎖 Lock ——《我的Java打怪日記》

Doug Lea 大牛在 JDK1.5 併發包 java.util.concurrent.locks 中增加了新的併發編程接口 Lock (以及相關實現類)。Lock 提供了與 synchronized 關鍵字類似的同步功能,但需要在使用時手動獲取和釋放鎖。 Lock 接口方法 void lock():如果鎖已被其他線程佔用,則進行等待,異常時不會自動釋放鎖 boolean tryLock():如果當前鎖沒有被其他線程佔用,則獲取成功,返回 true;否則獲取鎖失敗,返回 false

Scroll to Top