雲計算 – Page 37 – 小科科的春天

深度 | 面向雲原生數據湖的元數據管理技術解析

click / 2021-03-30

背景數據湖當前在國內外是比較熱的方案，MarketsandMarkets市場調研顯示預計數據湖市場規模在2024年會從2019年的79億美金增長到201億美金。一些企業已經構建了自己的雲原生數據湖方案，有效解決了業務痛點；還有很多企業在構建或者計劃構建自己的數據湖，Gartner 2020年發佈的報告顯示目前已經有39%的用戶在使用數據湖，34%的用戶考慮在1年內使用數據湖。隨著對象存儲等雲原生存儲技術的成熟，一開始大家會先把結構化、半結構化、圖片、視頻等數據存儲在對象存儲中。當需要對這些數據進行分析時，發現缺少面向分析的數據管理視圖，在這樣的背景下業界在面向雲原生數據湖的元數據管理技術進行了廣泛的探索和落地。一、元數據管理面臨的挑戰 1、什麼是數據湖 Wikipedia上說數據湖是一類存儲數據自然/原始格式的系統或存儲，通常是對象塊或者文件，包括原始系統所產生的原始數據拷貝以及為了各類任務而產生的轉換數據，包括來自於關係型數據庫中的結構化數據（行和列）、半結構化數據（如CSV、日誌、XML、JSON）、非結構化數據（如email、文檔、PDF、圖像、音頻、視頻）。從上面可以總結出數據湖具有以下特性：數據來源：原始數據、轉換數據數據類型：結構化數據、半結構化數據、非結構化數據、二進制數據湖存儲：可擴展的海量數據存儲服務 2、數據湖分析方案架構當數據湖只是作為存儲的時候架構架構比較清晰，在基於數據湖存儲構建分析平臺過程中，業界進行了大量的實踐，基本的架構如下：主要包括五個模塊：數據源：原始數據存儲模塊，包括結構化數據(Database等)、半結構化(File、日誌等)、非結構化(音視頻等) 數據集成：為了將數據統一到數據湖存儲及管理，目前數據集成主要分為三種形態。第一種為直接通過外表的方式關聯元數據；第二種為基於ETL、集成工具、流式寫入模式，這種方式直接處理數據能夠感知Schema，在寫入數據的過程中同時創建元數據；第三種為文件直接上傳數據湖存儲，需要事後異步構建元數據數據湖存儲：目前業界主要使用對象存儲以及自建HDFS集群元數據管理：元數據管理，作為連接數據集成、存儲和分析引擎的總線數據分析引擎：目前有豐富的分析引擎，比如Spark、Hadoop、Presto等，他們通常通過對接元數據來獲得數據的Schema及路徑；同時比如Spark也支持直接分析存儲路徑，在分析過程中進行元數據的推斷我們可以看到元數據管理是數據湖分析平臺架構的總線，面向數據生態要支持豐富的數據集成工具對接，面向數據湖存儲要進行完善的數據管理，面向分析引擎要能夠提供可靠的元數據服務。 […]

雲計算

城市大腦 | 交通治理

click / 2021-03-30

交通冶理通過整合城市交通相關的多部門信息，基於數據驅動+人工智能的雲計算技術構建大數據時代的城市智通交通系統。通過“感知－研判－指揮－處置”的全閉環流程實現道路交通管理的智能應用。通過平臺進行統一指揮和調度，提高城市交通服務的承載力和運行效率，改善城市運行環境，提升整個城市交通管理服務的智能化水平。解決方案（一）交通態勢感知分析交通態勢感知分析是基於多元融合數據的交通評價體系，對城市交通的宏觀態勢和具體區域、路口、路段的情況進行綜合感知分析，它能夠對設施指標、道路擁堵程度、路口車輛類型、路口態勢、車輛出行特徵等進行數據查看、統計與分析，應用統計與智能化算法，對數據特徵進行分析處理，得到一個及時準確的交通特徵表達。（二）交通信號優化控制交通信號優化控制系統通過對交警數據和互聯網高德數據的融合分析，得到交通綜合評價指標，在此指標基礎上按照單路口、子區、區域三個層次進行信號優化和評估，通過信號配時中心進行處置，並將處置結果迴流到平臺中。（三）AI事件感知推送基於人工智能的事件感知與推送能夠實現“事件感知－預警識別－大數據分析－處置預案推送－調度處置－事件統計分析”全流程的規範化處理，對接情報分析、勤務管理等子系統，實現對交通視頻的智能分析、交通事件的智能預警和智能調度，實現指揮中心傳統業務的智能化提升。（四）公交優化公交優化模型，通過融合信令數據、高德數據、公交數據以及其他可獲得的數據，挖掘出行需求，通過確認出行需求在時間與空間的分佈情況，並結合行業評價指標對公交線網進行綜合評價分析，診斷病症，並結合病症決定公交優化的方向是運力優化還是線路站點的調整優化。如需要運力優化，則結合關鍵站點斷面客流分佈情況，給出優化線路發車時刻及運力投放。如需線路優化，則應結合評價病症指標，給出調整站點、截短還是取消等優化建議。最終將實施效果反饋給系統後，形成閉環效果評估，通過逐步迭代，完成公交線網的優化完善。（五）應急車輛調度與優先通行應急車輛優先通行是通過獲取調度車輛GPS信息和事件地址作為OD（交通起止點）信息，實時為行駛中的車輛規劃路徑，實時預估車輛到達下一個路口信號燈的時間並下發給信號控制系統，信號控制系統進行控燈，從而使得應急車輛可綠燈通過路口信號燈，保障應急車輛的高效行駛。（六）交通公眾服務以支付寶城市服務為入口，利用實名認證、快捷支付、風險控制等多項先進技術，為廣大駕駛員用戶提供車輛違章查詢、處理、繳費及機動車年檢、選號、駕駛證考試預約、違法隨手拍、一鍵挪車等多項交警相關服務，持續深化國家政府機構“放管服”改革，為人民群眾提供便捷服務辦理渠道。（七）“先離場，後付費”的智能化停車管理平臺在整合商圈停車場資源數據的基礎上，與高德導航等主流應用對接合作，將停車需求和場庫車位資源進行精準匹配，進場時直接拍照放行，離場時直接抬杆，自動生成賬單，並推送至車主手機，自行付費，極大提高離場車輛通行效率。（八）重點車輛管理通過整合各職能部門監管系統內重點車輛信息數據，打造統一數據共享底盤；構建區域重點車輛綜治平臺，實現全區域車輛及所屬企業動態畫像，及時發現安全生產隱患；理清各職能部門監管對象、監管職責，實現管理業務流程全在線，實現重點車輛的全流程、全鏈路監管。應用價值（一）降低交通擁堵，提升通行速度

雲計算

達摩院匠心之作MindOpt 優化求解器全新發布

click / 2021-03-26

國內為數不多的自研求解器“達摩院MindOpt”二度刷新世界紀錄，在設立已有20餘年、由美國亞利桑那州立大學Hans Mittelmann教授維護的國際權威測評中，再次獲得世界第一。在Hans Mittleman 的單純形法測試上，達摩院Mindopt 以平均40秒一題的速度成功求解了全部40個線性規劃問題，其中最大的問題規模有115萬個變量，75萬個約束條件。MindOpt在雲計算資源的調度中充當最強決策，節約了數億元的成本投入，並有望助力電力系統的優化和提升。2021年伊始，達摩院MindOpt向全社會開放，成為中國第一個免費開放的商用求解器。立即體驗：https://tianchi.aliyun.com/mindopt 本期“DAMO凸透鏡”的“科學探講人”李永樂老師和達摩院決策智能實驗室王孟昌老師將帶我們打開求解器這個神祕的“數學黑盒”。

雲計算

阿里雲肖力訪談實錄：雲安全推進者之路

click / 2021-03-26

在互聯網與人們生活關係如此密切的今天，網絡像水、電一樣走進千家萬戶，成為生活必不可少的一部分。網絡安全引發的問題日益普遍，其危害性愈發嚴重，維護網絡安全已經上升為國家安全戰略。“我和我的網安之路”是對國內網絡安全大咖的系列專訪，他們中有國內頂級網絡安全學者、著名白帽子、CTF挑戰賽冠軍、名校教授、權威測評機構專家、青年創業者等。通過傾聽一線網安從業者真實的聲音，向大家呈現當今網絡安全世界的生動景象。第23篇雲安全推進者之路本期嘉賓：肖力，現任阿里巴巴副總裁、阿里雲智能安全總經理，深耕企業安全體系架構建設，具備近20年的實踐和管理經驗。參與了阿里巴巴、淘寶安全防禦體系的建設、安全技術團隊的組建和管理，並負責阿里巴巴集團安全體系構建，專注於雲計算安全領域戰略方向的研究。 · 索引 · 雲安全推進者肖力：阿里雲助力大中小企業更好地實現雲端化；基礎設施變革帶來的雲原生安全是大勢所趨；目前雲安全在用戶體驗、安全效果和一體化上還有很大提升空間；雲端一體為用戶提供高安全性、高客製化的安全防護體系；多領域配合打造完整的數據安全保護框架；互聯時代下雲安全事業充滿機遇與挑戰，面向未來方可把握髮展脈絡。目錄雲安全的原生動力基礎設施變化帶來安全體系的變化雲安全的發展趨勢零信任理念下的轉變雲上數據安全問題與挑戰雲端一體的優勢互聯時代下的新機遇一、雲安全的原生動力

雲計算

賦能阿里多業務場景，達摩院自研向量檢索引擎 Proxima 公開

click / 2021-03-26

人工智能，簡稱 AI，是計算機發明時就存在的一個技術領域。它的一大核心特點就是可以類人腦地輔助人類工作。其通過一系列數學的方法，如概率論、統計、線性代數等，分析和設計出能讓計算機自動學習的算法。如下圖所示，人工智能算法可以對物理世界的人/物/場景所產生各種非結構化數據（如語音、圖片、視頻，語言文字、行為等）進行抽象，變成多維的向量。這些向量如同數學空間中的座標，標識著各個實體和實體關係。我們一般將非結構化數據變成向量的過程稱為 Embedding，而非結構化檢索則是對這些生成的向量進行檢索，從而找到相應實體的過程。 1.業務場景 1.1 語音/圖像/視頻檢索向量檢索的第一大類應用就是對語音、圖像、視頻這些人類所接觸到的，也最為常見的非結構化數據的檢索。傳統的檢索引擎只是對這些多媒體的名稱和描述進行了索引，而並沒有嘗試對這些非結構數據的內容進行理解和建立索引，因此傳統引擎的檢索結果具有非常大的侷限性。隨著人工智能的發展，AI 的能力使得我們可以快速且成本較低地對這些非結構化數據進行理解，這樣就使得對這些非結構化的數據內容進行直接檢索成為了可能。這其中，很重要的一環就是向量檢索。如下圖所示，以圖片搜索為例，我們先以離線的方式對所有歷史圖片進行機器學習分析，將每一幅圖片（或者圖片裡分割出來的人物）抽象成高維向量特徵，然後將所有特徵構建成高效的向量索引，當一個新查詢（圖片）來的時候，我們用同樣的機器學習方法對其進行分析併產出一個表徵向量，然後用這個向量在之前構建的向量索引中查找出最相似的結果，這樣就完成了一次以圖片內容為基礎的圖像檢索。 1.2 文本檢索向量檢索其實很早就已經在常見的全文檢索中用到了。我們這裡用地址檢索為例來簡單介紹下向量檢索技術在文本檢索中的應用情況和價值。如下圖左邊的例子，我們想在標準地址庫中搜索“浙一醫院”（而標準地址庫中恰恰又沒有“浙一”這個關鍵詞，“浙一醫院”的標準地址是“浙江大學醫學院附屬第一醫院”），如果我們只使用文本分詞（“浙一”和“醫院”），在標準地址庫中是不會找到相關結果的（因為“浙一”這個地址不存在）。但是我們如果能夠利用對人們歷史語言，甚至之前的點擊關聯進行分析，建立起語義相關性的模型，把所有的地址都用高維特徵來表達，那麼“浙一醫院”和“浙江大學醫學院附屬第一醫院”的相似度可能會非常高，因此可以被檢索出來。另外一個例子，如下圖右邊所示，同樣是地址查詢，如果我們想在標準地址庫中搜索“杭州阿里巴巴”的地址，在僅使用文本召回的時候，幾乎沒辦法找到相似的結果，但是我們如果通過對海量用戶的點擊行為進行分析，將點擊行為加上地址文本信息合併形成高維向量，這樣在檢索的時候就可以天然的將點擊率高的地址召回並排列在前面。 1.3 搜索/推薦/廣告在電商領域的搜索/推薦/廣告業務場景中，常見的需求是找到相似的同款商品和推薦給用戶感興趣的商品，這種需求絕大多數都是採用商品協同和用戶協同的策略來完成的。新一代的搜索推薦系統吸納了深度學習的 Embedding

雲計算

攻堅、變革、創新 | 阿里研究員千字細說阿里雲的十年“計算”重構史

click / 2021-03-26

採訪嘉賓：張獻濤、易立編輯：鈺瑩十年前，“IOE”穩穩坐在 IT 架構的 C 位，不容置疑；十年後，上雲成為大勢所趨，雲原生、Docker、Kubernetes 成為主流，以阿里云為代表的國產雲計算不斷追趕，不僅縮短了和國際巨頭的差距，還形成了龐大的“計算”家族。本文，InfoQ 通過阿里巴巴集團研究員、阿里雲智能彈性計算負責人張獻濤，阿里雲智能資深技術專家、阿里雲容器技術負責人易立的講述，還原阿里雲十年“計算”重構史。 “計算”家族悶頭攻堅的那幾年 2008 年 -2015 年，從“去 IOE”到虛擬化架構的全面升級，從初涉容器到全面容器化。 2008 年，雲計算的時代大幕逐步拉開，眾多巨頭加入開啟良性競爭。與此同時，阿里巴巴提出“去 IOE”，這在行業裡掀起了不小的討論。 2009 年，阿里雲成立。當時的雲計算是不太可能使用

雲計算

數字政府 | 政務釘釘平臺

click / 2021-03-22

“政務釘釘”移動政務協同平臺作為數字政府“三端”之一，打造統一入口，打通業務應用，消除數據壁壘，實現跨部門互聯互通和協同聯動，實現組織在線、溝通在線、協同在線、業務在線、生態在線五個在線。打造政務開放平臺和政務應用管理平臺，實現應用快速搭建，解決政府內部跨部門的一件事聯辦，提升政府工作效率，全面打造“數字化在線政府” 解決方案政務釘釘總體框架包含“四橫兩縱”六統一：“四橫”為政務釘釘業務應用提供一體化支撐，包括統建共享的基礎設施體系、能力支撐體系（政務協同支撐、政務數據支撐、管理工作臺、應用管理平臺、應用開放平臺）、智能應用（基礎應用、統建應用、行業應用）和以及承載業務應用的統一門戶體系；“兩縱”為政務協同平臺提供安全運維保障體系、標準規範體系。（一）統一基礎設施承載政務釘釘基礎能力和政務釘釘創新應用的基礎設施資源，包括計算資源、存儲資源、負載均衡、安全資源、中間件資源等。（二）統一應用支撐統一應用支撐構建厚中臺能力，政務協同支撐和數據提供多種引擎工具，有效支撐上層應用快速搭建、數據互聯互通。工作臺實現對組織架構、用戶、消息、權限等統一管理，應用管理和開放平臺實現應用發現、註冊、管理，提供開放組件和共性能力給第三方開發者，助力合作伙伴進行系統整合接入與創新應用開發。（三）N類智能應用在移動業務協同平臺的消息、通訊錄、任務待辦等基礎能力之上，構建省市級統建應用和行業部門個性化創新應用，統建應用由主管部門統籌規劃，滿足各級各部門共性需求；自建應用由各級各部門自行建設。通過應用持續疊加，打造豐富多彩的智慧應用。（四）統一門戶體系提供統一的政務釘釘工作門戶、統一的用戶界面。在統一框架下，各級各部門可結合自身特點，分級管理、部分定製所使用工作門戶。（五）安全保障體系構建統一立體化的安全保障能力，提供政務全鏈路安全防護，包括客戶端安全、應用安全、接入安全、鏈路安全、密碼服務、數據安全、服務安全、基礎設施安全及高可用安全。構建統一的運維服務體系，實現對系統狀態監控、版本更新、容災備份等服務支持。（六）標準規範體系指定一套統一的標準規範。有效指導約束應用接入與應用開發，實現應用對接和系統整合。平臺價值通過四橫六縱建設，實現政府內部“六個統一”：統一入口——橫向打通機構，縱向聯通級別，統一應用入口；統一溝通——政務組織協同在線，公職人員溝通在線；統一安全——等保合規，自主安全，全程可控；統一流程——跨層級，跨部門系統管理和服務；統一賬號——一個賬號，一次登陸，一致權限；統一標準——統一政務標準，規範應用建設。最佳實踐（一）浙政釘 “浙政釘”作為全國最大的政務協同辦公業務平臺，覆蓋浙江全省11個地市、90個縣（市、區）、1375鄉（鎮、街道）、28568村（社區）以及近70000個小組（網格），接入各級組織節點30餘萬個，激活用戶130餘萬，日活躍用戶80餘萬，日均消息數180餘萬條，建立工作群20餘萬個，已上線移動應用1千餘個。 “浙政釘”利用通訊、辦公、協同三大能力，充分發揮安全可靠、溝通高效、信息必達等特點，助力經濟調節、市場監管、公共服務、社會管理、生態環境保護等政府職能數字化轉型。實現政府各條線應用整合，微應用快速接入，建立了浙政釘應用集群。並在平臺上打造了機關內部“最多跑一次”、“掌上執法”等一批效果顯著的標杆應用。 “浙政釘”在安全合規、國密加密體系、端對端信源加密、自定義水印、保密安全教育等方面走在行業前列，通過了國家等保三級和密評三級。並在國產化替代領域積極謀劃、提前佈局、勇於開拓，目前正在浙江落地實施，走在了全國前列。

雲計算

Kubernetes彈性伸縮全場景解讀（八） – 定時伸縮組件支持運維模式

click / 2021-03-22

前言定時伸縮（cronhpa）是很多開發者在解決負載週期性時最常用的方法，通過類似crontab的語法可以在一個時間點定時觸發伸縮活動。crontab的語義表達是很強大的，但是也存在語法複雜，執行計劃容易被打斷等問題。為了解決上述的問題，定時伸縮（cronhpa）提供了運維模式，支持通過運維頁面來查看底層排隊的定時任務，同時也提供了API接口用於開發者自研的平臺接入與集成。定時伸縮組件運維模式介紹當通過ACK的應用目錄或者開源社區的模板下發最新版本定時伸縮組件（cronhpa）後，默認在8000端口就已經開啟了運維模式。我們先給定時伸縮組件（cronhpa）創建一個svc用來訪問運維頁面。 apiVersion: v1 kind: Service metadata: name: kubernetes-cronhpa-controller namespace: kube-system spec: ports: – port: 80 protocol: TCP

雲計算

運維真的被雲革命掉了嗎？

click / 2021-03-22

文 | 阿里雲彈性計算團隊這是最好的時代，運維向更專業的方向發展。 “Ops 之前不是一個專業，它只有經驗，現在是在把經驗變成專業，對外提供標準化服務。”—— 阿里雲彈性計算穩定性負責人鹿棠我的同事、阿里雲彈性計算穩定性負責人鹿棠，他相信，這個是讓運維真正走向專業化的時代。運維人員憑藉著自身的技術和經驗，為企業降本增效，而非人工救火隊。這是最壞的時代，不少運維人陷入了職業危機。運維人員似乎也陷入了極致的內卷之中。最早憑几行腳本和深厚的經驗就不愁就業，到如今各種學不完的運維工具，不僅需要上知業務架構和代碼，還需下懂內核和硬件。隨著雲計算、DevOps 等技術趨勢的普及，運維人員面臨著越來越多的挑戰，他們從前所面臨的問題和工作方式，也在重新被定義。本文將討論以下三個方面 ↓ 運維工作所面臨的新變化新趨勢在雲計算時代大潮下運維人員的工作邊界與路徑是如何被重新定義一個好的運維體系應該具有什麼特徵一，運維面臨的新趨勢回顧歷史，除去早期大企業內部的少量 IT 運維人員，中國運維行業的興起應該是隨著互聯網行業上個世紀

雲計算

虛擬雲桌面中RDS、VDI技術比較

click / 2021-03-22

提起雲桌面，人們的反應都是聽起來很高大上，但是用戶體驗很不友好！應用卡、刷屏、在線視頻不流暢、偏頭疼也是它造成的。的確，市場上不少的雲桌面使用體驗不佳這一方面是商家誇大了宣傳效果導致的。首先，什麼是雲桌面。雲桌面是指使用雲終端設備通過網絡運行遠端服務器桌面的計算機解決方案。與傳統PC不同的是，雲桌面的所有數據計算和存儲集中在遠端服務器，雲終端僅僅顯示桌面圖像，和負責鍵盤、鼠標等外設輸入輸出操作。雲桌面的特點： 1.服務器-集中運行，集中管理； 2.雲終端-不運行軟件，不儲存數據。下面，就來看看兩種主流的雲桌面。 1、RDS（Remote Desktop Services，遠程桌面服務），俗稱共享雲桌面其原理是基於多用戶操作系統。根據用戶數量配置服務器，然後在已安裝了操作系統的服務器上安裝共享雲桌面的管理軟件，再批量創建用戶，通過雲桌面傳輸協議分發到各個客戶端上，每個登錄用戶共享一套系統和軟件，獨立操作，互不影響，如win10中開啟遠程控制和多用戶即可。小結：客戶端本地不運行軟件，也不存儲數據，服務器集中運行，集中管理。適合人群：學生、上班族 2、VDI（Virtual Desktop Infrastucture，虛擬桌面架構），俗稱虛擬雲桌面 VDI的核心是雲桌面的計算存儲網絡在服務器端完成，通過專有協議連接雲桌面。 VDI服務器，安裝Hypervisor，虛擬成N個不同的虛擬機，安裝不同需求的操作系統和軟件。基於其架構特性，VDI的計算和存儲，自然都集中在了服務器端，優點：