大數據 – Page 2 – 小科科的春天

近10年數據智能團隊建設，聯想總結了由內而外的發展經驗 | 專訪聯想集團副總裁田日輝

click / 2021-10-23

去年6月，聯想集團公開宣佈，成立數據智能業務集團（Data Intelligence Business Group，DIBG），由藍燁擔任高級副總裁，直接向楊元慶彙報。同時，聯想集團副總裁田日輝負責數據智能業務集團的產品和生態業務，彙報給藍燁。在當時寫給數據智能業務集團的內部信中，聯想集團董事長兼首席執行官楊元慶表示，“在大數據積累的基礎上成立聯想數據智能業務集團，是為了加速智能化變革，是實施聯想行業智能（Smart Verticals）戰略的重要舉措。” 這也是一直被外界譽為信息化標杆企業的聯想，向數據智能領域延伸業務的一次重要的商業佈局。其實聯想內部廣義上的信息化早在2000年左右就開啟了。經過20多年的信息化實踐和積累，聯想目前的大型主系統有上千套，整個公司服務器加起來有上萬臺，數據鏈量級已經達到十幾個PB。同時，聯想在全球都運營著龐大的上下游生態，在全球兩百多個國家和地區同步進行用戶服務與體系構建，目前有50多家上游企業，2000多家下游渠道企業。經過一年的發展，聯想數據智能業務集團發展如何？聯想集團的數據平臺構建與數據團隊建設又有怎樣的進展？針對以上問題，上個月，我們對聯想數據智能業務集團產品及生態總經理田日輝先生進行了一次專訪。三階段數據團隊建設，打造全價值鏈數據智能平臺在成立數據智能業務集團之前，聯想內部的數據團隊其實已經初具規模，團隊建設也不是一蹴而就的。自2011年聯想開始應用大數據至今，聯想的數據平臺建設主要可以劃分成三個階段：第一階段：企業內部先進數據應用建設；第二階段：在內部和外部構建平臺；第三個階段：構建上下游企業的數據智能生態。 2011年到2015年是聯想數字團隊建設的起步階段。當時的數據團隊還主要是服務聯想內部拓展數據的應用，因此數據團隊的規模很小，只有十幾個人，四年後慢慢擴展到一百多人。田日輝告訴我們，當時團隊研發中國第一款安卓系統手機樂phone，通過應用商店、SBK模擬器、開發環境與數據分析工具等來構建一套大數據體系，進而幫助應用商店開發者收集相關使用數據。聯想的數據團隊最早就是從此入手，幫助應用商店的開發者分析月活、日活與產品質量等數據，持續不斷優化這些智能應用。田日輝表示，在初期內部硬件的生產上，聯想就對於信息化比較重視，是國內首批使用ERP的企業之一，因為自2004年收購IBM 的PC業務後，全球化運作對信息系統的要求較高，IBM原本的很多系統被逐漸廢掉，聯想也構建了自有系統，提升效率。之後隨著這些應用的深入，大數據不僅能在應用層對產品提供優化，企業內部大量的運營數據，對企業產品研發、供應鏈管理、市場營銷還有很多影響，使得數據應用可以擴展到整個延產供銷服務全價值鏈。 2016年到2019年下半年，聯想開始進入了數據團隊建設的第二階段，開始把數據應用大規模進行平臺化和推廣，並開始將能力對外輸出，拓展給外部用戶，並在公司內部構建平臺。 […]

大數據

一週AI最火論文 | 講講話就能控制UI界面上網衝浪？

click / 2021-10-23

本週關鍵詞：機器學習安全性、數據編程、對象再識別本週最佳學術研究提升機器學習系統的安全性：瞭解如何保護機器學習模型對於任何軟件系統來說安全性都至關重要，這也包括機器學習（ML）模型，因為人們可以通過對抗性示例輕鬆地適應從而攻擊該模型。現在研究界對於探索和發現對抗性攻擊已經有了許多文獻和複雜的算法，並提出了一些有可能實施的防禦措施。例如，近日一些研究人員發表的這篇論文：機器學習究竟在網絡安全領域中處於什麼位置？論文鏈接： https://medium.com/ai%C2%B3-theory-practice-business/where-does-machine-learning-stand-in-cyber-security-670e3fe1cda2 但是，根據與華盛頓大學合作和Microsoft Research的一組研究人員的說法，之前對於ML模型安全性的研究大多數的研究對象都是獨立的神經網絡模型。在這份最新的研究報告中，研究人員們評估了大規模部署的ML軟件產品的安全性，希望能夠擴大這一領域的研究範圍，從而提供一個從系統安全性視角出發改進現有軟件產品的方法。它們描述了使用ML組件在軟件中實現系統安全的最佳實踐，並提出了一系列的短期緩解建議，部署機器學習模塊的從業人員可以參考他們的研究來保護軟件系統。原文：https://arxiv.org/abs/2007.07205v1 將自然語言轉化為移動UI操作在ACL 2020上發表的這篇論文中，谷歌AI研究人員展示瞭解決自動動作序列映射問題的第一步：創建三個新的數據集，用於訓練深度學習模型，將自然語言指令應用於可執行的移動用戶界面操作。他們的這一成果為移動設備上的任務自動化奠定了技術基礎，從而減輕了通過UI細節進行操作的需求，這對於視力受損的用戶將非常有價值。他們還開源了其模型代碼和數據管道，以促進研究界的進一步發展。 Github鏈接：https://github.com/google-research/google-research/tree/master/seq2act 原文：https://arxiv.org/pdf/2005.03776.pdf 基於數據編程的工業圖像標籤系統最近發佈的這篇論文提出了Inspector Gadget：一種用於分類問題的可伸縮圖像標籤系統。該系統有效地結合了眾包、數據增強和數據編程技術。Inspector

大數據

還沒搞懂人工智能吧，要不，讓圖靈“親自”給你講講？

click / 2021-10-23

如果給你一個“穿越”的超能力，你最想回到哪個歷史名人身邊聊聊天？牛頓？霍金？還是諾貝爾？儘管穿越時空的技術目前還遙遙無期，但和歷史名人對話的心願已經有人幫你實現了！最近，一個名叫AI Writer的對話網站火遍了外網，在這裡，你可以指定歷史上幾乎所有記錄在冊的名人並且跟他們寫信，AI Writer則可以模仿這位歷史人物的口吻和知識內涵給你回信。比如讓牛頓給你講講萬有引力，讓居里夫人給你講講輻射，或者讓費曼給你講講量子計算機…… 這聽起來有點意思啊，話不多說，快來跟文摘菌一起“穿越”來一探究竟吧！圖靈、霍金、居里夫人，統統都能模仿這個AI Writer可以模仿很多位名人，除了上文中提到的這些名人，還可以問問史上第一位程序員Ada Lovelace分析機和差分機的區別，甚至是一些文學史上的名人，比如英國著名小說家Mary Shelley，可以問問她的長篇小說《弗蘭肯斯坦》是不是反科學的，等等。先來看看效果如何。第一個問題嘛，文摘菌想先問問圖靈。畢竟乍一看，這個項目是在向他70年前提出的“圖靈測試”致敬：測試者與機器隔開的情況下，通過鍵盤向被測試者隨意提問。如果機器讓平均每個參與者做出超過30%的誤判“對面是個人”，那麼這臺機器就通過了測試，並被認為具有人類智能。所以文摘菌也十分好奇，人工智能之父圖靈對這個可以模仿歷史名人口吻回信的AI Writer會有什麼看法~ 這位“圖靈”先生表示，“這我得想一下，就目前而言，我想說人們可能會對這些名人的說話方式出奇的類似而感到奇怪，而且說話還都那麼有條理。人們可能會覺得他們是在和一個人聊天。” 那如果能和霍金聊天會是一種什麼感覺呢？作為離我們最近的物理大師，能跟霍金教授聊天可是讓Shedon暈倒級別的榮幸。文摘菌選了一個比較小眾的概念來提問：“霍金先生，你能給我們的讀者解釋一下什麼是霍金輻射(Hawking

大數據

一週AI最火論文 | 給你的AI模型一張名片，谷歌發佈MCT

click / 2021-10-23

嗚啦啦啦啦啦啦啦大家好，本週的AI Scholar Weekly欄目又和大家見面啦！AI ScholarWeekly是AI領域的學術專欄，致力於為你帶來最新潮、最全面、最深度的AI學術概覽，一網打盡每週AI學術的前沿資訊。每週更新，做AI科研，每週從這一篇開始就夠啦！本週關鍵詞：遷移學習、Deepfake、聯合學習本週最佳學術研究 Google AI：用於AI模型透明化的Model Card Toolkit Google最近發佈了Model Card Toolkit（MCT），該工具包旨在為開發人員、監管人員和下游用戶提供透明化的AI模型。Google表示，模型透明度在影響人們生活的各個領域（從醫療保健到個人理財再到就業）都發揮著重要作用。 Google過去公開發布了Model Cards來公開特定的模型架構，併為一些用例深入分析了有助於確保其最佳性能的因素。 MCT基於Google的Model Cards框架來報告模型的來源、使用情況和評估結果，並旨在通過收集必要信息和協助用戶創建界面，來為第三方創建Model Cards帶來便利。 Google正在共享MCT以簡化所有ML從業人員Model Cards的創建過程。

大數據

雲棲發佈｜阿里雲消息隊列 RocketMQ 5.0：消息、事件、流融合處理平臺

click / 2021-10-23

引言：從“消息”到“消息、事件、流”的大融合消息隊列作為當代應用的通信基礎設施，微服務架構應用的核心依賴，通過異步解耦能力讓用戶更高效地構建分佈式、高性能、彈性健壯的應用程序。從數據價值和業務價值角度來看，消息隊列的價值不斷深化。消息隊列中流動的業務核心數據涉及集成傳輸、分析計算和處理等不同環節與場景。伴隨著不斷演進，我們可以預見消息隊列勢必在數據通道、事件集成驅動、分析計算等場景不斷產生新價值，創造新的“化學反應”。 RocketMQ 誕生於阿里巴巴內部電商系統，發展至今日，其核心架構經歷了多次關鍵演進：早在 2007 年，淘寶電商系統做服務化拆分的時候，就誕生了第一代消息服務 Notify，這是 RocketMQ 最早雛形。Notify 採用了關係型數據庫作為存儲，使用推模式。在阿里淘寶這種高頻交易場景中，具有非常廣泛地應用。在 2007-2013 年期間，隨著阿里集團業務發展，不僅需要交易場景異步調用，同時需要支持大量傳輸埋點數據、數據同步。此時，內部衍生出 MetaQ 以及 RocketMQ3.0 版本，這兩個版本開始探索自研存儲引擎，採用了自研專有消息存儲，支持了單機海量 Topic，並前瞻性地去除了

大數據

2021年，算法工程師必備的能力是什麼？

click / 2021-10-03

近年來，關於算法崗位“越來越卷”的聲音持續熱烈。我們經常收到一些同學提問：算法崗位聽說人才過剩要頂會才能入場了，不少人都在轉開發。不管是新的應屆生，還是兩三年的職場人，都在被勸退。到底現在的算法工程師需要具備哪些能力，才能滿足要求？今天我們邀請了 3 名淘系技術的算法工程師，給大家分享一些他們算法入場的經驗，以及在淘系工作中真實需要的能力和素質，希望能夠為你提供一份參考。 01 淘系技術部 | 商業機器智能部北原 “一名優秀的算法工程師，需要具備數據分析能力和代碼工程能力，從而能夠在實際應用中發揮對應模型的上限。“ 作為算法工程師，首要任務還是定義問題和解決問題，所以不僅會考察建模和模型優化能力。而數據分析能力，和代碼工程能力都是非常重要的部分。在面向業務應用的算法工作中，約為60%的時間研究數據和特徵的問題，剩下40%的時間會花在模型優化層面上。而在公司中解決算法問題，與論文中提升數據指標的最大的差異點在於：在公司沒有準備好的數據/方法，有時甚至優化方向和問題本身都需要自己去定義。而數據的數量和質量，會最終決定模型的上限。下面我就舉幾個工作中所做的項目，公司中的算法工程師需要哪些能力：從一項創新業務中算法工程師在觀察目標制定，模型搭建和數據分析全鏈路中的作用：項目背景在一個面向線上的消費場景中，為對應商品製作展示圖/創意廣告的創新業務中。當時我們已經具備為一個商品，製作多張備選創意展示圖/商品圖的的能力。問題在於每個商品，在線上展示商品圖展示數量是有限的。項目初期不同的業務方和設計師，對於最終選擇哪張圖的標準存在明顯的不一致。定義問題和優化方向定義問題和優化方向如果單純跟著商家的美感判斷，人工挑選好/壞做二分類。先不論能否收斂的問題，不同商家/不同的運營會給出不同的結論，另外市場是否買單也會存在挑戰，因此我們放棄這類優化方向。最終考慮到該業務的目標：是為了給商家減輕負擔並提升商家的收益。因此我們將生成圖片的好壞投票權交給消費者，使用消費者線上點擊率作為評價指標。最終將該問題定義為：創意內容的點擊率預估/引導製作問題。確定目標後我們就生成商品圖的各個步驟分階段進行優化。最大的成長是刷新了對「完成工作」的認知。以往我比較滿足於自己「工匠」的角色，認為只要能在規定的時間內，最大限度的保障架構設計和代碼的質量，滿足用戶的需要，並提出一些專業可行的建議，就可以算作是出色的完成了階段性的工作。模型搭建和數據分析

大數據

雲服務初體驗

click / 2021-10-03

本人目前研二在讀，最近想找租一臺服務器。要求不是太多，所以輕量級的服務器完全足夠。朋友告知阿里雲學生可以免費的申請一段時間，就登錄飛天計劃領取了一個輕量級的雲服務器。以前我並沒有接觸過雲，運行程序都是再本地的物理機上，或者本地的虛擬機上。這次是第一次在一雲上部署程序。阿里雲挺方便的，整個服務器的系統的安裝和各種配置在控制檯都可以很方便的完成。使用putty可以遠程的連接雲服務器，建議windows先在本地安裝一個putty，這樣會很方便。另外，一些windows和Linux的常用軟件也可以先行安裝，比如文件傳輸工具等等。雖然linux可以使用命令行來進行這些操作，不過對於不熟悉linux命令的小白還是用可視化操作比較好。對於不熟悉linux命令的同學也不要著急，計算機這種東西本就是應用的，不會的時候再去查也來的急，多熟悉自然就會了。控制檯的端口策略可以控制開放的端口，可以根據自身的需要來設置。不過也可以全部放開，只是跑一個項目應該沒有人會攻擊，這樣再裝各種軟件的時候比教方便，不會操心端口是否開放的問題。內網IP速度比較快，允許的話建議用內網IP。現在項目已經慢慢的跑起來了，雖然還是入門階段，不過已經算是半隻腳踏進去了。通過這個高校學生在家實踐計劃，讓我瞭解到了服務器是怎樣使用的，服務器的後臺應該怎樣管理。切身實際的感受到了雲服務器的方便，而不是僅僅通過網上或者其他人。任何事情要大膽的嘗試，如果我早些接觸到雲服務器，可能會少踩很多的坑，以前的很多問題也就不在是問題。使用服務器的過程中也是，遇到不會的要蒐集信息，更重要的是要大膽的試，多試一試總會找到解決方法，也會讓自己過的更加的充實。

大數據

雲安全 | 學習筆記

click / 2021-10-03

開發者學堂課程【系統安全及業務安全第四課時：雲安全】學習筆記，與課程緊密聯繫，讓用戶快速學習知識。課程地址：https://developer.aliyun.com/learning/course/793/detail/13773 雲安全內容簡介：一、WAF 1. WAF 介紹 2. Web 入侵防護 3. 流量管理和爬蟲防護 4. 安全運維合規二、安騎士 1. 安騎士介紹 2. 安騎士的功能三、等保 1. 等保介紹

大數據

HBASE入庫方式比較

click / 2021-10-03

一.概述本文主要從HBASE入庫的不同方式進行闡述，對HBASE的參數調整本文不進行過多闡述。HBASE數據入庫主要目的是保證數據快速，準確，完整的進入HBASE，並在數據入庫時儘量少佔用大數據集群資源，減少對大數據集群的影響。二.入庫方式 HBASE數據入庫主要分成以下三種方式： 1.MR預生成HFILE 採用MR的方式進行HFILE進行生成，生成HFILE文件後採用LOAD方式進行數據入庫 2.MR過程中PUT 採用MR中Map階段進行PUT數據入庫 3.HBASE原生口的PUT方式用JAVA調用HBASE的PUT接口進行數據入庫 1和2都存在MR的過程，會使用集群YARN的資源，而且如果沒有進行HBASE的參數調整和預分區操作，會引起HBASE的region的split；3方式採用多客戶端，多線程方式進行數據入庫，本身用的就是HBASE的原生方式，排序合併操作都壓給了HBASE，受制於網絡和內存。從上面的原理描述，3方式看上去是入庫最合適的方式，但是對於服務端的壓力卻是最大的。為了完成本文所說的儘量少佔用大數據集群資源目的，對於預生成HFILE方式需進行優化，不採用MR方式進行生成。三.實現 1.非MR方式預生成HFILE方式優化 1）將數據生成KeyValue放入list，並將其進行排序 2）使用StoreFile.Writer將數據寫入到HDFS的HFILE中 3）將生成的HFILE文件用doBulkLoad導入到HBASE 2.使用HBASE的原生接口PUT 四.測試測試方案主要進行HFILE入庫，PUT入庫，多列，全列按不同數據量進行測試名詞解釋：file:hfile方式入庫 put：put方式入庫

大數據

高校學生參加飛天加速計劃

click / 2021-10-03

我是一名來自四川的大四學生，用阿里雲服務器已經一年多了，平時能夠在阿里雲服務器上部署一些自己的小項目，不僅能夠學習，還能滿足自己的一些成就感。阿里雲的很多活動對學生非常友好，最開始看到阿里雲的學生服務器僅需9元一月，就直接下手了一年，服務器配置能夠滿足我的基本需求，平時學習Linux和部署一些項目在上面拿去參賽等。阿里雲非常的人性，在開通服務器時會介紹很多知識，能夠讓小白快速上手。開通服務器後，就安裝了寶塔面板，這是一個非常好的服務器運維面板，提供了很多便捷的工具。阿里雲服務器ECS可以搭建個人網站、小程序等，安全性也很高，不需要擔心安全問題。飛天加速計劃是個非常好的活動，它為我在家中學習的大學生提供了一個穩定性強、容易使用、安全度高的雲服務器，可以通過學習，做出屬於自己的網頁，可以和同學一起開發小程序、微信公眾號等等。還搭建了小程序服務端，在比賽中還獲了獎。阿里雲將其在、大數據、AI、低代碼、數據智能等方面，提供給開發者便利。宣佈升級到2.0的”飛天加速計劃”，助力開發者應用創新。其中包括：面向高校師生，提供30億小時免費資源，提供教育基金，用於學生教育與實踐；面向開發者，提供專屬特價產品及免費學習資源、認證服務和比賽基金，給我們很多優惠以及很多方便。最後，對計算機感興趣的，特別是喜歡開發的，一定要擁有一臺自己的雲服務器，剛好阿里雲的活動就能夠滿足大部分的學生用戶，剛開始還有免費的ECS領取，也希望更多的大學生加入到這一隊列來，為自己增加一個新的技能！我希望阿里雲能夠不斷創新，給廣大應用人員提供更多的方便。