人工智慧

《深度学习原理与TensorFlow实践》| 每日读本书

click / 2019-08-21

编辑推荐与市面上已有的TensorFlow书相比，《深度学习原理与TensorFlow实践》的特色在于一是所有案例来自作者团队工作中的亲身实践，所选案例均是深度学习的经典应用，非常具有代表性；二是结合了深度学习的关键原理，强化读者对深度学习及TensorFlow架构的理解，从而能在知其然、并知其所以然的基础上，更好地运用TensorFlow来开发各类应用。《深度学习原理与TensorFlow实践》所梳理出来的清晰脉络和关键知识点，必能让读者在内外兼修的基础上，循序渐进地提升功力，在人工智能时代大放异彩。喻俨莫瑜主编 / 2017年6月出版内容提要《深度学习原理与TensorFlow实践》主要介绍了深度学习的基础原理和TensorFlow系统基本使用方法。TensorFlow是目前机器学习、深度学习领域最优秀的计算系统之一，《深度学习原理与TensorFlow实践》结合实例介绍了使用TensorFlow开发机器学习应用的详细方法和步骤。同时，《深度学习原理与TensorFlow实践》着重讲解了用于图像识别的卷积神经网络和用于自然语言处理的循环神经网络的理论知识及其TensorFlow实现方法，并结合实际场景和例子描述了深度学习技术的应用范围与效果。《深度学习原理与TensorFlow实践》非常适合对机器学习、深度学习感兴趣的读者，或是对深度学习理论有所了解，希望尝试更多工程实践的读者，抑或是对工程产品有较多经验，希望学习深度学习理论的读者。作者简介喻俨百纳信息（海豚浏览器）研发副总裁。2007年加入微软亚洲工程院，2011年加入百纳信息负责海外业务线，从0到1做过多个项目，现致力于AI和大数据产品的研究与应用。莫瑜先后任职于微软和海豚浏览器，从事搜索引擎、音乐检索/哼唱搜索、内容分发推荐算法和对话机器人技术研发。长期以来持续关注和实践大规模数据算法性能优化、搜索引擎、推荐系统和人工智能技术。王琛英国爱丁堡大学人工智能专业硕士，现为百纳信息技术有限公司人工智能方向负责人。早年参加过信息学奥林匹克竞赛获得河北省第一名、全国三等奖，并保送进入中山大学。大学期间，在ACM竞赛上也屡获佳绩。硕士毕业后就职于百度基础架构部，参与大数据平台研发工作，对大数据分析处理、分布式系统架构等方面都有比较深刻的理解。2014年加入百纳，负责多个项目的研发，自2016年起负责人工智能方向的探索。胡振邦拥有博士学位，百纳信息技术有限公司高级算法研究员，毕业于中国地质大学计算机学院地学信息工程专业。读博期间，参与了关于遥感卫星图像识别分析的863项目，并且是主要的研发人员。毕业以来，一直从事图像识别方面的算法研发工作，主要方向包括目标检测、图文检索、图像分类与验证等，在图像处理、计算机视觉等方面都有深厚的积累和经验。 […]

人工智慧

12个核心知识点+20个干货案例+110道面试题，Python面试宝典来啦 | 开发者必读（046期）

click / 2019-08-21

最炫的技术新知、最热门的大咖公开课、最有趣的开发者活动、最实用的工具干货，就在《开发者必读》！每日集成开发者社区精品内容，你身边的技术资讯管家。每日头条 12个知识点+20个干货案例+110道面试题，助你拿offer！| Python工程师面试宝典或许在你投递你的简历之前，也在犹豫自己是不是真的合乎公司的要求。现在抛下你的杂念吧，无论你觉得不够自信，还是信心满满，这篇文章都能帮你了解一个Python工程师所需要的基础知识，快来次自检吧！ 12个Python核心知识点，20个经典场景分析和干货内容，110道面试题，最全Python面试宝典助你get your offer！！最强干货阿里工程师谈，什么是好的代码？我们每天都与代码打交道，但当被问道什么是好的代码时，很多人可能会先愣一下，然后给出的回答要么比较空泛，要么比较散，没办法简单明了地概括出来。显然，这个问题并没有唯一的标准答案，谁都可以谈论自己的理解，今天谈谈我对于好代码的理解。叮！阿里巴巴2020届毕业生笔试攻略来了，请查收！工程师的世界，不止代码，还应该有对未来的洞察与从容。2020届毕业生笔试攻略来了，请查收~ 阿里云安全研究成果入选人工智能顶级会议 IJCAI 2019，业界首次用AI解决又一难题！阿里云被主论坛收录的论文《Locate Then

人工智慧

数千台服务器，千万用户量：居然之家两年云原生改造历程

click / 2019-08-21

导读：传统企业的决策链路通常是自上而下的形式，因此在互联网化改造中，不仅仅是研发层面，整个公司的管理人员都需要做好知识升级和观念更新，这也是躺平设计家在过去几年的上云之路所经历的。本文将聚焦居然之家利用阿里云容器服务（ACK）进行云原生实践历程，期待能帮助读者了解传统企业从传统单体架构向云原生演变的实践路径。 2009 年，居然设计家 (Homestyler) 研发团队正式成立，开始进行第一个版本的探索；如今，十年已过，居然设计家正式更名为躺平设计家，用户量近千万。在两年多的云原生实践改造过程中，整个团队经历了从运维数千台服务器再到全部交付给云，从探索上云到利用 Serverless 和 Service Mesh 完成云原生改造，最终整体可用性达到三个 9 以上，同时 IT 费用削减了近一半。本文分享了躺平设计家的云原生实践历程。自 2013 年由 Pivotal 的 MattStine

大數據

从大数据到快数据数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!

click / 2019-08-21

8月17日，以“数据驱动，智创未来”为主题的2019 CCF大数据与计算智能大赛（CCF Computing Intelligence Contest，简称CCF BDCI）全球启动仪式，在北京大学正式启幕。 CCF BDCI大赛是由中国计算机学会大数据专家委员会于2013年创办的国际化智能算法、创新应用和大数据系统大型挑战赛事。自创办以来，大赛已成功举办六届，连续获得教育部、工信部、国家基金委等多个国家部委指导，受到北京、青岛、常熟、沈阳、郑州等政府支持，在梅宏院士、李国杰院士等百余位国内外顶尖专家的参与下，共吸引了来自海内外25个国家，1500余所高校及科研院所，1800余所企事业单位的60000余人参加。据统计，六届大赛中总计产生超过10万次作品提交，85%的优秀决赛作品被企业参考应用至实际业务；超过80%的历届获奖团队入职名企或获得名校深造机会；超过30所一流高校将CCF BDCI作为校赛，利用优质赛题辅助教学实践。如何有效利用数据，如何使数据在学科发展和人才培养方面发挥更大的作用和价值，已成为大数据时代的重要问题之一。战略指向，人才先行，作为本届赛事的官方赛题合作伙伴，阿里云贡献了大数据相关赛题，并将致力培养高质量数据人才，推动大数据产学研生态发展。在全球启动仪式的专家访谈环节，阿里巴巴集团副总裁、阿里云数据库事业部总裁、达摩院数据库首席科学家李飞飞与来自学术界、企业界的大赛特邀评审专家代表就“数据与智能双引擎驱动的人才观与生态”话题进行了问答探讨。阿里巴巴集团副总裁、阿里云数据库事业部总裁、达摩院数据库首席科学家李飞飞李飞飞表示：“万物互联时代，数据驾驭和治理能力已成为企业的核心竞争力。作为中国最大的云计算服务提供商，阿里云始终致力于推动Big Data（大数据）向Fast Data（快数据）演进，培养强大的大数据分析开发者群体。CCF BDCI大赛是国内规模最大、最专业的大数据方案、系统、算法大型挑战赛事。在大赛的促进下，将有越来越多大数据领域的创新型人才获得新的机遇。”李飞飞还强调: “在数据驱动智能的落地过程中，一定要关注系统智能、系统互联的落地，大数据、人工智能和系统将形成三角互动，最终推动科研产业化”。 “CCF 大数据与计算智能大赛”通过“众智、众包、众创”的方式汇聚产学研用多方资源，解决重点应用行业实际需求问题，不仅促进了产业技术升级和行业应用创新，引导传统产业重构并催生新兴业态，也为社会发现和培养了大量高质量人才。今年大赛将在原有的赛制与规则下，增添新的特色： ###

大數據

财报背后的强劲增长 | 揭秘淘宝如何进行目标用户的挖掘【技术人必看！】

click / 2019-08-21

作者|王浩（青鼠）出品|阿里巴巴新零售淘系技术部导读：淘系用户增长算法团队主要定位于业务应用算法，基于对淘系整体用户全方位的理解为各个业务提供高效的用户洞察手段，并通过与运营、产品等团队的配合完成各个业务的用户增长目标。用户增长平台的目标是希望能构建面向全域运营人员的全维度用户智能洞察分析体系，帮助运营高效触达目标人群。现有运营基于业务经验，将业务需求转化为一系列标签，根据标签筛选出符合条件的目标人群，该方法涉及到的数据链路较长，无法及时支持业务投放。在保证潜在人群与目标人群相似性的前提下，帮助各个垂直业务的运营同学自动化的实现保量提效的投放目标。本文主要介绍在此背景下的相似人群挖掘算法中通用特征体系若干特征处理方法。 1、基本概念和业务难点种子人群：运营人员在特定业务场景下收集到的，对商品、服务具有相同需求和兴趣的人群称之为种子人群（比如某个场景下的已购买用户、浏览用户等）；种子人群通常数量不多，一般在十万以下。扩展人群/相似人群：与种子人群具有相同特征的人群称之为扩展人群，扩展人群的数量通常为种子人群的数倍。目标：平衡圈人效率和投放效果，面向不同垂直业务的运营人员达到以人找人的潜客挖掘方式。难点和问题：由于种子人群来源由运营提供，且不同业务人员的投放目标不同，运营通过各种方式获取到的种子人群成分可能非常复杂，种子人群的特征不明显，如何同时面向各个业务洞察不同种子人群的有效特征成为难点，本文主要介绍基于全域运营的通用特征处理方法。使用方法：一般进行投放时，先通过种子人群找到扩展人群，其后将扩展人群作为运营触达的目标用户，当有多个种子人群时，可以先找到各个种子人群的扩展人群，然后取各个种子人群的扩展人群的交集作为最终投放的目标用户。 2、特征处理及算法实现系统的整体框架如下图所示： 2.1 数据准备提取用户基础属性数据，如性别、年龄、学历、职业、地域、能力标签等；抽取平台已积累用户标签（Audience label）；提取用户的评论信息等文本内容，进行观点挖掘和倾向性分析；提取用户之间的关系，比如亲情号相关，分享、转发关系等； 2.2 特征构造

開發與維運

数据分析工具PANDAS技巧-如何过滤数据

click / 2019-08-21

在本文中，我们将介绍在Python中过滤pandas数据帧的各种方法。数据过滤是最常见的数据操作操作之一。它类似于SQL中的WHERE子句，或者必须在MS Excel中使用过滤器根据某些条件选择特定行。就速度而言，python执行过滤和聚合更佳。它有很棒的库：pandas。 Pandas是在numpy包之上构建的，它是用C语言编写的，这是一种低级语言。因此，使用pandas包进行数据操作是处理大型数据集的快速而智能的方法。数据过滤的示例它是预测建模或任何报告项目的数据准备的最初步骤之一。它也被称为“子集数据”。请参阅下面的一些数据过滤示例。选择在2019年1月1日之后开立帐户的所有活跃客户提取过去6个月内进行超过3笔交易的所有客户的详细信息获取在组织中工作超过3年且在过去两年中获得最高评级的员工的信息分析投诉数据并确定在过去1年内提交超过5个投诉的客户提取人均收入超过40K美元的地铁城市的详细信息导入数据我们将使用包含2013年从纽约出发的航班详情的数据集。该数据集有32735行和16列。下载 https://itbooks.pipipan.com/fs/18113597-393403297。

開發與維運

高德全链路压测平台TestPG的架构与实践

click / 2019-08-21

导读 2018年十一当天，高德DAU突破一个亿，不断增长的日活带来喜悦的同时，也给支撑高德业务的技术人带来了挑战。如何保障系统的稳定性，如何保证系统能持续的为用户提供可靠的服务？是所有高德技术人面临的问题，也是需要大家一起解决的问题。高德业务规模支撑一亿DAU的高德服务是什么体量？可能每个人的答案都不相同，这里从基础设施的角度给大家做个简单的介绍，我们有数千个线上应用，分别部署在全国各地多个机房中的数万台机器上。这张图是高德业务核心链路的架构，从图中可以看出高德业务具有相当高的复杂性。当然，真实系统远远要比图表示的复杂，如果用这张图来代表高德整体业务形态，无异于管中窥豹，太过于片面。对于如此大规模，高复杂度的系统，如何保障系统的稳定性，是高德技术人长期面临和解决的问题。保障稳定性的手段如何保障系统稳定性是几乎所有互联网企业都需要面对的问题。通常来讲，有五种手段来从理论上保障系统的稳定性，分别是：容量规划：根据以往业务的流量，估算出未来（通常是即将来临的大促，节假日）的流量。以整体流量为基础，估算出每个子系统需要满足的容量大小。然后根据子系统的容量来计算出需要的资源数量，对系统进行适当的扩容。计算方式可以简单的表示为如下公式：机器数量 = 预估容量 / 单机能力 + Buffer （一定数量的冗余）流量控制：系统需要防止流量超过设计的容量，对超出设计的流量进行限流。各业务也需要对超出子系统服务能力的流量进行限流，对超负荷的服务进行降级。灾备：一旦系统发生灾难性故障，需要将流量切换到容灾机房，避免对大量用户造成损失。监控：对服务进行全方面的监控，实时掌控系统的状态，对系统中出现的问题及时预警，做到早发现，早治理。

《深度学习原理与TensorFlow实践》| 每日读本书

12个核心知识点+20个干货案例+110道面试题，Python面试宝典来啦 | 开发者必读（046期）

数千台服务器，千万用户量：居然之家两年云原生改造历程

从大数据到快数据 数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!

财报背后的强劲增长 | 揭秘淘宝如何进行目标用户的挖掘【技术人必看！】

数据分析工具PANDAS技巧-如何过滤数据

高德全链路压测平台TestPG的架构与实践

从大数据到快数据数据智创未来——2019 CCF大数据与计算智能大赛正式开赛!