首页   所有  
探秘百度“硬核”后方:谁撑起百度的超强AI算力?

原创:心缘  智东西

看点:300+万颗CPU核,年均PUE值达1.09,揭秘百度阳泉云计算中心的硬实力。

2017年的一个碧空如洗、清风朗日的早晨,智东西前往百度位于山西省阳泉市的云计算中心参观,参观内容包括整体运营、各大机房服务器、清洁能源、高效供电方式、自然冷却等节电技术和人工智能预测调控等等(探秘:李彦宏花47亿盖的大房子)。

时光荏苒,转眼间2年已过,经历一个猪年,阳泉云计算中心也摇身一变,除了是亚洲单体规模最大的数据中心,还成了春晚抢红包流畅体验的大功臣。

为了承担起春晚红包的顶级流量,阳泉云计算中心做了哪些升级?和上一次我们的参观相比,它又哪些不一样的亮点呢?云计算中心如何成为百度AI技术坚实的中流砥柱?带着这些疑问,智东西和数家媒体一同再次来探访这个李彦宏花47亿盖的“大房子”。

园区占地约360亩,服务器装机能力超28万台

说起猪年春晚,想必多数人印象最深的就是疯狂抢红包。百度作为央视春晚的c位合作品牌,策划了一场全民狂欢的“红包之夜”。这个夜晚,全球观众参与百度APP红包互动次数达到208亿次,春晚数据流量为每秒峰值5000万次,每分钟峰值10亿次。

作为百度春晚活动的主力部队,阳泉云计算中心如何实现如此大规模数据的高效协同与调配?怀着好奇,我们探访了阳泉云计算中心的内部。

本次来访刚巧赶上阳泉变天,过了安检,进入园区,凉风直直往人衣领里钻,抬头正对着的便是阳泉云计算中心的ECC监控中心。

这里的中心园区按照设计标准T3+建造,占地面积约360亩,规划建筑面积超过20万平方米,而团队总共只有60余人。

也就是说,平均每个员工占地将近6亩、3000+平方米,个顶个的“大地主”。

百度阳泉云计算中心于2014年9月投入使用,截至2019年4月8日,百度阳泉云计算中心已安全运行1744天。该数据中心目前已建成投产12万平方米,采用了百度400多项数据中心、网络及服务器专利技术,服务器装机能力超过28万台。去年1月,该数据中心成为国内首个服务器规模突破10万台的单体数据中心,目前已上线服务器超过15万台。

我们首先来到百度云计算(阳泉)中心监控中心,一个超大的屏幕上囊括了PUE、网络架构、暖通架构、电气架构、告警情况等各种数值图表。

当时屏幕显示的PUE(Power Usage Effectiveness,电力使用效率)值已经低至1.062。

PUE值指的是数据中心消耗的所有能源与IT负载消耗的能源之比,是国际上通用的数据中心电力使用效率的衡量指标。PUE值越接近于1,表示一个数据中心的绿色化程度越高。

而据工作人员介绍,2018年阳泉云计算中心的年均PUE值达到1.09,能源效率国内第一,比全国数据中心平均1.73在基础设施能效方面提升了88%,目前整个数据中心每年节电2.5亿度,相当于13万户居民一年的用电量。

作为亚洲单体最强大的算力平台,阳泉云计算中心的其他数字也相当亮眼:拥有超过300万颗CPU核、超过6EB级存储容量,可存储的信息量相当于30多万个中国国家图书馆的藏书总量 (备注:中国国家图书馆是亚洲规模最大、世界第三的国家图书馆) 。

硬核实力揭秘,谁撑起了百度大脑

内部探访,机房自然是最主要的环节。

在参观天蝎整机柜服务器、“冰山”冷存储服务器等各种百度自研服务器后,我们首次踏入百度大脑的核心区域——AI计算集群,能够为训练、推理应用提供近百万级的TFLOPS算力。

1、超级AI服务器X-MAN 2.0与X-MAN 3.0

当前的AI计算集群由百度自主研发的AI服务器X-MAN 2.0组成。X-MAN 2.0在2017年上线,支持8卡NVLink高速互联,是国内首个采用冷板式液体冷却技术的GPU解决方案,实现了超高的散热效率,规模应用后,可以全面去除制冷机组,全面实现无冷机运行。

X-MAN经过了三代技术升级。去年12月,百度X-MAN 3.0在加拿大举行的第32届NIPS神经信息处理系统大会上揭开神秘面纱。

X-MAN 1.0采用的是PCle Fabric技术架构,到X-MAN 2.0升级成NVLink,而X-MAN 3.0的重磅升级则在于多机互联,采用了硬件系统模块化、互联接口标准化、互联拓扑高灵活性的设计思路,提升了多元化AI加速芯片的兼容性,据悉每秒能完成2000万亿次深度神经网络计算,极大加快了深度学习模型的训练速度。

或许等到下一次来参观数据中心时,我们就能看见X-MAN 3.0的大规模应用。

2、支持100G的AI高速无损网络互联技术

阳泉云计算中心还使用了百度自主研发高性能交换机,提供超大规模的网络吞吐,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。

在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms,从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保全国用户的全面覆盖和就近接入。

在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机。

3、参与制定国际AI技术标准

除了研发创新的高速互联、供电、散热等技术来解决AI硬件加速模块和系统设计中的硬件挑战外,百度还积极参与国际AI领域技术标准的制定。

在今年3月美国圣何塞举办的2019 OCP全球峰会上,百度宣布与Facebook、微软联合制定OAM (OCP Accelerator Module)标准,主要对AI硬件加速模块、主板、互联拓扑等制定了相关的基础规范。

该标准通过模块化、标准化指导AI硬件加速模块和系统设计,增强不同AI硬件加速模块和系统的互操作性,加速新AI硬件加速模块的大规模落地应用,最终推动AI硬件生态的良性发展。

从数据中心到智能云,撑起AI时代的转型刚需

经过经年累月AI技术和业务实践的积累,百度面向企业和个人开发者提供全方位、低门槛的AI服务,其中百度智能云正是百度决胜AI时代重要组成部分。

1、百度智能云:“ABC”三位一体战略

百度智能云是百度旗下面向企业及开发者的智能云计算服务平台,是帮助各行业实现智能化升级和转型的对外一站式服务输出窗口。

百度智能云于2015年正式对外开放运营,基于百度18年技术积累,提出ABC(AI、Big Data、Cloud Computing)三位一体发展战略,要用“最全面最落地的A+最开放最安全的B+持续领先的C”与IoT、区块链、边缘计算结合。

这一服务体系拥有智能边缘、云端全功能AI芯片、安全存储、一站式解决方案等全面ABC功能,全形态输出150多项AI能力,9个开源的大数据服务能力,以及10种计算实例、6类网络组件、3级对象存储等强大的基础云服务能力。

人们耳熟能详的人脸识别、OCR、图像识别、语音技术、自然语言处理技术、深度学习等AI能力自是不在话下。

一方面,百度智能云为百度自身业务提供了强大的智能云计算服务,承载了搜索、百度地图、小度、Apollo等多款用户量过亿的产品、服务和解决方案;另一方面,百度智能云还为金融、新零售、新制造等创新行业构建服务。

2、传统智能化升级的三个实例

百度智能云ABC已经落地农业加工、钢铁、金融、能源、物流、传媒、气象、旅游等多个行业,与山西省政府、首钢、广发银行、新华社、首都机场、中国气象局、携程等政府部门和知名企业合作,推动社会一二三产业的智能化变革升级。

在航空领域,百度智能云与某航司合作,从安检口的身份验证、自助值机行李托运到自助登机,通过提供百度人脸识别等技术,帮助实现更便捷高效的自助服务体验。再加上百度大数据分析采集、百度云网络和计算支持的辅助,机场的核心区域流量监控、智慧问询、两舱寻人等智慧服务得以实现升级。

在智慧交通领域,百度智能云与某交警深度合作,将人脸、车辆、地图等多项能力整合输出,不仅能实时查询车辆/车位、费用、基础设施等信息,还通过车辆轨迹分析、车辆状态分析、整体综合分析,实现智慧调度、智慧停车和智能监控功能,最终优化配置城市交通资源,缓解交通堵塞等问题。

在智慧制造领域,百度智能云与某钢铁集团合作,利用智能质检有效提升良品率,通过车间生产优化提高精度,借助智能远程运维提高设备生命……经由对各个细分环节地智能化升级,生产效率得到巨大的提升。

结语:云计算基础设施亟待技术创新

在AI时代的赛道上,智能时代的基础设施建设成为国内外云巨头至关重要的竞争力。百度作为提供AI基础解决方案的主要玩家之一,在自身累积经验地基础上,正用领先的AI能力为各行业智能化转型提供助力。

而随着越来越多的企业接入网络,海量数据处理、高速传输、节能减排、避免宕机等问题都成为以百度为代表的云计算提供商必须解决的问题。通用型服务器等产品越来越难以满足超大规模数据中心的需求,技术创新和定制化服务已经成为必然趋势。


2019-4-11点击数/观注度 26899
 
咨询电话 13910949198 (李桂松)
北京市平谷区中关村科技园区平谷园1区-21594(集群注册)
京ICP备16017448号

京公网安备 11011302003178号

技术支持