瀚博半导体2018年12月成立于上海。瀚博A轮融资由快手、红点创投中国基金、五源成本联合领投;今年4月完成了5亿元公民币A+轮融资,由经纬中国和中国互联网投资基金联合领投,联发科跟投。该公司紧张研发高性能通用加速芯片,针对多种深度学习推理负载而优化,运用处景为打算机视觉、智能***处理、自然措辞处理等。SV102是瀚博SV100系列的首款芯片,它面向云真个AI的通用化推理任务。
人工智能行业随着持续的技能演进,算法模型的精度、性能等关键指标在浩瀚领域不断取得打破性进展,已进入算法规模化运用落地阶段。环球范围内各行业数据中央对推理算力的需求在快速增长,下贱客户多样化的算力运用处景,催生了多样化的AI打算加速芯片需求。
瀚博创始人兼CEO钱军表示,市情上鲜有主流GPU厂商外的其他更优办理方案,瀚博的SV102采取了DSA(Domain Specific Architecture,领域专用架构)架构,且紧张适用于***流类信息的处理。

对付技能路线的选择,钱军表示,一是由于英伟达的GPU性能强大,在同一路线下创业公司很难取胜;二是打算机视觉任务霸占了AI市场的大部分,***流霸占数据流的 70%,而且比例持续攀升,适用于处理***类信息的DSA架构芯片,能取得较好的信息处理效果。
***解码能力对芯片有着低延时、吞吐量大、能效低等哀求。根据瀚博公开的产品性能指标,SV102的峰值算力为200TOPS(INT8);75瓦功耗下,其吞吐量2-10倍于GPU的AI吞吐率;且延时不到GPU的5%。
这次推出的SV100系列芯片可支持FP16, BF16和INT8等数据格式,并可以实现浩瀚主流神经网络的快速支配及打算机视觉、***处理、自然措辞处理和搜索推举等多样化推理运用处景。同时集成64路以上H.264/H.265/AVS2的1080p***解码,广泛适用于云端与边缘智能运用处景,提升客户的设备资产效益、降落运营本钱。
除了SV102以外,瀚博半导体还操持推出功率为15W和150W的推理产品,覆盖更多市场。
瀚博同步推出的基于SV100系列芯片的VA1推理加速卡,为单宽半高半长75瓦PCIe x16卡,支持32GB内存和PCIe 4.0高速接口协议,无需额外供电,即可适用于所有厂商的人工智能做事器,实现数据中央高密度高算力支配。
在业务运用处景上,瀚博的芯片产品和办卡产品紧张用于网络直播、流媒体、电商推举、智能客服等领域。
瀚博半导体在北京、深圳和多伦多均有研发分部。公司核心员工均匀拥有15年以上的干系芯片与软件设计履历,总员工数在200人以上。公司创始人曾为AMD高管,CEO钱军曾在AMD任Senior Director,卖力GPU(图像处理器)和AI做事器芯片设计和生产,CTO张磊2013年晋升为AMD Fellow,卖力AI、深度学习,***编解码和***处理领域,其公司团队部分成员曾设计了业界首款7nm制程 GPU。
以下是发布会现场的采访内容:
1. 创始人履历有丰富的GPU行业履历和背景的,为什么你们这样的团队却选择了DSA开启创业?
我从2009年开始,就开始思考若何逼近英伟达,但英伟达作为业界头部公司,他们不断耕耘,软件的成熟程度,全体工程能力方方面面,你要在相同构架下打赢它,有很大难度。
要打败英伟达,我们必须在构架上赢得上风,我们的DSA构架全体核心IP设计全部都是我们自己的。我们在选择我们第一个产品的时候,看到推理的市场非常大,须要一颗非常优质的产品。
我们更多的是做一个新构架的产品,通过这个构架,我们能在性能指标上超过它,再把产品卖到国外去。
2. 海内现在有缺芯问题,公司对付这个问题是如何办理的,对产品的量产会有影响吗?
缺芯是环球性的,可能是产能跟需求的一个不匹配,也有其余一种说法是像挖矿等需求,造成了产能的一些倾斜。有些有需求的产品如汽车电子产品买不到芯片。
对瀚博而言,瀚博今年产能已出,明年大部分的产能已提前预知,不过如果剩下产品卖的特殊好,也有可能面临产能问题。
3. 最近AI界比较盛行大规模演习模型,你们的芯片会有这方面的考量或者有干系优化吗?
我们关注到了这一点,以是做云端演习的时候,绝对不可能是单一算力芯片的一个支配,你一定要考虑到连接,考虑到精度、有效性。
我们非常关注这个领域,我们的S102是一个推理芯片,暂时还不会面对这样一个大的模型,但我们的算力是足够支撑大的模型。
4. 这款芯片的研发历时两年,研发过程中碰着的困难是什么?我们是怎么去战胜的?
我们全体芯片研发也经由了两年多的韶光。这不是我做过的最大的芯片,大家不要以为推理芯片比演习芯片好做,实在难度并不低。在全体过程中,对初创公司而言,会碰着很多寻衅。
我以为最主要的要从客户需求看,构架要对,然后你要在全体模型阶段就能把你的性能指标都能测试出来。
中间的话肯定会碰着各种各样的一个问题,这方面,我们是基于核心团队的专业知识,我们做过很多款芯片,我们做过20多款GPU,所有的GPU都是量产的,然后全体这一块我们是非常强大。
S102不是我们第一个量产的产品,我们前面有一个7NM的芯片,也做得很好。那颗芯片给了我们一个通道,让我们把我们know-how,我们全体流程的办理方案严谨性、完全地梳理了一遍。如今,通过这两颗芯片,我们有了全体设计的完全性。
5. AI芯片生态很主要,我们想问一下你们现在对一些框架平台的支持成功率怎么样?
软件的生态要一点点建立,我们主打的产品的话,让我们有韶光一边建立生态,一边卖产品。
全体软件side,我们也看到,除了我们的AI引擎,还有我们的***CV的引擎。我们在互联网端测的话,可能AI引擎会推出快一点,***会轻微慢一点。在打算机视觉方面,我们会把***引擎的所有功能都优化好,以是我们还在大力发展软件团队,我们的软件职员往后会3倍、5倍于我们的硬件。
我们后期会发布我们15瓦到150瓦的产品,我们的软件团队会在我们根本软件的共同平台上搭出不同的办理方案。
6. 我们的架构是DSA架构,您刚才提到DSA架构在云端推理这一块,比GPU架构的性能更有上风,可以解读一下吗?
你看和英伟达竞争的公司,像Habana,采取的都是DSA架构,没有人采取GPU架构。
在同样构架下,很难规避英伟达专利里的所有东西。若何和英伟达做差异化,去赢他,也是一个问题。
DSA构架也是同样的道理,每一家公司采纳的不一样,但都可以看到,在某些领域,特殊是推理方面,比较GPU是有上风的。
7. 除打造芯片以外,还有一个探求商业模式的问题,在怎么卖芯片这个问题上,瀚博半导体是如何思考的?
我们瀚博的行事风格便是低调务实,我不可能做一款没有客户的产品。
我们的芯片花了两年韶光打造,本日才发布。前期虽然我们做了另一款芯片,但很多的打磨我们都是自己在做。我们终极流片的话,也找到了很好的互助伙伴,快手投了我们,也和我们互助很紧密。
我以为要卖产品,一定要理解客户的需求,这部分我们花了很多功夫。
此外,我们打造了一个非常当代化的数据中央,在数据中央里面,我们有一部分,就会用我们刚才提到的所有的适配的做事器,我们会把自己的产品插在里面,做全体云真个虚拟式运用算法的东西。
我们软件会大力开拓,做好客户的支持。
8. 我们硬件的迁移能做到什么程度,是否只须要做硬件的迁移,软件上迁移能做到什么程度?是否可以只做硬件的迁移,软件上是否须要再重新编译?
比拟云端演习,云端推理芯片的迁移成本相对来说比较小。更主要的是,同样的做事器,我们的性能是T4或者A10的2~10倍。 对客户来说,是一个巨大的TCO (Total Cost Ownership) 的节省,这种情形下,有一小部分本钱做迁移,客户以为是可以接管的。
他们在迁移的时候,利用编译器也没有编译本钱,是自动的。