人工智能的号角早已吹响,而在近两年,技术概念才开始逐渐从空中走下来。在近日举办的首届深圳(国际)人工智能展上,证券时报记者注意到,越来越多的人工智能公司开始强调结合产业、落地场景的重要性。
人工智能的背后实际上是数据、算力、算法三大要素,算力和算法对应的是分析能力,而更为基础的数据则发挥着养料的作用。在技术落地的过程中,产生了更多对数据的需求。
艾瑞咨询调查显示,2019年中国AI基础数据服务行业市场规模可达30.9亿元,其中图像类数据需求规模最大,占比接近一半;预计2025年市场规模将突破100亿元,年化增长率为21.8%。
伴随需求的爆发,场景的丰富度不断提升。“最近我们感到在智能家居和智能金融两个领域有明显的数字化进程,而不同领域的发展节奏在相继迭代,随着互联网对生活方式的改变为不断推进。” 云测数据总经理贾宇航接受证券时报专访时称。云测数据是Testin云测旗下AI数据标注服务品牌,覆盖领域包括智慧城市、智能家居、智能驾驶、智慧金融、新零售等。
在多元化的场景落地的过程中,数据质量也成为行业发展的痛点。“数据质量不再仅仅关乎一篇论文的结果,而是承担直面消费者的责任。数据质量直接影响算法精度,而算法精度又直接影响到产品使用体验,所以从根源来讲数据质量是重中之重。”
星河产业集团常务副总裁阎镜予称,在投资人工智能产业项目时,最先关注的就是算法准确性,“准确性和稳定性是目前难以突破的一个问题,99%的准确性意味着一百件产品中一次行为会出错,这样的错误可能在产品逻辑上产生致命问题,比如无人驾驶出错一次便可能产生事故。”
贾宇航表示,2020年云测数据最高交付质量精度达到99.99%。这是目前数据标注领域可达到的最高服务标准,而当下行业的精度平均水平在95%左右。
除了质量提升,复杂的标注需求也促进了劳动力形态的转变。在行业发展初期,数据标注一直被认为是一个高度劳动密集型的领域,甚至催生了一批“血汗工厂”,标注员在电脑前审图、拉框,做着重复性的动作。
“现在数据标注更多像是技艺密集型的行业,因为不同领域的AI产品推动数据服务向更加专业化发展,”贾宇航称,以X光影像为例,只有医生才能看得懂、标注得准确;再如自动驾驶,以前只需要识别车辆,在车上拉个框就可以了,但现在还需要识别是两厢车还是三厢车,是货车还是轿车,甚至是否存在违章行为,“这就需要一些‘老司机’的标注人员。”
在金融领域,数据标注对专业知识的要求更为明显。贾宇航举例,在客服场景中有时需要判断文字的合规性,“有些夸张的表述很容易被理解,但是还有一些隐性的表述,比如‘心脏病是赔付的,心脏病的并发症也是赔付的’,这就需要标注员对产品有真正的了解,具有一定的保险理赔经验。”
目前,数据服务领域已经有众多玩家参与,互联网巨头基于自身业务入局数据标注,例如阿里数据、京东众智、百度智能云等,还有Scale AI、云测数据等行业独角兽。
艾瑞数据显示,2019年中小型数据供应商份额比预期缩小了20.8%,头部效应逐渐显现。随着应用端的业务复杂度增加、需求多样化,数据服务领域势必面临竞争和洗牌。
“这个行业并不是能够速成的,需要对场景的理解和积淀”。贾宇航表示,云测数据接下来的发展方向是往纵向深入,整个人工智能行业已经从感知智能上升到认知智能,也就需要处理更深入的信息以及构建知识图谱等能力,“我们一直致力于AI数据的高质量、场景化及数据安全性等,真正做到帮助企业拥有高质量的AI数据,成就企业核心竞争壁垒。”