数据标注员正在工作。受访者供图
新华社北京1月25日电(记者高杉 李宓)在北京北五环外的一座科技园内,22岁的张嵛森正坐在电脑前给屏幕上的一幅街景勾画上彩色线框,框选出图中的交通信号灯、路牌和路障。在他身边,几百台型号不算新的电脑如网吧般排列,同事们大多与他年龄相仿,敲打着键盘,熟练地做着类似的工作。
张嵛森是一名数据标注员,生产大量可供计算机深度学习的训练数据,使人工智能“学会”从人脸识别到车辆自动驾驶甚至更为复杂的任务。一位数据标注员每天可以进行几千次标注操作。
北京倍赛数据平台创始人杜霖说,数据是人工智能的基石,数据标注正是人工智能深度学习技术催生出来的新职业。
倍赛数据北京工厂内的工作环境。受访者供图
数据是基石
生于1987年的杜霖看到了深度学习的兴起趋势,于2014年创建了倍赛数据平台。这家公司目前已发展为中国数据标注行业的领先企业,客户包括斯坦福大学、中国科学院、中国移动和商汤科技等。
“计算机深度学习技术的实质,是不断增加人工智能识别一个物体时的维度,形成庞大的矩阵。这个矩阵构建的过程基于样本数据的累积,也就是数据标注和机器学习的过程。”杜霖说。
在数据的基础上,人工智能技术得以应用于各个领域,融入了人们的日常生活。人脸识别是人工智能最基础的应用。打开抖音和美图秀秀,人工智能识别到人脸五官,进行一个形态学的变换,这就是缔造网红美颜特效的生效过程。
汽车自动驾驶是人工智能较为高级的应用场景。计算机通过对信号灯、车道线、行人、车辆的识别和分类,规划出适合的驾驶方案并时时做出调整。
杜霖曾试验打造过一款智能冰箱。“我们改装了一台冰箱,用3万多张图片建立了一个可识别不同食品的数据体系,识别准确率达到了89.9%。前后6个半月的时间,有5个月用来和数据打交道。”杜霖说,这次尝试让他愈加认识到数据的重要性。
数据标注员正在工作。受访者供图
人类的“临门一脚”
去年,曾有业内人士预判,数据标注员这样的职业很可能将被淘汰,人工智能技术发展中的数据标注、数据获取、特征提取、模型设计和训练等环节有可能实现自动化或半自动化。
杜霖则认为,在10到15年内,受到技术的约束,行业的运行将维持与现阶段相似的模式,“人工智能不会是未来的全部。未来将是人工智能与人类智能的结合,是人机耦合的时代。”
中国科技大学机器人实验室主任陈小平说,到目前为止,所有人工智能技术都来自于监督学习,人脑在推理处理未知信息方面表现出色,人工智能仍然无法做到这一点,“比如人工智能或许可以识别不同品种的狗,但它很可能分辨不出毛绒玩具和动物的区别。”
“世界是很随机的,”杜霖说,总会有计算机识别不出的特异数据出现,关键时刻,机器还是会需要人类的临门一脚,“人机耦合的相关研发将是倍赛数据未来发展的重点。”
数据标注类别示意图。受访者供图
不再“野蛮生长”
在中国,人工智能正经历着快速发展阶段。2018年,人工智能再度被写入政府工作报告,提出要加强新一代人工智能研发应用。同年教育部印发《高等学校人工智能创新行动计划》,多所高校设立人工智能学院,投身人工智能人才培养与储备的热潮。
数据标注公司经历过“野蛮生长”阶段,行业内良莠不齐,但现阶段市场已经淘汰了大批“作坊”式公司,行业的准入门槛大幅提升。冷却后的数据标注行业已进入相对正规的良性发展阶段。杜霖说:“几年前,百万级数据就可以支撑一家人脸识别公司的建立,现在没有过千万级的数据已无法起步。”
然而,数据标注行业因为劳动相对密集、重复性较强,被一些媒体比喻成人工智能产业工厂流水线上的低端环节。杜霖认为这是对数据标注和人工智能的误读。
杜霖说,数据标注员从事的是人工智能时代的信息处理工作。当技术的进步大幅提升了数据处理的效率,人的作用从原来的重复劳动变成了监督和辅助机器学习,“就像工业革命一样,新技术在取代人力的同时也带来了新的职业路径”。
制图网(www.makepic.net),专业的logo免费设计在线生成网站,全自动智能化logo设计,商标设计,logo在线生成!
欢迎使用制图网制作属于您公司自己的logo,不仅专业而且经济实惠,全方位满足您公司品牌化、视觉化的需求。