正如蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能正在成为推动人类进入智能时代的决定性力量。然而回溯过往,我们会发现热门如人工智能技术,在发展的过程中也未必星途坦荡。在AI 历史上曾出现过“三次浪潮”:上世纪50年代:神经网络浪潮上世纪80年代:BP(Back Propagation)算法被提出,用于多层神经网络的参数计算,以解决非线性分类和学习的问题等研究成果本世纪2010年代:深度学习的出现在世纪50年代~80年代,由于许多应用难题无法解决和基础研究知识难以突破而没有达到人们预期的成果和推进。从起步-应用-低迷-平稳-蓬勃发展,人工智能的道路上充满着未知的探索,道路曲折起伏。
如今,我们正处于信息时代到智能时代的过渡期中,人工智能作为主要的推动因素,让产业界充分意识到人工智能技术引领新一轮产业变革的重大意义,纷纷转型发展。而“新基建+新科技”的提出与疫情的影响,让2022年成为人工智能史上的一个重要拐点。如果说在2022年之前人工智能技术还在摸索着落地应用场景,在2022年开始,人工智能已经加速进入人们的生活。只是,在人工智能飞速发展的今天,人们的需求也不断在上升。对于人工智能企业或转型企业而言,如何跟上时代是首要考虑的问题。但落到群众当中,落到人们的衣食住行当中,人工智能到底“智不智能”,才是人们所关注的重点。企业想要把AI技术/产品真正落地,真正做出“好的人工智能”,首先不能让AI技术/产品只停留在实验或原型阶段,AI模型的高质量训练是重中之重。那么,AI模型如何才能得到高质量训练?在AI项目部署的生命周期当中,有哪些可优化的地方?数据在这个过程中起到了哪些关键性作用?企业在转型路上又该如何挑选数据平台/相关服务商?
中助数据标注研究所致力于打造全流程的数据平台,包含数据采集,数据标注和数据管理。另外,针对成熟且复杂的场景开发更加高效的标注工具,如自动驾驶、人脸关键点、长语音转写等。越来越多的企业正在走向AI的道路,与此同时,对训练数据也有了更高的要求。AI模型想要真正落地,需要大量高质量的、安全无偏差的数据,中助的目标是帮助企业能够把AI技术/产品真正的落地,,而不是只停留在实验或者原型阶段,将采标流程一体化。
深耕行业数年的中助数据标注研究所,在数据采集和数据标注的过程中,积累了大量的行业经验和案例,同时也拥有了自己先进的技术、资深的项目管理和标注团队,并且提出“用AI的方式服务AI”的理念。中助如今拥有一个数据科学家团队,一方面会在服务企业之前了解场景,设计如何采集数据/标注数据能真正帮助到企业成功训练模型,以结果导向。另一方面也把AI技术应用到整个服务的流程中。用AI模型进行以下工作:自动筛选合格的众包标注员。中助有超过百万的众包资源,当有一个项目时,如何从这个池子里找出最合适的标注员?这个“合适”包含成本、质量、交付周期等因素之间的权衡。中助自身的匹配算法可以结合标注员历史标注的技能, 以及他们提供的信息快速自动匹配项目的需要。辅助标注。帮助标注员提高效率。在数据标注领域有大量手工的工作,甚至可以说传统数据标注几乎100%都是手工标注。而中助有专门的数据科研团队,专门研究人机交互以及如何利用 AI 算法来进行辅助做数据标注,帮助客户降低成本,提高 AI 模型的迭代速度。在自动语音转写、OCR、自动驾驶等领域发布的辅助标注算法已达到50%以上到几倍不等的效率提升。半自动质检。就像工厂生产线一样,标注过的数据是需要质检的。甚至有可能多轮质检。如果大量的糟糕的标注数据提交质检,会毫无意义地浪费质检员的时间。引入半自动质检以后,可以配置大量检查规则,比如:小汽车要小于5M,长宽比不能太过分等数据之间的逻辑检验,另外也可以用质检算法通过一些衡量指标进行辅助质检。
技术不能闭门造车在人工智能数据标注领域,纯自动化标注是不现实的,逻辑上也不成立。比如:“你用算法生成的数据去训练另一个算法,最完美的情况下,也就是训练出跟之前一模一样的一个算法。”但也不能只做纯手工标注,传统的数据标注是个纯人力密集型的任务,对于技术从业者而言是非常诱人的领域,因为稍微有一点技术的引入,就能给企业降本增效。业务在设计之初就引入AI中台的概念, 围绕着AI中台为业务赋能,引入Apache Pulsar作为数据湖,围绕这个核心组件设计了灵活的标注任务的分发和工作流管理。因为业务数据都落地Pulsar里面,借助Pulsar的高吞吐量,可以多次重复高效得消费这些数据进行快速且松耦合得进行业务扩展,比如结合 Flink 做实时进度/工作量/质量的报表计算用来做项目管理,也可以对标注员进行画像,可以实时进行反欺诈监测,另外也可以对在线标注数据实现边标注边训练,同时反过头来辅助标注等。
在平台设计和技术架构搭建初期,事先做好技术的总体架构设计,在此基础上做未来的发展规划。同时,要确保团队成员的目标一致,再定期讨论调整优先级。在刚起步的时候,每个迭代只能完成MVP,非核心的功能会提供功能上的兼容支持,在真正的使用过程中,这些未被产品化的功能使用起来相当痛苦,比如招人的时候,最开始的版本中先专注在标注业务本身,如果要添加,标注员就上传一个Excel文件, 而没有一个完整人员招募和审核流程。令记者感到意外的是,中助的技术团队并没有闭门造车,关起门来自己解决问题。他们还拥有一支项目支持工程师团队,所有当下平台满足不了的功能,该团队就会准备一次性的脚本和工具进行处理。随后,平台一步步根据优先级把手工处理的任务产品化,平台发布一个版本后及时拿到反馈,然后在下一个版本中进一步提升。所以,在与产品研发团队、项目管理团队、业务团队的紧密合作下,技术/产品迭代速度是相当快的。
如果说优秀技术架构与高效迭代是决定一家人工智能数据服务商是否站得稳的关键,那么真正决定它是否走得更远的,就在于产品本身解决问题的能力到底有多强。在这个问题上,而中助在整个生命周期中帮助客户解决数据采集,数据标注, 模型发布后期监控。除此之外,数据的可用性质量也是中助服务的核心。
项目管理是一门艺术,尤其是人工参与的场景,可能会在整个流程中任意环节出现变化。中助的优势在于其针对各个企业的业务进行深度的打磨,融入了自己的高效的项目管理方式以及标注细节优化。让整个项目管理流程更容易定制和适应变化,中助有模板引擎可以定制特有的标注需求,有多轮质检并且可配置质检拒绝后的行为,中助有根据标注员的质量调整质检抽检率的控制机制标注工具的精心打磨,中助会衡量常见标注任务的时间以及鼠标点击次数,目标是人机协作,以 AI 的方式服务 AI。一方面中助会在人机交互方面进行提升,也有专门的HCI工程师,另一方面,会用 AI 模型进行辅助,实现人走一步,机器帮忙前进几步的效率提升。人和机器各自做自己擅长的事情。
势拨云雾CSDN:
现在密切关注自动驾驶领域,那么在自动驾驶领域的数据方面,目前存在哪些挑战?中助又做了哪些解决方案?这个问题可以分为5个部分。需要同时使用多个感知传感器互补,比如摄像头,激光雷达同时使用。多用一个传感器,就多一次标注,如何连接多个传感器的标注是个很大的问题。中助提供多传感器融合标注方式,在提供标注能力的同时,极大节约标注成本。比如在3D的激光点云上面标了一个3D框以后,我们可以自动换算投影一个2D 框到图片上,同时保证同一个物体在不同传感器的数据上拥有相同的 ID 和物体属性。
该工具也被设计成可适配不同传感器类型和数量。感知有各种细分的场景,比如目标识别、车道线识别、可行驶区域识别、路牌识别等。中助提供全套标注工具,并且可根据场景灵活配置调整标注方式。需要海量的标注数据 -- 成本高。我们会利用预标注模型进行高效的辅助标注,比如一键3D拉框,3D 车道线精调,自动连帧标注等。需要海量的标注数据 -- 难以管理。当数据量小的时候,很多公司甚至一个Excel就能管理,但是数据量大了以后,数据的流转就会成为问题。我们提供数据全流程生命周期的管理,并且可以自由定义数据生产流程。2D/3D数据难以分析/查看。无论在客户验收还是开发算法过程中,2D/3D 的标注数据都不像文本标注或者语音标注结果这么直观,2D/3D 的结果都是一些坐标信息,客户拿到标注结果需要一些开发工作、来看标注结果。中助提供可视化验收工具,并带有标注结果统计,比如标注数据里面包含多少车,多少人。总共多少个点等等。每个企业的技术架构与实力不同,对于初创、中型、大型的企业来说,如何选择合适的数据标注平台/相关服务商?其中有哪些不同吗?初创业务场景变化非常快,一般标注需求量不会很大。而且公司没有精力或者资源开发或维护数据标注平台。我们会推荐纯Saas模式,可以让初创企业快速开启标注,快速试错调整方向。中型企业已经有较为成熟的业务模式和自有系统,另外也有资源去开发或者运维数据标注平台,会比较关心是否有开放 API 进行系统集成和二次开发,是否有全面的功能。这类企业,我们会推荐混合云部署模式或者私有化部署模式,并且结合我们 Managed Service 进行数据标注。而一般大型的互联网企业比较早地使用AI 技术,已经自己开发了一些标注平台。在选服务商的时候会特别看重服务商“是否有能力快速得招到大量高质量的标注员、是否标注工具层面会比自己公司的效率更高、数据安全是否有保障”等。这类企业我们也会推荐混合云部署模式或者私有化部署模式,并且结合我们Managed Service 进行数据标注。
未来人工智能数据标注领域或该领域的服务商,会有哪些发展趋势?现阶段标注领域鱼龙混杂,价格竞争激烈,其中不乏大量传统人力服务商进入这个领域。随着行业的洗牌,有快速招人能力、拥有大量项目管理经验、有自有平台研发能力的供应商会逐渐脱颖而出。标注平台会沿着采集和标注一体化方向发展。对很多AI 企业来说,往往同时需要数据采集和标注。比如刚才的例子,采集日常交流语音,采集完以后需要对语音进行文字转写。如果把采集和标注分成两个独立阶段,时间交付周期很长,另外如果标注觉得采集的语音里面完全没法听清,很难及时打回给采集人员重新录制。另一方面,未来可能会向AI数据中台发展。不仅管理非结构化数据的,也会慢慢延伸到结构化数据的管理。数据标注在整个生命周期中不会是一个独立的存在。如果分裂的多个系统,数据科学家会浪费大量时间在搬运数据上,效率不高,另外也影响创新。如果以集成式的AI数据中台为基础,数据科学家可以开发算法和数据标注互相迭代提升。比如边标注边实时训练模型,效果没法再次提升的时候就停止标注,这个在业界叫主动学习。
想了解更多,欢迎访问中助官方网站:http://www.cdzzjt.com/lists/2.html#rengongzhinengJVk
上一篇:品牌推广,如何做到充分利用抖音?
下一篇:浅评《新一代人工智能十问十答》