上海戳记科技创始人郭成淦:普惠AI从Token激励的AI数据标注开始

如果不是每个人都能享受到便捷的AI服务,AI就不会成为一个社会的好机遇。

要点速览


1.AI的繁荣的核心是其所惠及的平民大众的数量,切入点是AI标注(训练)。


2.AI的高速发展取决于三个重要的因素:数据、算法和算力。


3.标注数据是AI发展的一个先决条件。


近日,受轮值群主蔡栋、陶欣之邀,上海戳记科技创始人郭成淦做客「火星财经创始学习群」,做了主题为“普惠AI-从token激励的AI数据标注开始”的分享。


郭成淦表示,普惠AI就是让所有人都能够获得AI服务,具有4个基本特点:第一是使用的便捷性,也就是易于触达,容易使用;第二是便宜,也就是AI服务的价格应该平民化,能够让人用得起;第三是用的好,能够获得比较好的产品质量;第四是用的放心,用户在使用时的隐私安全和数据安全有保障。


在他看来,从区块链数据标注可以切入普惠AI,一方面区块链技术可以和数据标注完美的契合,解决传统标注行业里面的很多痛点,另一方面,数据标注本身离普惠AI这个概念最近。


以下为郭成淦分享内容,由火星财经(ID:hxcj24h)整理:

“一个国家的繁荣,不取决于她的国库之殷实,不取决于她的城堡之坚固,也不取决于她的公共设施之华丽;而取决于她的公民的文明素养,即在于人民所受的教育,人民的远见卓识和品格的高下。这才是真正的利害所在,真正的力量所在”。——马丁·路德·金


马丁·路德·金的这句话点出了国家繁荣的核心是人民,着力点是教育。其实,这句话套用在AI领域也是说的通的,我们可以说AI的繁荣的核心是其所惠及的平民大众的数量,切入点是AI标注(训练)。



普惠AI的概念及其四个特点


什么叫普惠AI?我们认为,普惠AI就是,所有人都能够获得AI服务。不管他是富人还是穷人,是城里人还是农村人,都能够便捷的使用AI,获得AI服务。我们认为如果不是每个人都能享受到便捷的AI服务,AI就不会成为一个社会的好的机遇。让AI惠及所有人,让AI不在一小片区域里应用,而是在全社会广泛地应用,我们认为这个就是普惠AI的概念。


从上面的概念出发,我们可以得出普惠AI的四个基本特点:


第一是使用的便捷性,也就是易于触达,容易使用。不管是学富五车的业内高级技术人员,还是对AI一无所知的门外汉;不管是在偏远落后的农村,还是交通便利的城市,都能够便捷、容易的获得AI服务。


第二是便宜,也就是AI服务的价格,应该是平民化的,能够让人用得起。普通人或者团队没有那些大集团财大气粗,所以降低使用成本是一个很必然的需求。


第三是用的好,也就是在用得起的同时,能够获得比较好的产品质量,而不是一些粗制滥造的服务。


第四是用的放心,也就是用户在使用时,他的隐私安全和数据安全要有保障。这一点尤为关键,特别是在用户隐私越来越得到重视的今天。



标注数据是AI发展的先决条件


AI的高速发展取决于三个重要的因素:数据、算法和算力。而数据又是研发优秀算法的一个非常重要的基础,所谓“巧妇难为无米之炊”,没有大量的标注好的数据去训练和验证AI算法,再聪明的人,也开发不出优异的算法。这是标注数据的很重要的一个方面。


另一个重要的方面,体现在算法边际性能的改进对训练数据量的需求是指数级增加的。2012年谷歌研究和卡内基梅隆大学的研究发现机器的对数改进视觉性能作为数据集的大小从100万个图像增加到3亿7500万个图像。通俗的理解,当你的算法性能从90%提升到99%时是比较容易的,但是从99%提升到99.9%的时候,同样一个9,难度却是指数级增加的,它需要的数据量也是指数级增加的。


从上面这两点来看,标注数据是AI发展的一个先决条件。


从上面这张图片,可以看出,绝大部分AI算法模型都是需要有标签数据的,也就是依赖于数据标注的,且目前成熟的只有依赖于标注数据的监督式学习算法。



从区块链数据标注切入普惠AI


为什么从区块链数据标注切入普惠AI呢?有以下两个原因:


一方面,区块链技术可以和数据标注完美的契合,解决传统标注行业里面的很多痛点。传统数据标注行业里面层层外包、需求方不信任小的标注团队、标注方被需求方欺诈、标注员无法分享到标注平台的红利、需求方的数据安全等问题都可以通过区块链的分布式账本、智能合约和加密技术来加以解决。


另一方面,数据标注本身离普惠AI这个概念最近。相比算法和算力这两个因素,数据标注非常简单,几乎没有技术门槛,再难的项目3天之内就能随便耍了,甚至一些特殊人群,比如聋哑人培训后,也能进行数据标注。同时,数据标注也离普通用户最近,他们既可以作为全职员工在企业里面标注,也可以在业余时间,甚至排个队、喝杯咖啡的时间,在手机App上进行数据标注。



理解区块链数据标注实现普惠AI的两个公式


根据我在圈内的学习,并结合经济学知识,得出了区块链数据标注实现普惠AI的两个公式:


第一个是传统中心化平台的用户边际成本递增公式,而在以区块链技术为基础的价值网络中是可以减轻或消除的。这里的用户边际成本递增,是指用户加入一个平台,当这个平台的已有用户量达到一定规模时,后面加入这个平台的用户,其所获得的服务的边际成本是递增的,也就是越往后加入的用户,其在该平台获取服务的成本越高,而且这还是在平台保持免费政策不变的情况下,如果平台后面因为垄断而收费了,那么垄断后进入的用户获取服务的成本更高。


得出这个结论的原因是,免费的平台往往通过广告赚取收入,充斥平台的海量垃圾广告剥夺了用户的时间和精力,而这是用户最宝贵的财富,而且随着平台用户的增加,平均每个用户的搜寻成本也会提高。而在以区块链技术为基础的价值网络中,这种现象可以减轻或者消除,因为在这种价值网络中,用户加入去中心化平台的边际成本是0,因为他可以与平台的任何一个用户直接交易,而不需要通过中心化的平台,而且中心化的信息还可能是被篡改的。


第二个是,从标注员享受标注业务收入分配的角度来看,传统的标注业务收入分配是来自于AI产品/服务的成本部分,因为数据标注是AI产品/服务的成本的一部分,而在以区块链技术为基础的价值网络中,标注员享受的标注业务收入分配是来自于AI产品/服务的销售收入部分,因为没有平台费了,而且拥有附加的积分收益。显而易见,后者的蛋糕要大于前者。



Token激励的AI数据标注与普惠AI生态模型


如果说数据标注是AI发展的先决条件,那么区块链技术则是普惠AI落地的先决条件。一方面,区块链为普惠AI的落地提供了去中心化的基础设施,提供了基于智能合约的激励机制,同时确保了数据的安全性。可以说,区块链是数字化社会中普惠AI的基石。另一方面,区块链是创造信任的机器,信任是支撑普惠AI产品和服务的核心基础。信任意味着更低的成本,更好的协作。这也是区块链所带给普惠AI的最大价值。


在我们的生态模型里面,位于中国四川凉山的放牛娃和位于河北保定的上班族可以共同为人工智能企业百度标注无人驾驶图像识别训练数据。他们标注完成并审核通过后,将不仅可以获得传统数据标注业务中的法币收入(法币将由需求方根据待标注业务量的多少提前充值到我们平台上),而且还将获得相应工作量的积分激励。


当他们拿到这个积分的时候,可以用于兑换需求方的AI服务优惠券,比如百度无人驾驶汽车在他们当地有运营的话,他们就可以用这些积分去兑换百度万人车乘用的优惠券,以此获得便宜的AI服务。甚至,百度在我们平台上发布任务时,还可以特别声明,前1000位标注者可以免费乘坐百度的无人车一次,从而加速百度无人车训练数据的标注。


如果百度在当地没有无人车运营呢?比如百度在四川凉山没有运营无人车,那四川凉山的放牛娃如何分享便宜的AI服务呢?这个很好理解,首先,积分在我们项目生态内部是通用型的积分,他们可以用这些积分兑换本地的AI企业服务优惠券。


其次,即便本地没有AI企业,但总是有AI服务能到达本地的,比如可以用标注获得的积分在生态中兑换一个家用智能学习机器人,甚至他可以用他标注获得的积分去淘宝上兑换一件衣服,一套文具(因为淘宝也在我们项目生态内,它们也需要我们生态内的用户给它们做数据标注),等等。当然,这是更广泛意义的普惠AI了。


以上讲解的对普通用户的普惠AI,也适用于传统企业和中小企业,同时也适用于AI算法开发者。



数据标注类别即最新国际动向


数据标注业务本身是很简单的,它的类别包括分类,也就是我们常见的打标签,一般是从既定的标签中选择数据对应的标签,是封闭集合,比如判断某一件衬衫的颜色,衬衫下面有几个选项,然后选一个正确的;其次,是标框标注,就是框选要检测的对象,它通常用于训练机器学习中的图像检测算法,比如要训练人脸识别算法,首先要在图片中把人脸框出来;第三是区域分割,就是把图片中感兴趣对象的边缘画出来;第四是描点标注,比如用4个点把人的一个眼睛标注出来;最后是一些比较难的其他标注,从文本中提取出一些问答语句,然后把这些提取出的问答语句做成一个专家系统,用于机器人客服。主要是这几类。


最近国际上的数据标注行业也有一些新的发展方向,其一是AI辅助人工标注,比如在做图片中手的区域分割的时候,我们人工沿着手和手指的边缘画线,那么AI会根据鼠标箭头的移动自动在一些转折处或拐弯处形成一些关键点,从而使得区域分割更准确,我们得到的数据是目前国外35%的数据公司都在用AI辅助人工标注数据,当然这也可能跟国外的人工标注成本更高有关。


其二,数据标注行业也正在从传统的2维数据标注往3D数据标注发展,比如,近几年手机深度摄像头的普及,采集的很多数据都是3D的,又比如随着无人驾驶的兴起,3D激光雷达的使用呈现爆发式增长,采集的3D点云雷达数据越来越多,那么这些3D数据都是需要人工进行标注处理的。



戳记科技的发展规划


我们公司业务上,目前是两条腿走路,一方面,在传统的标注领域,我们从简单到复杂,先做简单的图像分类、画框和边缘标注,然后再逐步进入难度更高的文本、语音、视频标注,拿文本标注来说,目前中文的文本标注需求非常大,但标注工具非常少,这使得我国在语义理解,专家系统和知识图谱建设方面严重落后于国外,所以未来这一块的市场需求是非常大的。


另一方面,我们抢先进入因无人驾驶兴起而即将呈爆发式增长的3D激光雷达数据标注,我们这一块的标注工具也快开发完成了,而且,这一块,我们是直接上了国际上现在比较热门的AI辅助人工标注,我们先用激光雷达目标检测算法,把原始点云数据中的目标检测出来,然后再进行人工标注,当然二维的数据标注我们也会往这方面走。


类似AlphaGo Zero阿法狗零,我们以后会大量使用AI自己生成标注,例如大规模Transfer Learning, Conditional GANs 和人工“真实”数据产生器技术。

   本文根据「火星财经创始学习群」嘉宾分享内容整理,不代表火星财经立场。转载须在文章标题后注明:“文章来源:火星财经(ID:hxcj24h)”。


嘉宾简介

郭成淦 /上海戳记科技创始人

曾任易成科技产品副总监、技术规划部负责人、恒相科技合伙人兼产品总监。拥有丰富的技术战略规划和产品运营经验。对无人驾驶、人工智能和3D激光雷达数据标注有深刻见解。撰写过《自动驾驶大数据商业模式》等研究报告。

   火星财经招聘编辑、记者、研究员,欢迎发送简历至简历至chenhongjin@huoxing24.com。欢迎垂询,来信必复。


火星财经认路“韭菜”教程:

咔咔咔,设个星标

不错过独家新闻,掌握一手资讯!

[火星公开课精彩推荐]

红岸基金任骏菲 | BTC.com庄重胡静 | Penta David

火币大学于佳宁 | BUMO郭强 | 肖飒律师

MakerDAO潘超 | IOTA熊志敏 | Frank Ling 

神马矿机张晓霆 | CK-Lab张十一  | 币乎鲁斌  

更多[原创文章]

    猛戳查看公开课专题更多精彩内容!  

Leave a Reply