您好,欢迎来到华佗健康网。
搜索
您的当前位置:首页一种去中心化的数据生态系统[发明专利]

一种去中心化的数据生态系统[发明专利]

来源:华佗健康网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 108681811 A(43)申请公布日 2018.10.19

(21)申请号 201810435333.5(22)申请日 2018.05.09

(71)申请人 北京慧听科技有限公司

地址 100107 北京市朝阳区立清路7号院1

号楼2层12F2-A7(72)发明人 吴妍 郑羲光 

(74)专利代理机构 天津市三利专利商标代理有

限公司 12107

代理人 韩新城(51)Int.Cl.

G06Q 10/06(2012.01)G06Q 20/28(2012.01)

权利要求书1页 说明书6页 附图1页

CN 108681811 A()发明名称

一种去中心化的数据生态系统(57)摘要

本发明公开一种去中心化数据生态系统,包括:任务分配系统,将数据需求方的数据需求信

收到数据提供方提供的数息分配给数据提供方;

据后,将数据校对任务分别给数据校对方,载入校准数据到数据质量检测系统;数据质量检测系统,接收数据校对方的校对数据,根据校准数据和/或AI技术对校对数据检测,校对确认后向数据需求方交付成品数据,同时向结算系统提交支付指令,向任务分配系统反馈数据制作质量;结算系统,接收数据需求方的预付费用,根据支付指令从预付费用中向数据提供方以及数据校对方支付结算费用。本发明能以去中心化的方式保证人工校对数据工作的质量。

CN 108681811 A

权 利 要 求 书

1/1页

1.一种去中心化的数据生态系统,其特征在于,包括:任务分配系统,用于将数据需求方的数据需求信息按预定的分配规则分配给数据提供方;在接收到数据提供方提供的数据后,将数据校对任务按预设分配规则分别给数据校对方,由数据校对方对数据进行标注,并载入校准数据到数据质量检测系统;

数据质量检测系统,用于接收数据校对方的校对数据,根据载入的校准数据和/或AI技术对校对数据进行检测,校对确认通过后向数据需求方交付成品数据,同时向结算系统提交支付指令,并同时向任务分配系统进行数据制作质量反馈;

结算系统,用于接收数据需求方的预付费用,以及根据数据质量检测系统的支付指令进行费用结算,从预付费中向数据提供方以及数据校对方支付结算费用。

2.根据要求1所述去中心化的数据生态系统,其特征在于,所述数据需求信息包括数据类型、数据规模、数据价格、数据质量要求、数据质检方法。

3.根据要求1所述去中心化的数据生态系统,其特征在于,所述任务分配系统在收到数据需求信息后,先按对数据需求方事先约定的规则进行提交需求的检验,如满足检验要求,则向数据提供方分配数据采集任务;否则向数据需求方反馈,要求数据需求方修改,反复执行,直到通过检验为止。

4.根据要求3所述去中心化的数据生态系统,其特征在于,所述任务分配系统在向数据提供方分配数据采集任务前,先向下广播征集数据提供方及数据校对方,如在一定时间之内未能获得最小的参与方数量,则向数据需求方反馈结果,并提示数据需求方修改需求,直至达成最小参与方数量。

5.根据要求1所述去中心化的数据生态系统,其特征在于,所述任务分配系统收到的数据提供方提交的数据中的每一个最小单元数据将与数据提供方的个人识别信息一并通过希运算生成一个固定长度的哈希值。

6.根据要求1所述去中心化的数据生态系统,其特征在于,所述数据质量检测系统收到数据校对方提交的校对数据中的每一个最小单元数据将与数据标注信息、数据校对方的个人识别信息一并通过希运算生成一个固定长度的哈希值。

7.根据要求1所述去中心化的数据生态系统,其特征在于,所述数据质量检测系统在校对不通过时,向数据校对方发送校对返工指令,数据校对方需在提高校对质量后再进行上传直到通过。

8.根据要求1所述去中心化的数据生态系统,其特征在于,所述校准数据是由数据需求方提供的成品数据。

2

CN 108681811 A

说 明 书

一种去中心化的数据生态系统

1/6页

技术领域

[0001]本发明涉及人工智能数据库的供需生态系统技术领域,具体涉及一种去中心化的数据生态系统。

背景技术

[0002]近十年来,人工智能(AI)取得了飞速的发展。随着深度学习等技术的开源和计算设备的高速进步,人工智能已经开始逐渐影响人类生活的各个方面。智能语音、人脸识别、自动驾驶等技术已经不再只是学术界的热点,而是即将真实走入每个人的生活中。[0003]在拥有无限可能的人工智能技术及应用背后,提供燃料的是海量的优质数据。这些数据作为人工智能算法的训练和测试数据,和机器学习算法拥有同样重要的地位。在深度学习算法已经全面开源的背景下,训练数据变得尤为重要。[0004]在未来,人工智能技术的进步将更加大量依赖于海量的优质数据支持。一方面,现有的人工智能数据的产能有限,无法支持未来的数据需求。另一方面,我们每个人都已经在互联网上留下了大量数据,但这些数据的产权不明确,利用率有很大提升空间。目前的数据库产业链中,在数据库需求方和实际制作方之间存在着多级的中间商,导致数据制作效率低,成本高,并无法对采集者的个人信息数据安全提供保障。

[0005]应用区块链(去中心化)技术是利用海量碎片化互联网用户数据、提高数据产能及使用效率的最佳途径。去中心化的数据生态系统可以使得海量用户生成的个人数据安全性更高,即数据只对具体数量的数据真正需求方可见,从而排除了各级数据中间商获得数据中涵盖信息的可能。另外,去中心化的数据生态系统可以使得数据的提供方获得对于其提供的数据种类及去向的完全控制权,从而避免了数据中间商滥用数据提供方隐私及个人信息的可能。

[0006]尽管目前已经存在各种基于哈希(HASH)算法的去中心化协议和解决方案,但这些方案都不能直接被应用到一个去中心化的数据生态系统中。其中最主要的问题在于:数据(如语音数据、图像数据等)若想对一种人工智能算法(如深度学习)产生贡献,其数据本身需要被精确标注。如一句语音录音若想被语音识别算法所应用,必须有伴随这段语音信号的文本信号(即写明这段语音信号中的内容,以下称伴随数据)一并提供给算法进行训练。而获得对于某一数据对应的解释内容的工作,称为标注工作,通常需要人工进行校对标注。由此可见,目前的去中心化技术可以保证数据提供方提供的数据的唯一性、安全性及可对某一数据的交易进行记录等;也可以保证某一对数据的校对者校对产生的伴随数据的唯一性、安全性及可对某一校对后数据的交易进行记录。但目前,并不能以去中心化的方式保证人工校对数据工作的质量。若此环节不能保证,则产生的数据将不能被人工智能系统使用。发明内容

[0007]本发明的目的是针对现有技术中存在的技术缺陷,而提供一种去中心化数据生态系统。

3

CN 108681811 A[0008]

说 明 书

2/6页

为实现本发明的目的所采用的技术方案是:

[0009]一种去中心化数据生态系统,包括:[0010]任务分配系统,用于将数据需求方的数据需求信息按预定的分配规则分配给数据提供方;在接收到数据提供方提供的数据后,将数据校对任务按预设分配规则分别给数据校对方,由数据校对方对数据进行标注,并载入校准数据到数据质量检测系统;[0011]数据质量检测系统,用于接收数据校对方的校对数据,根据载入的校准数据和/或AI技术对校对数据进行检测,校对确认通过后向数据需求方交付成品数据,同时向结算系统提交支付指令,并同时向任务分配系统进行数据制作质量反馈;[0012]结算系统,用于接收数据需求方的预付费用,以及根据数据质量检测系统的支付指令进行费用结算,向预付费中向数据提供方以及数据校对方支付结算费用。[0013]所述数据需求信息包括数据类型、数据规模、数据价格、数据质量要求、数据质检方法。

[0014]所述任务分配系统在收到数据需求信息后,先按对数据需求方事先约定的规则进行提交需求的检验,如满足检验要求,则向数据提供方分配数据采集任务;否则向数据需求方反馈,要求数据需求方修改,反复执行,直到通过检验为止。

[0015]所述任务分配系统在向数据提供方分配数据采集任务前,先向下广播征集数据提供方及数据校对方,如在一定时间之内未能获得最小的参与方数量,则向数据需求方反馈结果,并提示数据需求方修改需求,直至达成最小参与方数量。

[0016]所述任务分配系统收到的数据提供方提交的数据中的每一个最小单元数据将与数据提供方的个人识别信息一并通过希运算生成一个固定长度的哈希值。

[0017]所述数据质量检测系统收到数据校对方提交的校对数据中的每一个最小单元数据将与数据标注信息、数据校对方的个人识别信息一并通过希运算生成一个固定长度的哈希值。

[0018]所述数据质量检测系统在校对不通过时,向数据校对方发送校对返工指令,数据校对方需在提高校对质量后再进行上传直到通过。

[0019]所述校准数据是由数据需求方提供的成品数据。

[0020]所述数据质量检测系统通过所述的校准数据和或人工智能来对校对数据进行检测。

[0021]本发明提供的去中心化数据生态系统,能以去中心化的方式保证人工校对数据工作的质量,保证产生的数据将能被人工智能系统使用。附图说明

[0022]图1是去中心化的数据生态系统的原理示意图。

具体实施方式

[0023]以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0024]参见图1所示,一种去中心化的数据生态系统,包括:[0025]任务分配系统,用于将数据需求方的数据需求信息按预定的分配规则分配给数据

4

CN 108681811 A

说 明 书

3/6页

提供方;在接收到数据提供方提供的数据后,将数据校对任务按预设分配规则分别给数据校对方,由数据校对方对数据进行标注,并载入校准数据到数据质量检测系统;[0026]数据质量检测系统,用于接收数据校对方的校对数据,根据载入的校准数据和/或AI技术对校对数据进行检测,校对确认通过后向数据需求方交付成品数据,同时向结算系统提交支付指令,并同时向任务分配系统进行数据制作质量反馈;[0027]结算系统,用于接收数据需求方的预付费用,以及根据数据质量检测系统的支付指令进行费用结算,向预付费中向数据提供方以及数据校对方支付结算费用。[0028]需要说明的是,本发明中,数据生态系统中的各个子系统都是以去中心化的方式进行构建的,即各个系统只是逻辑上存在,但实际上以分布式的方式部署在为数据生态系统提供算力的计算机中,通过加密的互联网形式进行数据机指令的传输。任何具有计算资源的实体都可以为系统提供算力并从中获利,其中也包括了数据需求方、数据提供方和数据校对方。

[0029]其中,本发明中,所述数据需求的数据需求信息或规格需求,由数据需求向任务分配系统提交包括,但不限于数据类型(如语音、图像、文本、视频等)、数据规模、数据价格、数据质量要求、数据质检方法(如采用数据需求方提供的校准数据质检,还是使用人工智能AI技术质检)。[0030]其中,所述任务分配系统在收到数据需求信息后,先按对数据需求方事先约定的规则进行提交需求的检验,如满足检验要求,则向数据提供方分配数据采集任务;否则向数据需求方反馈,反馈存在的问题,要求数据需求方修改;待数据需求方修改之后再次提交审核。反复执行此过程直到需求通过为止。[0031]其中,在数据需求方的数据需求通过系统审查之后,所述任务分配系统在向数据提供方分配数据采集任务前,先向下广播征集数据提供方以及数据校对方,如在一定时间之内未能获得系统要求的最小的参与方数量,则任务分配系统向数据需求方反馈结果,并提示数据需求方修改需求(如数据价格或报价),直至达成最小参与方数量。[0032]在达成最小参与方数量后,由数据需求方按一定比例预先支付费用到结算系统中,然后再由所述任务分配系统向数据提供方分配数据采集任务,开始数据的采集制作校对等后续的工作。

[0033]所述任务分配系统向数据提供方分配数据采集任务时,要考虑提供方数据制作的能力、制作数据质量等进行分配。[0034]其中,预先支付的费用的一部分将向对于本次数据采集任务提供校对的一方支付费用,另一部分则作为数据制作完成时对数据提供方结算的保证。在数据成功交付之前将停留在数据结算系统中,直到数据提供方提交的数据成品通过了数据质量检测系统的质量检测并提交给了数据需求方。

[0035]所述的数据提供方在收到采集任务后将按需求进行数据采集,在采集完成后向任务分配系统提交数据,其中,所述任务分配系统收到的数据提供方提交的数据中的每一个最小单元数据data_capture(如语音数据中,最小单元为一句话)将与数据提供方的个人识别信息userID一并通过希运算生成一个固定长度的哈希值,如下式所示:[0036]hc=hash(data_capture+userID)[0037]另外,数据提供方在向任务分配系统上传采集数据的同时也以广播的方式向系统

5

CN 108681811 A

说 明 书

4/6页

发布哈希值,用来声明对某一采集的数据的权利,以便保证结算时的准确性及二次销售结算的准确性。

[0038]当一定的数据被数据提供方上传至任务分配系统后,任务分配系统将校对任务按照一定规则(如按照数据校对方数据制作的能力、质量等)分配给数据校对方。[0039]数据校对方在收到校对任务后将按需求进行数据校对,在校对完成后向数据质量检测系统提交数据,所述数据质量检测系统收到数据校对方提交的校对数据中的每一个最小单元数据data_capture(如语音数据中,最小单元为一句话)将与数据校对方的个人识别信息userID、数据标签data_labelling一并通过希运算生成一个固定长度的哈希值,如下式所示。

[0040]hl=hash(data_capture+data_labelling+userID)

[0041]所述的数据校对方在向系统上传采集结果的同时也以广播的方式向系统发布哈希值,用来声明对某一校对的数据的权利,以便保证结算时的准确性及二次销售结算的准确性。

[0042]其中,具体的,本发明中,所述数据质量检测系统在校对不通过时,向数据校对方发送校对返工指令,数据校对方需在提高校对质量后再进行上传直到通过。在给数据需求方提供合格的数据后,所述的数据质量检测系统将向任务分配系统反馈数据提供方和数据校对方的工作质量,对于在处理过程中额外消耗算力(即质量不合格导致的系统额外二次验证等计算资源的浪费)的各方进行惩罚,措施包括但不限于扣除额外算力成本的结算、下次任务分配优先级的调整等。[0043]其中,本发明中,在进行质量检测时,所述校准数据是由数据需求方提供的通过人工方式检测的合格的成品数据。

[0044]由于原始数据是由数据提供方采集,伴随的标注信息由数据校对方提供。由于希望验证数据校对方的工作质量,在数据质量检测系统中,可以:

[0045]a)引入由数据需求方提供一些已经人工检查好的成品数据作为评价校对方工作质量的依据;[0046]b)加入一个或多个已有人工智能系统进行判定,其结果作为评价数据校对方工作质量的依据;

[0047]c)使用数据需求方提供的成品数据和人工智能系统进行综合判定,其结果作为评价数据校对方工作质量的依据。

[0048]下面对上述的数据质量检测的方法进行说明。[0049]a)数据需求方提供少量校准数据的软校验方法

[0050]若数据需求方所需的数据为N个单位(如语音识别数据库中一句语音信号可以为一个单位的数据),根据数据需求方对数据库质量的要求,可同时准备M条校准数据(M<6

CN 108681811 A[00]

说 明 书

5/6页

其中,Imax为单个数据校对方所允许承接的最大校对次数(根据初期提交校对申

请,每个数据校对方最多承接了Imax次校对任务,由于数据采集需要一定周期,数据将按照一定单位分批发放给数据校对方,如每次校对1000个单位的数据等);m为每次校对所添加的校准数据量(如每次校对1000个单位的数据中可包含20个校准数据,即实际标注数据为980单位)。这样可以保证每个校对方所使用的校准数据(即校验数据)不重复。[0055]在数据质量检测系统中,对于某一数据校对方提交的单位数据,提取此数据集中的部分校准数据进行校验。校验的方法为比较数据校对方的对于校对验证数据的结果与供方提供的校对结果的偏差。如对于图像数据,可进行标注物体像素级别偏差的验证。[0056]以最常用的图像方框标注为例,若图Pi标注方框的左上顶点坐标为(a,b),右下顶点坐标为(c,d),验证数据的左上顶点坐标为(A,B),右下顶点坐标为(C,D),则偏差diff为:

[0057][0058][0059]

其中,diffLT为标注方框左上(Left,Top)顶点和验证方框左上顶点的误差;diffRB为标注方框右下(Right,Bottom)顶点和验证方框右下顶点的误差;[0060]对任意的图片Pi,若偏差小于预设值(difftarget),则判定图片标注有效,即:

[0061]

如标注方框左上偏差1像素,右下偏差1像素,则diffLT与diffRB均为2。若difftarget大于2,则该标注可以通过。

[0063]若m单位校准数据的正确率大于预设值,则判定对应的实际数据有效。[00]b)系统使用人工智能系统,提供额外算力的校验方法[0065]若数据需求方无法提供校准数据,系统可通过使用人工智能系统,提供额外的算力进行校对质量的校验。

[0066]通常对于一个数据采集任务,其目的通常为提高已有人工智能系统的性能。故可以使用现有的人工智能系统验证。若所需数据的正确率Pd低于已有人工智能系统的识别率Ps,则可将校验后的数据通过现有人工智能系统产生结果和校对结果比对,若一致的比例大于等于Pd则数据可以通过验证。

[0067]若所需数据的正确率Pd高于已有人工智能系统的识别率Ps,则可将校验后的数据通过现有人工智能系统产生结果和校对结果比对,若一致的比例小于Ps则数据直接验证失败;若一致的比例大于Ps则将部分数据提出作为冗余校准数据,将这部分数据同时分配给多名数据校对方进行再次校对。取人数多的校对答案为正确值,跟此部分原始校对数据进行比较,若一致率大于Pd,则校对验证通过,否则不通过。冗余的校准数据中再次校验后人数多的校对答案可作为系统的冗余校准数据分配给其他未使用过这批校准数据的校对者进行a)中操作。

[0068]本发明上述数据质量检测系统的数据校验方法可以根据预设的验证方法及比率验证某一数据集合是否满足指定验证需求,即被验证的数据集将被允许存在一定程度的错误、误差等,只要能够满足预定的正确率、精度等,都可看做数据集合作为整体满足需求。[0069]以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技

[0062]

7

CN 108681811 A

说 明 书

6/6页

术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

8

CN 108681811 A

说 明 书 附 图

1/1页

图1

9

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.com 版权所有 湘ICP备2023021991号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务