一种面向市场主体监管和服务的数据分析系统[发明专利]
(12)发明专利申请
(10)申请公布号 CN 110796470 A(43)申请公布日 2020.02.14
(21)申请号 201910746170.7(22)申请日 2019.08.13
(71)申请人 广州中国科学院软件应用技术研究
所
地址 511458 广东省广州市南沙区海滨路
1121号A栋701室(72)发明人 张军情 危明铸 袁峰 (74)专利代理机构 广州容大专利代理事务所
(普通合伙) 44326
代理人 刘新年(51)Int.Cl.
G06Q 30/02(2012.01)
权利要求书2页 说明书9页 附图11页
CN 110796470 A(54)发明名称
一种面向市场主体监管和服务的数据分析系统
(57)摘要
本发明公开一种面向市场主体监管和服务的数据分析系统,涉及企业监管服务大数据技术领域,包括市场主体数据的大数据融合平台、市场主体监管服务模型系统和企业监管服务系统;在融合平台采集来自政府、企业、互联网的市场
合并和装主体数据通过ETL工具经过抽取、清洗、
载步骤采用基于机器学习算法实现对数据的预处理,采用Hadoop+HDFS+HBase+MySQL架构模式对数据的存储,基于HASH算法对数据进行更新,通过ECharts技术实现采集市场主体数据的可视化,建立市场主体信息标签来刻画一个市场主体实体,构建市场主体运行状态指标体系,设计市场主体精准监管模型,设计市场主体政策推送模型来创建市场主体监管和服务模型,实现双告知、双随机、市场主体政策等精准服务。
CN 110796470 A
权 利 要 求 书
1/2页
1.一种面向市场主体监管和服务的数据分析系统,其特征在于,包括市场主体数据的大数据融合平台、市场主体监管服务模型系统和企业监管服务系统;其中,
所述市场主体数据的大数据融合平台,包括:多源异构大数据采集单元、海量市场主体数据的存储和管理单元、数据更新方案单元、数据可视化方案单元;其中,所述多源异构大数据采集单元:用于通过多渠道抽取半结构化与非结构化数据,转化为结构化的记录并保存在本地数据库中;所述海量市场主体数据的存储和管理单元:用于构建Hadoop+HDFS+HBase+MySQL架构模式,通过所述架构模式对非结构化数据进行存储;所述数据更新方案单元:用于采用HASH算法形成数据指纹,利用数据指纹对数据进行更新;所述数据可视化方案单元:用于基于ECharts提供可视化图型,并支持多种数据格式;
所述市场主体监管服务模型系统,包括:市场主体画像大数据模型单元、市场主体运行状态模型单元和市场主体政策智能推送模型单元,其中,所述市场主体画像大数据模型单元:用于根据结构化数据构建市场主体画像数据模型;所述市场主体运行状态模型单元:用于根据市场主体数据构建市场主体运行状态模型,并对市场主体运行状态进行预测评估;所述市场主体政策智能推送模型单元:用于自动化汇聚归集政策信息,提取关键信息,获取政策与企业属性之间的相似性,进而匹配推送;
所述企业监管服务系统,包括:市场主体综合信息查询单元、智能“双告知”推送单元、算法科学“双随机”检查单元;其中,所述市场主体综合信息查询单元:用于在动态汇聚各类市场主体数据的基础上基于市场主体画像大数据模型,通过不同维度查询并展现市场主体档案的全息视图;所述智能“双告知”推送单元:用于根据市场主体登记的经营范围进行关键字切割和分析,智能匹配行业细分的分类,并根据所述分类查询市场主体所属监管部门和需要办理的许可,将市场主体信息和许可信息推送至监管部门和企业;所述算法科学“双随机”检查单元:用于通过随机算法匹配被检查对象与检查人员,所述随机算法按期待的抽查效果计算样本数量,以保证样本抽查结果呈正态分布。
2.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的市场主体数据的大数据融合平台,还包括:
面向数据挖掘的数据预处理单元,用于采用基于机器学习算法对原始数据进行预处理,以形成高质量、可供分析与挖掘的基准数据。
3.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的市场主体监管服务模型系统,还包括:
精准监管模型单元:用于采用随机森林算法对市场主体原始数据进行变量选择以便形成一个简化高效的数据集,再利用人工神经网络对数据集进行建模及分析。
4.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的企业监管服务系统,还包括:
信息共享统一联合监管单元,用于,以进行各部门信息融合共享。5.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的企业监管服务系统,还包括:
监管结果智能预警服务单元,用于对市场主体数据进行机器学习建模市场主体监管模型,根据所述模型对未知的市场主体数据进行预测和可视化分析,设置指标预警阈值,响应于超出预警阈值则向监管部门和市场主体发送提醒指令。
2
CN 110796470 A
权 利 要 求 书
2/2页
6.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的企业监管服务系统,还包括:
市场主体信息分析服务单元,用于对行业信息及市场主体个体信息进行汇集、发布及查询。
7.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的企业监管服务系统,还包括:
政策智能推送服务单元,用于通过大数据技术归集各级政府最新发布的政策文件,为不同企业性质的市场主体用户提供政策信息检索和政策信息智能推送服务。
8.根据权利要求1所述的面向市场主体监管和服务的数据分析系统,其特征在于,所述的企业监管服务系统,还包括:
社会综合信息服务单元;用于查询服务市场主体的服务信息。
3
CN 110796470 A
说 明 书
一种面向市场主体监管和服务的数据分析系统
1/9页
技术领域
[0001]本发明涉及企业监管服务大数据技术领域,尤其涉及一种面向市场主体监管和服务的数 据分析系统。背景技术
[0002]基于信息价值服务现代企业,创新企业服务模式。近3年来,国内外已经有很多同类型 系统,例如企查查、天眼查等产品,但大部分系统都是属于企业基础信息及信用信息的查询 系统,缺少详细到企业监管和预测,缺少服务企业的同时服务行政部门的功能,且该类系统 的数据更新不及时,属于较为传统的技术,创新度不够;现有技术的主要缺点是缺少市场主 体监管和服务的模型支撑从而导致在监管和服务过程中靶向性不强,而影响精准监管和主动 服务。此外,市场主体数据来源多且数据格式多样,未经数据融合步骤直接应用导致市场主 体数据准确性及应用效率低下。
[0003][0004][0005]
发明内容
[0006]本发明针对背景技术的问题提供一种面向市场主体监管和服务的数据分析系统,与上述 企业相比,该系统围绕企业经营、行为、社会等活动,为每个企业建立用户画像,以大数据+ 机器学习等新一代技术为基础,整合与企业经营相关的社会数据、政策资讯和社会资源及互 联网,为企业提供更富价值、更加智能、准确和个性化的综合服务,有效提升企业和政府的 宏观决策和监管能力。[0007]为了实现上述目的,本发明提出一种面向市场主体监管和服务的数据分析系统,包括市 场主体数据的大数据融合平台、市场主体监管服务模型系统和企业监管服务系统;其中,
[0008]所述市场主体数据的大数据融合平台,包括:多源异构大数据采集单元、海量市场主体 数据的存储和管理单元、数据更新方案单元、数据可视化方案单元;其中,所述多源异构大 数据采集单元:用于通过多渠道抽取半结构化与非结构化数据,转化为结构化的记录并保存 在本地数据库中;所述海量市场主体数据的存储和管理单元:用于构建 Hadoop+HDFS+HBase+MySQL架构模式,通过所述架构模式对非结构化数据进行存储;所述数 据更新方案单元:用于采用HASH算法形成数据指纹,利用数据指纹对数据进行更新;所述数 据可视化方案单元:用于基于ECharts提供可视化图型,并支持多种数据格式;[0009]所述市场主体监管服务模型系统,包括:市场主体画像大数据模型单元、市场主体运行 状态模型单元和市场主体政策智能推送模型单元,其中,所述市场主体画像大数据模型单元: 用于根据结构化数据构建市场主体画像数据模型;所述市场主体运行状态模型单元:用于根 据市场主体数据构建市场主体运行状态模型,并对市场主体运行状态进行预测评估;所述市 场主体政策智能推送模型单元:用于自动化汇聚归集政策信息,提取关键信
4
CN 110796470 A
说 明 书
2/9页
息,获取政策与 企业属性之间的相似性,进而匹配推送;[0010]所述企业监管服务系统,包括:市场主体综合信息查询单元、智能“双告知”推送单元、 算法科学“双随机”检查单元;其中,所述市场主体综合信息查询单元:用于在动态汇聚各 类市场主体数据的基础上基于市场主体画像大数据模型,通过不同维度查询并展现市场主体 档案的全息视图;所述智能“双告知”推送单元:用于根据市场主体登记的经营范围进行关 键字切割和分析,智能匹配行业细分的分类,并根据所述分类查询市场主体所属监管部门和 需要办理的许可,将市场主体信息和许可信息推送至监管部门和企业;所述算法科学“双随 机”检查单元:用于通过随机算法匹配被检查对象与检查人员,所述随机算法按期待的抽查 效果计算样本数量,以保证样本抽查结果呈正态分布。[0011]优选地,所述的市场主体数据的大数据融合平台,还包括:[0012]面向数据挖掘的数据预处理单元,用于采用基于机器学习算法对原始数据进行预处理, 以形成高质量、可供分析与挖掘的基准数据。[0013]优选地,所述的市场主体监管服务模型系统,还包括:[0014]精准监管模型单元:用于采用随机森林算法对市场主体原始数据进行变量选择以便形成 一个简化高效的数据集,再利用人工神经网络对数据集进行建模及分析。[0015]优选地,所述的企业监管服务系统,还包括:[0016]信息共享统一联合监管单元,用于,以进行各部门信息融合共享。[0017]优选地,所述的企业监管服务系统,还包括:[0018]监管结果智能预警服务单元,用于对市场主体数据进行机器学习建模市场主体监管模型, 根据所述模型对未知的市场主体数据进行预测和可视化分析,设置指标预警阈值,响应于超 出预警阈值则向监管部门和市场主体发送提醒指令。[0019]优选地,所述的企业监管服务系统,还包括:[0020]市场主体信息分析服务单元,用于对行业信息及市场主体个体信息进行汇集、发布及查 询。
[0021]优选地,所述的企业监管服务系统,还包括:[0022]政策智能推送服务单元,用于通过大数据技术归集各级政府最新发布的政策文件,为不 同企业性质的市场主体用户提供政策信息检索和政策信息智能推送服务。[0023]优选地,所述的企业监管服务系统,还包括:[0024]社会综合信息服务单元;用于查询服务市场主体的服务信息。[0025]本发明提出一种面向市场主体监管和服务的数据分析系统,需要包括市场主体数据的采 集及可视化、市场主体监管和服务模型、市场主体监管和服务系统设计实现三个过程,具体 步骤如下:
[0026]①市场主体数据的采集及可视化,本发明市场主体数据的采集及可视化主要是通过构建 市场主体数据的大数据融合平台(以下简称“融合平台”)实现,在融合平台采集来自政府、 企业、互联网的市场主体数据通过ETL工具经过抽取、清洗、合并和装载步骤采用基于机器 学习算法实现对数据的预处理,采用Hadoop+HDFS+HBase+MySQL架构模式对数据的存储,基 于HASH算法对数据进行更新,通过ECharts技术实现采集市场主体数据的可视化。
[0027]②创建市场主体监管和服务模型,通过①的设计为本步骤提供建模所需的市场主
5
CN 110796470 A
说 明 书
3/9页
体数据, 建立市场主体信息标签来刻画一个市场主体实体,构建市场主体运行状态指标体系,设计市 场主体精准监管模型,设计市场主体政策推送模型来创建市场主体监管和服务模型。
[0028]③设计市场主体监管和服务系统,通过②的设计为本步骤提供市场主体监管和服务模型, 实现双告知、双随机、市场主体政策等精准服务。[0029]通过市场主体数据的采集及可视化、市场主体监管和服务模型、市场主体监管和服务系 统设计实现三个过程,并充分利用市场主体监管和服务模型,解决缺少市场主体监管和服务 的模型支撑从而导致在监管和服务过程中靶向性不强的问题。通过对市场主体数据运用,实 现市场主体的精准监管和主动服务,有效提高服务效率和质量。附图说明
[0030]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图示出的结构获得其他的附图。
[0031]图1为本发明一种实施例中面向市场主体监管和服务的数据分析系统结构示意图;
[0032]图2为本发明一种实施例中监管和服务的大数据分析系统架构示意图;[0033]图3为本发明一种实施例中市场主体数据的大数据融合平台示意图;[0034]图4为本发明一种实施例中多源异构的市场主体大数据采集框架示意图;[0035]图5为本发明一种实施例中海量市场主体数据的存储结构示意图;[0036]图6为本发明一种实施例中数据预处理过程示意图;
[0037]图7为本发明一种实施例中哈希算法进行数据更新的主要流程示意图;[0038]图8为本发明一种实施例中数据可视化组件的架构图;
[0039]图9为本发明一种实施例中市场主体监管服务模型系统结构示意图;[0040]图10为本发明一种实施例中市场主体画像模型示意图;[0041]图11为本发明一种实施例中市场主体画像建立流程示意图;[0042]图12为本发明一种实施例中数据建模过程示意图;
[0043]图13为本发明一种实施例中基于机器学习的市场主体监管建模框架示意图;[0044]图14为本发明一种实施例中文档相似度计算流程图
[0045]图15为本发明一种实施例中文档相似性实现步骤示意图;[0046]图16为本发明一种实施例中企业监管服务系统示意图;
[0047]图17为本发明一种实施例中市场主体综合信息查询示意图;[0048]图18为本发明一种实施例中智能双告知推送流程示意图;[0049]图19为本发明一种实施例中科学双随机检查流程示意图;[0050]图20为本发明一种实施例中信息共享统一联合监管示意图;[0051]图21为本发明一种实施例中监管结果智能预警服务示意图;[0052]本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
6
CN 110796470 A
说 明 书
4/9页
具体实施方式
[0053]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。[0054]需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……), 则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、 运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。[0055]另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等 的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术 特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特 征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能 够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合 不存在,也不在本发明要求的保护范围之内。
[0056]本发明提出一种面向市场主体监管和服务的数据分析系统;[0057]本发明优选实施例中,如图1所示,包括市场主体数据的大数据融合平台、市场主体监 管服务模型系统和企业监管服务系统,此外,还包括后台管理系统和多源异构大数据采集系 统;为市场主体用户提供市场主体活跃度、市场主体信用、市场主体用工、市场主体综治指 数等信息在线查询与在线分析等信息服务。采用HDFS作为分布式存储;Spark作为大数据计算 引擎;ZooKeeper作为节点协调服务;确保大数据分析系统的线性扩展和高可用性。如图2所 示;
[0058]本发明优选实施例中,如图3所示,所述市场主体数据的大数据融合平台,包括:多源 异构大数据采集单元、海量市场主体数据的存储和管理单元、数据更新方案单元、面向数据挖 掘的数据预处理单元、数据可视化方案单元;[0059]本发明优选实施例中,所述多源异构大数据采集单元:用于通过多渠道抽取半结构化与 非结构化数据,转化为结构化的记录并保存在本地数据库中;具体为:市场主体数据主要来 自政府数据开放网站、互联网和企业,大部分都属于结构化数据,大数据分析系统采用ETL 工具Kettle作为采集结构化数据的手段。ETL(Extract,Transform,Load)是建立大数据分 析平台的重要组成部分,它将大数据分析平台中所需的数据按数据仓库建立的方法每天或定 期从各个业务系统中采集详尽的业务数据,并根据各自的需求进行数据调整,数据迁移过程 中需将原始数据进行抽取、清洗、合并和装载。在此过程中必须保证数据的完备性和数据的 一致性。当业务数据量过大,未避免Mysql数据仓库压力过大,亦可将业务数据通过Kettle 迁移到Hadoop平台的数据库Hbase中。[0060]多源异构的市场主体大数据采集系统根据任务配置,利用ETL-Kettle、网络爬虫等工具 批量而精确地从政府业务系统、互联网、企业信息提供商等抽取半结构化与非结构化数据, 转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息 的获取,如图4所示:[0061]本发明优选实施例中,所述海量市场主体数据的存储和管理单元:用于构建 Hadoop+HDFS+HBase+MySQL架构模式,通过所述架构模式对非结构化数据进行存储;具体
7
CN 110796470 A
说 明 书
5/9页
为: 针对海量市场主体数据,结合市场主体风险评估业务,充分考虑系统存储的可扩展性,采用 Hadoop+HDFS+HBase+MySQL架构模式对非结构化数据的存储。根据市场主体风险评估业务,将 海量市场主体数据划分为临时数据区、大数据区、主题数据区、应用集市数据区、训练数据 区、信用增值数据区和历史归档数据区。海量市场主体数据的存储结构如图5所示;
[0062]本发明优选实施例中,面向数据挖掘的数据预处理单元:用于采用基于机器学习算法对 原始数据进行预处理,以形成高质量、可供分析与挖掘的基准数据;具体为:系统采集的原 始市场主体数据多数存在冗余、不完整、不一致等问题,无法直接进行数据挖掘,或挖掘结 果差强人意,必须经过数据预处理方能达到预期效果。本发明采用基于机器学习算法对原始 数据进行预处理,形成高质量的、可供分析与挖掘的基准数据,为市场主体风险评估应用奠 定数据基础。数据预处理过程如图6所示;[0063]本发明优选实施例中,所述数据更新方案单元:用于采用HASH算法形成数据指纹,利用 数据指纹对数据进行更新;具体为:针对重复数据删除技术做了较为深入的研究,其核心就 是生成数据指纹,数据指纹是数据块的本质特征,理想状态是每个唯一数据块具有唯一的数 据指纹,不同的数据块具有不同的数据指纹。为保证系统中数据的实时性需要定期接入相同 数据来源的最新数据做数据更新,避免两批数据存在大量重复数据,提出基于哈希函数的海 量数据更新方案,用于解决在数据处理模块中对原始数据频繁更新的需求。哈希算法进行数 据更新的主要流程如图7所示;[0064]本发明优选实施例中,所述数据可视化方案单元:用于基于ECharts提供可视化图型, 并支持多种数据格式;具体为:充分ECharts提供了丰富的可视化图型,并支持多种数据格式 无需转换直接使用,基于此,本发明基于ECharts开发一个数据可视化组件,如图8所示;
[0065]本发明优选实施例中,如图9所示,所述市场主体监管服务模型系统,包括:市场主体 画像大数据模型单元、市场主体运行状态模型单元、精准监管模型单元和市场主体政策智能 推送模型单元,
[0066]本发明优选实施例中,所述市场主体画像大数据模型单元:用于根据结构化数据构建市 场主体画像数据模型;具体为:市场主体设立、变更、注销及生产经营环节,存在许多数据。 从登记事项来讲分为公司登记、合伙企业的登记、个人独资企业的登记、分支机构的登记、 个体工商户的登记。公司登记包括名称、住所、法定代表人、注册资本、公司类型、经营范 围、营业期限等;合伙企业的登记事项包括名称、经营场所、执行事务合伙人、经营范围、 合伙企业类型、合伙人姓名等;个人独资企业登记包括名称、经营场所、投资人姓名及住所、 经营范围等;分支机构登记包括名称、经营场所、经营范围、负责人;个体工商户登记包括 经营者姓名及住所、组成形式、经营场所、经营范围。企业年报数据包括企业通信地址、联 系电话、企业邮箱;企业开业、歇业、清算等存续状态信息;企业网站、网店、网址等信息; 企业从业人数、资产总额、负债总额、对外提供担保、所有者权益合计、营业总收入、主营 业务收入、利润总额、净利润、纳税总额信息。根据以上这些不同维度的信息抽取出的结构 化数据构建市场主体画像数据模型如图10所示,市场主体画像建立流程如图11所示;[0067]本发明优选实施例中,所述市场主体运行状态模型单元:用于根据市场主体数据构建市 场主体运行状态模型,并对市场主体运行状态进行预测评估;具体为:本发明在融
8
CN 110796470 A
说 明 书
6/9页
合了政务 公开数据和互联网大数据的基础上,深入分析市场主体生产过程所需数据资源,依托海量市 场主体大数据,综合应用了统计分析与概率论、数据挖掘、机器学习等技术与方法。在统计 学与概率论上,应用回归分析、主成分分析、假设检验、显著性检验以及残差分析等方法; 在数据挖掘上,运用了流行的开源分析工具R作为挖掘工具,并集成数据挖掘里用到的机器 学习算法,如随机森林、决策树、神经网络、Adaptive-LASSO、LARS等算法作为技术与手段, 对市场主体数据按不同模型进行分析、建模。结合市场主体运行分析业务,构建市场主体运 行状态模型,深入分析与挖掘市场主体运行情况。市场主体运行状态分正常、提示、警示三 个状态;
[0068]本方法数据建模过程如图12所示,例如:[0069]抽取企业年度纳税额,年度用工人数,企业申请专利数,高新技术认定次数,行政处罚 次数,涉及法律诉讼次数,列入异常名录次数,企业注册资本,双随机抽查不正常次数,年 度用水用电量等。
[0070]市场主体运行状态—正常:企业信息无变更。[0071]市场主体运行状态—提示:系统采集到工商信息、经营异常、抽查检查、对外投资、开 庭公告等信息,经模型处理,市场主体状态标为提示。[0072]市场主体运行状态—警示:系统采集到行政处罚、清算信息、严重违法、股东变更、实 际控制变更等信息,经模型处理,市场主体状态标为警示。[0073]本发明优选实施例中,精准监管模型单元:用于采用随机森林算法对市场主体原始数据 进行变量选择以便形成一个简化高效的数据集,再利用人工神经网络对数据集进行建模及分 析;具体为:
[0074]本方法采用机器学习技术根据某市有关市场主体的真实数据对其展开市场主体运行风险 研究。首先运用随机森林算法对原始数据进行变量选择以便形成一个简化、高效的数据集, 然后人工神经网络对数据集进行建模及分析,并深入研究各性能指标的意义。抽取企业名称、 认缴注册资本、备案实收资本、行业类别、行业大类、企业类型、存续期、登记机关、监管 机关、企业大类等数据信息,应用Neural Network对市场主体数据集建立人工神经模型 Ann.model并通过调节模型参数逐步提高其性能,确定Ann.model模型参数:decay=0.1, size=20,maxit=200,MaxNWts=10000,其中(decay为衰变率,即学习率;size为隐藏神经 元数目;maxit为算法最大迭代数目;MaxNWts为运行的最大权重数)。将数据集按7:3比例 分成两个子集,其中训练集占7成,测试集占3成,并采用十折交叉法对其验证。通过Ann.model 模型的confusionMatrix矩阵、ROC曲线各个性能指标的计算,深入分析和比较各个模型的 Sensitivity、Specificity、Kappa、Accuracy、AUC等性能指数,并确定性能最佳的模型。 得到分类模型Ann.model,然后用模型对市场主体数据进行预测,预测结果分正常企业[数据 表示1]与不正常企业[数据表示0]。对预测结果不正常的企业开展重点监管。通过模型可以 有效地指导行政人员对异常市场主体进行重点监管,实现市场监管的智能化和精细化。应用 该模型能够有效地提高市场主体监管的准确性,提升市场主体风险管理水平。市场主体监管 建模框架如图13所示。[0075]本发明优选实施例中,所述市场主体政策智能推送模型单元:用于自动化汇聚归集政策 信息,提取关键信息,获取政策与企业属性之间的相似性,进而匹配推送;具体为:[0076]本发明建立市场主体政策推送模型,通过互联网技术实现各级政府最新发布的政
9
CN 110796470 A
说 明 书
7/9页
策文件、 行业扶持政策以及政务资讯的自动化汇聚归集,为平台企业用户提供一站式的政策资讯互动 入口。通过NLP(自然语言处理)技术对政策以及企业属性(例如:经营范围)进行词向量 化、文本清洗、关键字提取、创建迭代器iter和DTM矩阵等操作,然后运用Jaccard和Cosine 算法计算政策和企业属性之间(文档文档之间)相似性,实现政策-市场主体的精准推送和匹 配,如图14、图15所示;[0077]本发明优选实施例中,如图16所示,所述企业监管服务系统,包括:市场主体综合信息 查询单元、智能“双告知”推送单元、算法科学“双随机”检查单元、信息共享统一联合监 管单元、监管结果智能预警服务单元、市场主体信息分析服务单元、政策智能推送服务单元、 社会综合信息服务单元;[0078]本发明优选实施例中,所述市场主体综合信息查询单元:用于在动态汇聚各类市场主体 数据的基础上基于市场主体画像大数据模型,通过不同维度查询并展现市场主体档案的全息 视图;具体为:动态汇聚各类市场主体数据的基础上,基于市场主体画像大数据模型,系统 提供市场主体综合信息查询与展示功能。系统支持各部门企业数据的动态扩展和自动关联, 可以自动按信息类别、来源部门、时间轴等进行了信息的重新组织,并按不同维度查询并展 现市场主体档案的全息视图。市场主体综合信息查询如图17所示;[0079]本发明优选实施例中,所述智能“双告知”推送单元:用于根据市场主体登记的经营范 围进行关键字切割和分析,智能匹配行业细分的分类,并根据所述分类查询市场主体所属监 管部门和需要办理的许可,将市场主体信息和许可信息推送至监管部门和企业;智能双告知 推送流程如图18所示;[0080]本发明优选实施例中,所述算法科学“双随机”检查单元:用于‘双随机’抽查规 则设置,采用随机算法,按希望达到的抽查效果计算样本数量,保证样本抽查结果呈正态分 布,保障‘双随机’抽查的合理性和公平性,大大提升抽查的实际效果。双随机检查流程如 图19所示;
[0081]本发明优选实施例中,信息共享统一联合监管单元,用于 ,通过数据分析智能,各部门协同。信息共享 统一联合监管如图20所示;[0082]本发明优选实施例中,监管结果智能预警服务单元,用于对海量市场主体数据进行机器 学习建模市场主体监管模型,然后根据模型对未知的市场主体数据进行预测和可视化分析, 为市场主体的经营状况等各类指标设置预警阈值,主动提醒监管部门和市场主体,提高政府 监管效能,为科学的政府决策提供有力保障。监管结果智能预警服务如图21所示。
[0083]本发明优选实施例中,市场主体信息分析服务单元,用于对行业信息及市场主体个体信 息进行汇集、发布及查询,具体为:提供的市场主体信息分析服务主要包括行业信息服务及 市场主体个体信息服务。行业信息服务包括同行业发展总体情况、区域发展情况信息、行业 标杆企业情况、行业最新动态等;市场主体个体信息服务包括市场主体基础信息查询、市场 主体诚信查询、市场主体用工情况、市场主体租房情况、市场主体用水用电情况、关联企业 情况、智能提醒等,主动发现市场主体发展过程中深层次问题及未来发展趋势,提供高效企 业服务。
[0084]本发明优选实施例中,政策智能推送服务单元,用于通过大数据技术归集各级政府最新 发布的政策文件,为不同企业性质的市场主体用户提供政策信息检索和政策信息
10
CN 110796470 A
说 明 书
8/9页
智能推送服 务,具体为:通过网络爬虫等大数据技术归集各级政府最新发布的政策文件,为不同企业性 质的市场主体用户提供政策信息检索和政策信息智能推送服务,以便市场主体能够快速、准 确地了解与自身相关的政策,为市场主体经营决策提供政策依据。[0085]政策智能推送:政策智能推送由政策资讯订阅、订阅推送服务、智能推荐服务三个部分 组成,其中政策资讯订阅实现用户静态订阅增加、修改、查询功能;订阅推送服务提供根据 用户订阅内容以及自动化标签系统的标签分类预测,实现新增政策资讯到各个订阅栏目更新 列表的归集,并对订阅用户进行推送;智能推荐服务在静态订阅的基础上更进一步,根据对 用户在本项目平台的政策资讯浏览、评分、收藏等行为数据进行数据挖掘分析,在用户订阅 栏目的范围之外,智能推荐用户近期感兴趣的政策资讯信息。[0086]政策资讯订阅:注册用户在政策资讯服务界面可对感兴趣的政策资讯栏目进行订阅,默 认订阅的栏目由用户在注册时,根据填写的行业及工作职能自动生成。如一名注册时所属行 业为人工智能行业、工作职能为人力资源管理的用户,默认订阅的政策资讯栏目包括人工智 能行业政策资讯、人力资源政策资讯。用户可自行在政策资讯服务页面更改、增加自身订阅 的栏目内容。[0087]订阅栏目推送服务:当用户所订阅栏目的信息有更新时,将根据订阅方式和渠道,向订 阅人进行推送。[0088]智能推荐服务:由于用户兴趣点及政策资讯关注点往往会随着行业变化以及用户自身职 能发展及工作内容而变化,静态的栏目订阅难以适应这种用户偏好的变化。智能推荐服务在 静态订阅的基础上更进一步,根据政策智能推送模型,根据对用户在本项目平台的政策资讯 浏览、评分、收藏等行为数据进行数据挖掘分析,在用户订阅栏目的范围之外,智能推荐用 户可能感兴趣、并未阅读过的政策资讯信息,即通过算法,一边提取内容的特征,一边提取 用户兴趣的特征,然后让内容与用户的兴趣匹配。[0089]本发明优选实施例中,社会综合信息服务单元;用于查询服务市场主体的服务信息,具 体为:整合市场主体在生产经营过程中所涉及的社会化服务信息,如中介服务、代理记账服 务、投融资服务、知识产权代理服务、出租服务、装修服务、法律援助、人才培训等,方便 企业快速查找相应的服务市场主体,查看信用情况、在线咨询、在线交易、事后评价等。
[0090]中介机构信息服务:平台整合各职能部门在审批过程中涉及的中介服务,实现中介机构 的接入,入住,方便企业在办事过程中随时查找相应的中介服务机构,查看信用情况、在线 咨询、在线交易、事后评价等。平台实现对中介机构在资质、执业等方面进行监管,满足政 府对中介市场进行规范监管的需求。[0091]金融贷款服务:依托平台沉淀的市场主体数据,方便小贷公司评估贷款方还款意愿及贷 款方甄别小贷公司的合法合规性,从而有效解决中小企业融资难问题。[0092]招商服务:方便来的投资企业,专门梳理投资指南,方便投资方及时了解。提供投资环 境、投资政策、投资资讯、投资环境、投资政策、投资资讯等招商相关信息服务。[0093]综上所述,本发明具有如下创新点:
[0094]1.本方案构建涉企数据的大数据融合平台,明确多源异构大数据采集的方法,实现海量 涉企数据的存储和管理,采用机器学习的方法实现了面向数据挖掘的数据预处理设计,明确 了基于HASH算法的数据更新方法,实现了基于ECharts的数据可视化。
11
CN 110796470 A[0095]
说 明 书
9/9页
2.本方案从企业画像大数据模型、企业运行状态模型、企业精准监管模型、企业政
策智 能推送模型四个方面完成了企业监管和服务的模型设计。[0096]3.本方案从企业综合信息查询、精准智能“双告知”推送、算法科学“双随机”检查、 信息共享统一联合监管、监管结果智能预警服务五个方面完成了企业精准监管和服务系统设 计。
[0097]4.本方案从企业信息分析服务、政策智能推送服务、社会综合信息服务三个方面完成了 企业智能化服务系统设计[0098]5.动态汇集涉企数据,推动社会数据开放共享。本项目动态汇聚并融合来自政府和社会 的涉企大数据,初步实现了跨地域、跨行业的数据整合,打造能够面向整个社会开放的数据 共享平台。
[0099]6.利用Spark框架的分布式计算能力,结合Spark SQL的异构数据数据处理能力,采用 多数据源在决策级上的加权平均融合方法,将数据转换成Spark的DataFrame注入内存中, 然后通过Spark的Logicplan对内存中的数据使用SQL语句进行查询,进而满足分析系统的 要求。
[0100]7.本方法用决策树进行建模,在决策树理论的基础上,重新编写函数rpartXse实现整个 建模过程动态优化(包括建树、剪枝、调参)。用随机森林算法对变量进行过滤,随机森林融 合了决策树与集成的优势,它将数据集按照不同的响应变量一分为二。通过基尼指数(Gini) 计算每个变量对分类树每个节点上观察值的异质性的影响,从而确定哪些特征值对建模影响 大,找出那些对预测目标影响大的变量(特征)。[0101]以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的 发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相 关的技术领域均包括在本发明的专利保护范围内。
12
CN 110796470 A
说 明 书 附 图
1/11页
图1
13
CN 110796470 A
说 明 书 附 图
2/11页
图2
图3
14
CN 110796470 A
说 明 书 附 图
3/11页
图4
图5
15
CN 110796470 A
说 明 书 附 图
4/11页
图6
16
CN 110796470 A
说 明 书 附 图
5/11页
图7
图8
17
CN 110796470 A
说 明 书 附 图
6/11页
图9
图10
18
CN 110796470 A
说 明 书 附 图
7/11页
图11
图12
19
CN 110796470 A
说 明 书 附 图
8/11页
图13
20
CN 110796470 A
说 明 书 附 图
9/11页
图14
图15
21
CN 110796470 A
说 明 书 附 图
10/11页
图16
图17
图18
22
CN 110796470 A
说 明 书 附 图
11/11页
图19
图20
图21
23
因篇幅问题不能全部显示,请点此查看更多更全内容