当前位置:首页 > 业界动态 > 正文

百分比科技:多模态数据融合治理实践

数据治理是数据应用的基础。 近年来,推进数据治理体系建设一直是业界的热门话题。

尤其是对于数字政务和企业数字化建设中的多模态数据,如何更好地进行数据治理,建立全球数据标准,提高数据质量,盘活数据资产,支撑数据融合,最终释放数据价值引导业务创新越来越受到大家的重视。

百分比科技:多模态数据融合治理实践  第1张

为了解决异构数据融合难的问题,百分科技在数据治理中引入自然语言处理、动态知识图谱、智能交互分析等技术,实现多PB、多源异构数据源复杂场景下的数字政务。 基于数据治理项目实施成果,总结沉淀了一套数据治理“PAI”实施方法论。

“PAI”实施方法论,即流程化、自动化、智能化,循序渐进地不断提升数据治理能力,为政府和企业后续数据赋能业务赋能。 并为数据驱动业务创新打下坚实的基础。

1. 加工处理

处理是数据治理的第一步,也是自动化、智能化的基础。 处理提供工作流程和模板。

首先,通过梳理数据治理执行流程,将数据治理工作分为需求调研、概要设计、详细设计、数据开发、部署运维、培训六个阶段。 同时,针对上述过程,对各节点的标准输入输出项进行标准化,将标准输入输出模板化。 包括:源系统业务侧研究、源系统技术侧研究、业务流程图、网络架构图、业务系统账本等。另外,对行业常识进行整理和完善后,进行积累,积累成行业版本知识(提取通用版本),如标准文档排序:1.代码表排序,2.数据元素标准排序(数据仓库行业模型对应的标准排序)。

基于整个治理流程的六个阶段,百分科技对具体产出进行了详细划分,并明确了每项具体工作的工作内容和输入输出产品,从而实现在不同项目交付单元的实施。 项目实施可以按照标准化流程进行。

2.自动化

自动化通过产品和工具实现模块化、批量化开发,在保证开发标准化的同时实现降本增效。

数据治理项目精简后,整个工作内容和具体工作产出已经比较清晰,但过程中会涉及大量的开发工作,而且很多工作是高度重复或相似的。 而且开发时使用的流程和技术都是一样的,只是配置不同,所以自动化开发应运而生。

自动化开发可以在流程完成后自动开发相关节点和标准输入输出,减少人力成本,让大家专注于业务层面和新技术开发,避免人工重复工作,例如自动化数据接入和资源库、主题库脚本自动化开发等。

自动化可以实现产品赋能和工具效率提升。 整个模型设计完成后,可以与基于流程的内容相结合,实现50%-75%以上的效率提升,大大减少人力成本和时间。

百分比科技:多模态数据融合治理实践  第2张

在产品赋能上,百分科技针对数据资产一体化管控的需求,提供资产管理平台; 标签管理平台,满足动态标签管理的需求; 数据服务需求的资源服务平台,实现数据资源的高效协作; 并基于业务展现需求的角度,全方位、多维度提供BI平台。 基于这些平台,可以更好地降低实施人员的技能要求,更好地完成数据治理工作。

在工具效率提升方面,百分科技还针对资源库和主题库的处理抽象出了不同的数据处理策略,形成不同的算法模板。 通过这些算法模板,配置与数据处理相对应的数据处理策略。 脚本可以自动生成。 常规处理策略包括:添加全量历史拉链表、流量表等。

此外,还提供了数据访问和调度的批量开发工具。 数据访问批量开发时,只需配置数据库连接、源数据库、源表、频率、增量量、增量条件、目标表即可生成相应的数据访问作业。 调度配置只需在Excel中配置依赖关系和作业属性即可。 目前,大多数批处理作业都是按天执行的,可以直接生成; 对于分钟级和小时级的作业,只需修改模板配置即可。

3. 智能化

智能提供非结构化数据处理和分析能力,以及结构化数据治理效率和质量提升能力。

对于非结构化数据,第一步是数据获取。 通过文档提取、文本分析、视频分析、语音分析等工具,可以对数据进行快速电子化处理,并将电子数据结构化,以辅助后期。 决策分析。

此外,百分科技依托认知智能实验室,运用机器学习、深度学习、迁移学习等技术,结合行业知识,在应急、公安、医疗等多个行业进行知识提取、知识建模和知识融合。综合媒体。 知识图谱的构建。

对于结构化数据,当前的数据治理流程中仍然存在大量的人工处理工作,而这些工作大部分与业务领域知识和实际数据情况强相关。 因此,如何快速掌握行业知识、提升行业经验是数据治理过程中新的“绊脚石”。 如何更好地积累和积累行业知识并智能地提供设计和处理建议,是数据治理“深水区”面临的问题。 新的挑战。 智能数据治理将为我们的数据治理工作开辟一个“新天地”。 一般包括三个方面:

1.智能数据元素标准。 百分科技总结了一套数据元标准构建流程,以快速获取行业术语、积累行业知识,包括统一实体、统一命名、统一字段类型和统一精度,并建立标准命名词汇表。 最终实现元数据标准化。 其中:文档抽取、中文规范化、行业知识切分、行业知识翻译、行业知识缩写等都依赖于智能化管理措施。

2.智能数据模型设计,数据中台模型设计过程中知识建模过程中的概念模型(CDM)、逻辑模型(LDM)、物理模型(PDM)以及本体定义、实体定义、属性定义和关系定义差不多完全对应,目前的数据中心模型依赖于需求模型人员的行业经验设计。 百分比科技目前正在通过深度学习和迁移学习进行智能领域模型设计研究,逐步实现行业主题模型的智能构建。

3、智能数据融合与处理。 在数据处理层面,目前的流程类似于建模流程,依靠建模人员调研各个业务系统的数据,通过映射文档整理​​数据集成规则,特别是主数据处理流程,如企业工商等。 对于信息的主数据合并,其外部数据源和内部业务系统对应的字段之前都是人工整理的,需要人工读取几十条、几百条数据才能进行处理。 这个过程与知识图谱构建中的实体消歧和属性对齐的概念不谋而合。 百分科技也在通过智能化手段对主数据处理进行智能化研究,逐步减少模型人员的工作,实现数据处理的智能化。

百分比科技:多模态数据融合治理实践  第3张

对于结构化数据,元数据、数据等业务知识输入,如专业书籍、论文、政策文档等,与知识图谱数据相结合,实现结构化数据的智能治理,逐步减少或替代人工排序和规则制定。

最后,在知识复用方面,行业知识的复用也是后续新项目或者新领域需要重点关注的事情,包括行业标准文档、数据元素、代码集、DQC、数据清洗解决方案、脚本开发、通过历史项目的积累,后续项目可以直接复用或者为类似内容提供参考。 尤其是指标库和业务知识问答库,更能体现业务专业性,助力项目推进。

有了一套完整的实施流程和理论、配套的解决方案,以及完整的行业知识问答库,我们需要将其与业务结合起来,对数据有更深入的了解,这样日常的业务知识才能帮助我们更好的理解数据。 内容,完善数据处理逻辑,提高数据质量,更好地服务于业务应用。

数据治理是一个长期的过程,百分科技将在以下四个方面不断发展。

首先是智能建模和数据处理优化。 通过规则库积累和模型优化,不断完善行业版DW建模,将数据沉淀到知识库,打造通用版智能主数据产品。

二是智能化提升数据安全管理,通过智能控制数据权限分配、智能数据审计、智能制定数据加密脱敏策略,不断提高数据安全性。

三是智能化设计和维护数据生命周期管理,通过智能识别数据、制定数据保留策略,实现数据全生命周期管理。

四是探索Data Fabric的整合。 Data Fabric也被Gartner评选为2022年重要战略技术趋势。 这也是通过智能化手段进行数据识别和管理的一种思路。

0
0
收藏0

最新文章

取消
扫码支持 支付码