平台产品面向大数据中心和各部门提供开箱即用、操作简单、可自主服务的AI智能化数据目录管理和实时数据同步交换的功能服务,打通“最后一公里”,实现端到端的数据流和可视化管理。
与现有市场上需要大量定制接口开发的数据采集和数据交换、以及事后人工录入编目的项目产品不同,我们的创新产品采用自动化+AI智能化+自下而上的数据梳理和编目方法,以及基于可视化数据目录、操作简单易用的Web界面“点击式“的数据实时交换任务配置,相比传统完全靠人工录入梳理和编目的工具和方法、以及通过开发接口及配置交换流程的陈旧数据接入方式,大大降低了项目人工成本和时间周期达90%以上。更大的价值是通过机器算法丰富了实用的元数据及保证了数据的及时性和数据生命周期管理的可持续性运维,有效地为部门解决了“有什么、是什么”的数据资产可视化管理、以及大数据中心找数难、流动难、融合难、消费难的痛点问题,为数据资源有效地开发和利用,以及为促进传统政企信息中心发展到大数据管理中心、数据服务中心的数字化战略转型提供了科学的工具和方法。
平台产品采用先进的基于元数据AI智能分析的数据标签,并通过非侵入式的数据库日志CDC技术以获取数据库的库表结构变化和数据实时增量,实现智能化的数据目录以及实时的数据复制同步、汇聚和分发。
平台产品将大数据智能分析技术应用于数据资源梳理和目录可视化管理领域,实现对数据源连接的自动化元数据采集、字段语义识别、数据关联性分析、业务活动分析、主数据和敏感信息等标签化梳理,通过机器计算产生有价值的元数据信息如字段的语义、字段的业务唯一性、字段的敏感性、活跃表、主数据表等有实际应用价值的元数据信息,并提供机器辅助分类/编目等实用性功能。通过元数据目录的功能,以及方便易用的勾选和“点击式”的Web界面操作,灵活地配置数据复制和同步任务,让用户可以实现”所见即可交换、结果即可验证”的“端到端”可视化管理和智能一体化的数据目录和数据交换应用体验,为政企数据资源管理、数据共享交换、数据归集融合和数据挖掘等大数据创新应用提供工具化和SaaS服务化的系统功能支撑。
支持批流一体化高性能的数据采集、数据复制同步以及加载大数据平台
根据中国指挥与控制学会(CICC)的报道,美陆军C5ISR中心正在探索和利用数据复制和同步等云计算解决方案来实现多方无缝数据共享,实现下一代分布式远征指挥所,其技术突破的重点在于分散指挥所节点提高其生存性的同时,还必须以可靠的方式向各分散节点提供连续的数据同步服务。这种数据复制和同步技术是实现美陆军战术云的基础。
TurboDX系统平台采用先进的基于数据库日志的CDC数据实时复制和同步技术,以及国内首创基于Web、内存流处理和云计算的技术架构。数据库日志扫描的非侵入式CDC数据增量获取技术,无需在应用系统数据库端部署任何代理(Agent)程序,对应用系统的运行影响降到几乎为零(<3%),这个特性对于接入许多业务核心应用系统是至关重要的。
将数据实时复制和同步技术,通过云计算SaaS服务平台输出能力,为中心及各部门提供数据库、文件、WS/REST接入大数据平台,以及数据库读写分离、上云数据迁移、数据汇聚整合、数据分发、数据发布/订阅服务等多样性的应用场景,并满足各种不同应用场景的统一使用和监控管理需求。
平台产品完全适配和支持国产芯片、服务器和操作系统,通过了国产化鲲鹏认证。
产品提供SaaS服务模式及本地化部署服务模式。
将基础的数据梳理、目录可视化管理和数据同步交换功能,以政府/企业云中心集约化SaaS服务化方式提供给大数据中心和各业务部门使用,“谁的资源谁管理谁负责”,首先满足和解决部门第一层次的数据目录管理可视化的基础需求。在此基础上,通过数据汇聚方式,实现“点-线-面”多层级的数据目录和数据交换可视化管理,达到“统一平台、部门共建、共享使用”的数据业务协同的应用效果,调动各部门、各应用系统开发商参与数据驱动型政企数字化转型发展的积极性和创造公平发展的机遇,这是解决目前跨部门数据共享交换、打通数据孤岛、解决大数据“落地”归集的难点和痛点的正确有效路线。
对于没有或无法上云的部门应用系统数据源,部门也可以使用本地化部署产品,实现对本地、跨云和云上数据资源的梳理、数据目录可视化管理、以及数据复制同步和交换整合任务的配置和运行。
数据成为新生产资料,智能成为新生产力,要充分挖掘数据经济价值,政企都需要构建领先的数据基础设施,从而打通数据供应全流程,使能数据与业务全连接,提升业务敏捷性。
对数据的加工处理通常包括“采-存-算-管-用”全生命周期管理,让数据存得下、流得动、算得快、用得好,帮助客户将数据资源转变为数据资产。虽然各行各业都已经公认数据中隐藏着巨大价值,但在实现过程中,面临多重挑战:
挑战1:数据准备难
一个数据整合BI分析的项目,70%以上的时间都花在找到合适的数据,并判断这些数据是否具有可整合性和满足业务分析的需求。比如要花24小时采集数据、花3小时转换数据做ETL入库、花1小时准备训练数据、最后只花了半小时训练+推理,得到需要的决策数据。要解决数据准备难的痛点,需要有可视化数据梳理和目录产品工具的有力支撑,通过数据目录系统提供的导航、搜索和发现功能,快速找到、发现和定位所需的数据资源;通过对数据实体的元数据和相关性知识图谱,对数据需求的完整性、相关性和可整合性提供有力的分析工具。
挑战2:数据流动难
解决数据流动难的问题,除了政企部门之间的业务协调外,技术平台要充分体现管理要素,要为交换中心端和部门接入端均提供方便易用的数据管理和接入操作的可视化工作平台;提供多层次的监控、报警和统计分析功能,确保交换业务运行稳定、可靠、可管、可控,数据可查可跟踪;并提供多种应用服务模式,满足各方不同管理需求,将接入管理工作在统一的平台上按职责合理分割和分解,各方职责边界清晰,可自主管理,在统一平台上实现各部门数据流动业务的协同。对于陈旧的基于ETL或中间件交换产品的单一化工具解决方案,我们常听到诸如“黑箱技术、易用性差、效率低、实时性差、本身又造成孤岛、缺乏服务输出能力、难于运维”等许多来自用户的差评。
根据IDC研究报告的统计,客户对于传统的ETL的解决方案在性能方面的满意度极低,满意的用户只占17%左右。基于20多年前陈旧技术的ETL和中间件产品的解决方案面临着许多难于解决的挑战,主要有以下几个方面:
挑战3:数据融合分析难
传统的烟囱式政企的ICT建设难以打通数据:技术众多、接口不统一、开发周期长;数据类型多,结构化/半结构化/非结构化;数据分析链路长,多系统集成难度大。数据归集融合难,一是缺乏可视化数据目录产品,对数据的相关性和可整合性提供有力的分析功能;二是市场上基于传统技术的ETL和中间件交换产品难于满足实时快速、简单易用、灵活可扩展性的要求,难于满足对多种异构数据源快速集成服务和实时性的使用需求,造成数据采集难、流动难、归集融合难、上线时间长、成本高昂和服务商绑架等一系列诟病。
挑战4:数据消费难
例如某企业IT系统,数据源130+万张表,要从海量表中寻找目标数据,耗时30天左右,犹如大海捞针;然后将目标数据加工成业务可使用数据,烟囱多、步骤多,错综复杂,又耗时7天。导致找数难、取数难、数据消费难。很重要的原因之一是缺乏集中统一的可视化数据目录产品,提供有用的数据搜索/发现功能。数据搜索是否能提供有价值的信息,帮助用户准确理解原始数据产生的上下文语义环境及溯源,核心问题是基于元数据采集和元数据标注的数据目录系统能否提供丰富有价值的元数据信息,包括数据的相关性、可整合性、数据质量等一系列的信息描述;而对于政企存在大量的异构数据源来说,如果没有智能化机器辅助的元数据采集和智能分析、数据标签化梳理和智能分类、数据关系的分析、以及元数据的实时变更维护,完全靠人工采集梳理/编目的方法,这几乎是不可能的完成任务。
市场上基于传统人工数据采集、人工标注和分类的数据目录产品系统,有以下难于克服的主要问题:
问题1:完全是靠人工录入标注梳理,有的产品甚至连物理库表和字段的元数据都无法实现连接采集,完全是人工填写,逻辑数据与真实的物理数据无法关联; 形成数据目录与数据交换隔裂的“二张皮”;
问题2:缺乏有价值和实用的元数据信息,例如该字段是否是可以用来关联和整合的业务主键,该字段的具体语义是什么,是否含有敏感信息;该库表(数据集)是否活跃高频变化、是否是实体主数据; 库表之间有什么关系、是否能够整合等等。对于具有成千上万张表和动辄几十万甚至上千万的大数据来说,完全靠人工梳理是几乎不可能完成和不可持续的任务,利用机器算法分析进行数据梳理和机器辅助人工的智能化分类/编目是发展的必由之路。
总之,市场上现有隔裂的数据目录产品和交换产品实施难度大、开发和运维成本高昂、实用性差,无法满足政企各部门对数据资源管理以及对数据实时采集、交换、汇聚和融合的需求,难于有效地支撑对大数据资源的快速开发和利用。
市场上出现的一些误导及对策:
产品的解决方案可总结为一句话:基于元数据和AI智能化的数据梳理、数据目录、数据复制同步和交换整合功能为一体的云计算SaaS服务平台。
北京数贝软件科技有限公司自主研发的TurboDX SaaS服务系统平台,利用成熟的元数据AI算法技术、实时复制同步技术以及云计算SaaS服务技术,提供政府部门数据资源的元数据目录可视化管理,利用字段级语义识别、数据关联性分析、业务活动分析等并行计算的算法,提供实用有价值的数据标签化梳理、机器辅助分类/编目,以及为不同角色的数据管理人员提供不同视图的数据目录可视化应用服务功能。通过元数据目录的功能,以及方便易用的勾选和“点击式”的Web界面操作,灵活地配置数据实时复制同步及交换整合任务,让部门用户可以实现”所见即可交换、结果即可验证”的“端到端”可视化管理和智能一体化的数据目录和数据交换应用体验。在以下几个方面具有国内领先的技术创新:
相比陈旧的前置机(库)架构的数据共享交换平台,基于TurboDX SaaS数据共享交换平台的优势体现如下:
基于TurboDX SaaS的数据共享交换平台的特色主要体现在如下三方面:
版权所有©️2016 北京数贝软件科技有限公司 京ICP备14032596号-1