Shark Start企业数据采集平台
产品介绍|PRODUCT INTRODUCTION
SharkStart是一款用于支持企业数据采集管理的软件,是Shark产品族之一。它通过参数化、插件化、可视化的机制实现数据采集过程的自动化和统一管理,从而达到企业数据“统一采集、集中存储、平台共享"的业务目标。
本产品提供规范、统一的企业数据采集流程管理,通过对线上参数的配置开发,实现对各种源系统、不同厂商外部数据源,不同数据格式的采集、预处理、数据标准化和数据存储的能力,从而为SharkData或企业的其他系统提供可靠、准确的源数据。
 
产品功能

零代码快速配置采集任务
采用配置的方式实现数据采集的快速开发,提供供应商管理,兼容不同的接入及加密机制,完成对外部数据接口的治理,构建外部数据服务目录,实现开箱即用。

数据结构化解析与存储
支持原始数据透传,也支持配置化后根据业务模型进行数据拆解与整合,最终实现数据的共享使用,降低用数成本。

数据质量全程保障
数据采集过程对数据-致性完整性进行校验全程保障数据质量。

可视化运行监控
产品提供图表等方式满足数据采集任务运行监控的需求从各个角度展现数据采集任务状况。

产品价值|PRODUCT VALUE
SharkStart可为企业快速接入新增数据源,统一采集管理、全流程可视化监控、提升开发效率、采集数据质量保障、费用管理以及可视化运维监控提供有效的帮助。
 
1、规范了企业数据采集流程,提升整体数据管控能力;
2、提高数据采集开发效率,降低难度,节省成本;
3、保障数据采集的质量,提升后续数据应用的效果;
4、自动化应对源系统数据变更,提升系统的可用性;
5、费用管控与统计,方便与厂商对账;
6、数据采集全流程可视化监控,降低运维难度;
7、接口治理与标准化,实现数据的集中采集和共享存储。
 
功能特点|PRODUCT FEATURES
1、多样化数据源的支持
Shark Start对数据源提供了足够强大的标识、管理和扩展能力,以适应企业数据源不断增加和变更的需要。
①、支持对不同技术平台上数据的采集;
②、支持多种数据来源,包括数据库表、文件、消息列队等;
③、支持对结构化、半结构化和非结构化数据的采集;
④、支持对增量和全量数据的采集;
⑤、支持主动和被动的数据采集方式;
⑥、采用插件式组件设计,支持对新增类型数据源进行数据采集的扩展。

2、一次采集多次使用
SharkStart对采集到的数据规划保存至数据缓冲区,进行集中统一管理,之后再提供给多个目标使用。这样的方式使得平台与源系统和目标保持松耦合的关系。
①、源数据一次采集
对一个源数据进行单次采集,避免重复的对源系统抽取数据,减轻源系统压力。
②、采集数据多次使用
一份数据在不同数据应用中多次使用,保证不同数据应用获得的源数据是一致的。

3、可扩展的架构
①数据采集和数据加载插件化设计
SharkStart在源数据采集和目标加载过程所调用的组件,都按插件化的方式进行设计,可方便地进行扩展,实现对新的技术平台的支持。
②数据预处理自定义接口
SharkStart在数据预处理环节中提供自定义接口,方便用户根据自身处理需要,在原有预处理流程中扩展新的数据处理功能。

4、源数据变更全程自适应能力
在传统的数据采集开发模式下,一旦出现源系统数据规格的调整变更,开发人员需要根据新的数据规格调整原有的采集程序,并遵循开发测试的流程后才能部署。这样对于周期较为紧急的变更和临时未通知的变更,往往需要投入大量人力和时间。
通过分析数据采集过程可以发现,各个数据的处理是相对独立的,除了在实体上不同,其最主要的区别是在数据结构上。在SharkStart中,各流程环节使用的功能组件都将数据结构作为输入参数。
在数据采集流程的源数据采集阶段,会首先采集数据的结构信息装载至参数库中。在后续处理的各功能组件,在运行时将实时的读取在参数库中对应的结构信息。通过这样的方式,实现数据采集过程对变更的自适应。

5、全程数据质量监控
①、数据采集的完整性保障
SharkStart在数据采集过程的各处理环节都进行了严密的数据量完整性检验。在各个环节的处理过程中都对输入输出数据量进行了比较,确保处理的数据量一致。
②、数据采集的一致性保障
在数据预处理中使用的各个功能组件都有严格的数据质量控制环节,确保数据预处理过程中不造成数据的丢失。
③、数据质量报告机制
对于采集、预处理和装载过程中发现的数据问题,用户可以在运行监控中方便的进行查看,同时也将体现在定期生成相应的数据采集报告中。

6、便捷的开发部署方式
①、可视化在线配置
SharkStart中通过参数化的方式,实现对新增数据源的支持,通常情况下用户无需开发代码,而是通过在线配置的方式即可方便的接入新增数据源。
②、手工批量配置
为了适应工程的需要,产品还提供了批量配置方式,用户根据EXCEL模板,填写数据采集项的各种参数信息,通过配置批量导入方式生成数据采集的参数配置信息。
③、自动化作业生成
当数据采集配置完成后,系统将对它们进行验证,验证无误后用户可以进行生效操作。生效过程中将根据配置信息自动的生成作业及调度信息。
这样的开发部署方式,极大的提高了数据采集的开发效率,满足了用户对数据的及时性要求。