公共数据治理运营项目技术方案
招标编号:****
投标单位名称:****
授权代表:****
投标日期:****
H市致力于打造全球卓越城市,以实现政府治理能力的现代化为首要任务。在公共数据管理和互联网政务服务领域,该市推行了一系列创新改革,积累了宝贵的实践经验,然而也面临着相应的挑战。根据《公共数据和一网通办管理办法》的指导,H市亟需深化公共数据资源的整合与应用,推动政务服务的一体化在线办理,推动电子政务的深化发展,从而加速智慧政府的构建,提升政府管理效能和公共服务质量。
根据党的十九大对建设服务型政府、以人民群众为中心发展思想的深刻指引,H市致力于推进政府管理和服务的现代化进程。为了深化体制改革,优化营商环境,增强公众和企业的满意度,H市通过构建大数据资源平台,整合了'四大库'、市级统建系统、各委办局以及行政区的数据,形成了市级数据湖。在此基础上,H市进一步进行了数据集成与治理,建立起了市级数据库,实现了跨区域、跨层级、跨部门的数据共享与交换。此举为后续公共数据的深度整合、共享和开放奠定了坚实的基础。
为了积极响应党中央、国务院的号召,并深入推动'放管服'改革,H市致力于优化公共服务环境,提升公众和企业的便利度。据市委市政府的战略规划,已知以下关键节点:2018年,H市搭建了全面的政务'一网通办'统一平台;至2020年,该市成功构建起一个整合协同、运行高效、服务精准且管理科学的智慧型政府体系,实现了政务服务的线上线下无缝对接与便捷办理。
基于大数据资源平台,通过对“四大库”、“市级统建系统”、“各市级委办”、“各行政区”的数据等相关信息的采集、梳理、交换、整合、扩展,构建H市统一的基础信息数据库。
构建全面的市级信息平台:整合开发源自人口、法人、空间地理及电子证照的数据资源。目标是无缝衔接各类信息接入,深化整合与创新开发,以高效利用这些数据。特别针对H市的实际需求,我们将建立公共主题数据库和专题库,旨在提供安全且高质量的定制化专题数据服务。
通过采集、梳理工商、税务、质监、民政等法人机构的详细资料,实施信息的交换、整合与扩充,我们旨在建立H市全面且统一的法人基础信息数据库。
通过收集、整理、整合并扩充公安、卫计、社保、民政等部门的人口相关数据,H市建立起了一个统一的人口基础信息数据库。该数据库以公安部门的户籍和暂住人口基本信息作为核心基础,利用身份证或护照号码以及居民类别作为唯一的身份标识,并通过不断补充其他相关部门的动态人口信息,实现全面且实时的管理。
本项目致力于H市大数据资源平台的公共数据运营支撑体系建设,旨在提升市级数据库功能。通过整合'四大库'、'市级统建系统'、各委办及行政区的数据,形成H市统一的数据湖。在此基础上,我们构建了基础平台,旨在促进数据在各部门间的共享、分析与利用,以及对社会的开放,从而推动智慧政府战略的实施。
依托数据集成与治理体系,我们成功构建了市级数据库,凭借H市大数据资源平台的公共数据运营服务功能,系统地进行数据的管理和处理,深入挖掘并进行分析,同时实现了数据的可视化呈现,有力地支持各类业务应用的运行和发展。
在本次项目中完成以下四个部分:
1、首先,我们将优化公共数据的逻辑模型和物理模型设计规范,并明确公共数据库的存储原则。在此基础上,我们将借助中心搭建的平台工具,对汇集至市级数据湖的数据进行深度清洗、层次划分与转换,从而构建起完整的市级数据库体系。
2、实现人口库数据资源的连通整合、深度开发与有效应用。
3、实现法人库数据资源的全面接入、整合、研发与有效应用。
本项目旨在为H市大数据资源平台的公共数据运营提供支持,目标是梳理并构建各部门的政务信息资源目录体系,以实现数据的基础管理、交换与共享功能。遵循统一、集约和高效的开发理念,我们将通过研究设计多级数据交换管理体系,构建起政务信息资源虽物理上分散但在逻辑上高度集中的信息共享模式。这一模式旨在满足政府部门在多维度和多层次上的数据需求,为跨越地域、部门和平台的各类应用系统以及不同数据库之间的数据交换与管理提供服务。
构建标准化管理和制度体系,借助专业平台整合区域内各部门共享数据以及市级数据资源,建立区域级的数据储备库。通过对数据进行清洗、转换、融合和治理,提炼出高质量的公共数据资产,从而设立公共数据资源中心。
2.1整体技术方案
致力于构建一体化数据资源中心,我们着重于强化数据整合策略。首先,我们将制定严谨的标准规范和管理体系,通过专用平台工具汇集区域内各机构的公共数据及市级落地资源,形塑一个高效的数据池。随后,对收集的数据进行深度清洗、转换、融合和治理,以确保提供高质量的公共数据资源。在基础层面,我们将优化公共数据逻辑模型和物理模型设计规范,明确公共数据库的存储原则,并运用中心建设的工具对市级数据湖的数据进行预处理,包括清洗、分层和转换,进而构建市级数据库。此外,我们将全面开发和整合人口、法人、空间地理库等数据资源,实现对这些关键信息的无缝接入、整合与利用。立足H市实际情况,我们还将构建公共主题库,以提供安全且优质的数据服务,满足各类应用需求。
以下是本次公共数据存储模型设计与实施项目的工作框架概览:
(1) 业务信息数据整合
构建整合体系,汇集国家级、市级及区级政务信息,公共设施数据,涵盖金融、电信等行业的专业数据,以及源自气象监测和监控摄像头等物联网来源的数据,旨在实现全方位的内外部数据融合。
整合多元人口数据:汇集自公安、民政、人力资源和社会保障、卫生与计划生育等部门的出生、死亡、婚姻、社会保险及户籍等相关资料。
整合法人信息来源:从工商行政管理、税务部门、质量监管机构以及民政部门等多个渠道,收集法人注册、税务登记及工商注册等相关数据。
获取空间地理信息:涉及详细记录地名(包括地图、道路、区域、小区、建筑物和景点)的名称、类别以及精确的经纬度坐标。
(2) 数据抽取/数据交换
数据处理流程依托于集约化的多租户ETL平台,该平台负责执行数据的采集、转换与核查工作。通过这一机制,我们实现了数据的标准化与集中管理,进而构建了数据的结构化与关联性。平台支持的功能包括离线、实时、准实时以及流媒体数据采集,同时涵盖数据导入和上报等全面的数据操作环节。
(3)基础库
数据建模采用以人为中心,结合地域、事件、事物、实体等多元视角,构建起覆盖全区的通用基础数据库体系。其中包括的关键数据库有:人口信息数据库、法人单位数据库以及空间地理信息数据库。
统一整合人口资源:建立以公民身份证号码为唯一标识的全市综合性人口信息库,旨在实现信息的集成管理、交互共享与服务应用。此库服务于跨部门、跨业务及跨区域的人口服务和数据共享,支持人口大数据分析与决策支持,全方位满足人口信息需求。
1. 法人库建设:旨在整合各部门关于法人单位的业务信息,实现信息资源的深度汇聚与扩充,以支持分布式的查询与深入应用。我们通过公共数据开放平台,按照分级和分类的原则,确保安全有序地对外公开综合法人信息,从而激发社会创新应用的活力。
构建空间地理信息库:依托于规划、国土资源等部门的GIS地图服务,整合遥感影像、地址数据、政务信息图层,以及人口信息、法人单位、宏观经济和社会信用等多元数据,形成本市全面的空间地理基础信息资源库。该库旨在为全市政府部门和企事业单位提供统一的地理空间信息服务,实现信息的高效整合与共享。
通过数据模型的层次划分,能够有效提升数据管理的透明度,具体表现为:明确数据结构、实现数据血缘追踪、防止重复开发、简化复杂问题、掩盖原始数据的异常情况,并隔离业务影响。
数据分层的每个层次都具有特定的适用范围,有助于在查询和解读表格信息时提高效率。通过标准化数据层级并构建通用的中间层数据,显著减少了冗余计算,有利于维护数据的精确性与一致性。
本次公共数据模型构建划分为三个层次,分别是数据运营层(ODS)、数据仓库层(DW)以及数据应用层(ST)。
ODS层的数据源于近源层,通过ETL过程(包括数据抽取、清洗和传输)后,被装载至本层。在源数据导入本层的过程中,实施了诸如噪声消除、重复数据剔除、异常值检测、业务属性提取、单位标准化、字段精简以及业务规则判断等一系列处理步骤。
数据仓库层的数据源于DW层,经过ODS层的整合与针对各个实体的汇总处理后,这部分数据得以流入这一层次。
ST层作为数据的应用层面,其设计旨在实现数据的灵活性与实际应用场景的紧密契合,专注于数据的展示功能。
1.数据来源层→ODS层
数据主要会有两个大的来源:
(1)对于数据抽取,我们采用Sqoop工具定期执行,每日实施一次从业务库的抓取。在实现实时更新方面,我们计划利用Canal监控MySQL的binlog,实现数据的即时接入。
(2)线上系统的运营过程中,持续生成并记录各类埋点日志,这些日志以文件形式储存。为了高效处理,我们倾向于采用flume进行定时数据抽取,同时spark streaming和storm则作为实时数据接入的解决方案,而kafka在数据传输中扮演着至关重要的角色。
ODS层的数据清洗包括异常字段的校正、字段命名的标准化以及时间戳的一致性处理。
2.ODS层→DW层
通过整合ODS层的数据资源,构建一个通用的数据仓库结构,旨在降低数据模型的冗余性。对仓库层模型进行标准化操作,此举将显著提高数据模型的复用价值。优质的数据仓库层设计能有力推动运营效率的提升与数据一致性保障。
3.层
数据应用层(ST层)的主要职责是接收并处理来自数据仓库层(DW层)的数据,根据多样化的需求进行深度汇总与统计分析,并实现数据的切片与钻取式统计。针对不同的应用场景,精心构建相应的数据应用模型。
数据仓库的数据结构以主题为导向,这是一种在企业信息系统高层面上整合、分类和深度分析的数据抽象策略。每个主题通常关联着一个宏观的分析范畴,其设计原则如下:公共数据库资源模型的分域划分详述。
主题域 |
主题域缩写 |
相关内容 |
人口域 |
PRTY |
个人基本信息 |
法人域 |
GRP |
法人基本信息 |
事件域 |
EVT |
出生、死亡、诉讼 |
资源域 |
RES |
空间资源、服务资源、公共资源、网络资源 |
账务域 |
ACC |
消费记录、纳税记录 |
关系域 |
REL |
就职记录、婚姻关系 |
依据人口、法人及空间地理库数据的特性,我们将针对H市实际情况,构建涵盖三大公共主题领域的数据模型,旨在为用户提供安全高效的质量优异的公共数据服务。
在人口主题领域,我们的工作流程包括从各个职能部门收集业务数据,随后进行详尽的数据清洗、比对与整合,以实现人口空间信息的精准获取。最终,我们将构建完善的人口库数据资源体系。
法人主体范畴:整合各个职能部门的业务资料,执行数据清洗、比对与关联操作,从而获取完整的法人地理信息数据,构建法人库的数据资产库。
构建空间地理数据资源:通过对城市各职能部门的地理空间资料进行整合,并与业务数据相结合,实施数据清洗、比对与关联操作,从而获取并建立全面的空间地理库资源体系。
主题域实质上是相关数据主题的有序组合,它们根据业务关注的核心领域进行划分,每个主题域可视为针对特定主题进行深入剖析后划定的界限。
模型设计示例如下:
根据数据仓库建模理论的实际应用,物理模型设计过程中,关键在于确定数据模型在分布式环境下的存储结构。这要求我们深入理解Hadoop、MPP、一体化数据库以及内存数据库各自的特性和优势。同时,依据数据的粒度特性(如精细度)、时间周期(如实时性)以及主题差异(如业务领域),评估其热度,从而合理规划数据的分布策略。
2.2.3.1分表规则
针对不同的应用场景,公共数据模型的设计需遵循以下准则:
表命名 |
类型名称 |
说明 |
YYYYMMDD |
日表 |
存放当天数据 |
YYYYMM |
月表 |
存放月末数据,或当月累计数据 |
DM |
多周期日表 |
存放多个周期的日数据 |
DM YYYYMM |
多周期日表累计的月表 |
存放多个周期的日数据,每月分表 |
DM YYYY |
多周期日表累计的年表 |
存放多个周期的日数据,每年分表 |
MM |
多周期月表 |
存放多个周期的月数据 |
DS |
当周期表 |
当周期最新的数据 |
DT YYYYMMDD |
累计日表 |
当月累计数据 |
2.2.3.2表命名规则
基于分主题分层的原则命名:层主题域表名表类型分表规则例如:
人口数据详细信息 - 个体记录详情 - 年份月份标识:YYYYMMDD
法人信息数据汇总表:PRTY GRP - 年月日记录
2.2.3.3字段命名原则
为了确保数据准确性和高效处理,我们提倡在字段设计中遵循以下基本原则:
确保各表格字段命名的一致性:对于共有的字段,应采用标准化的命名策略
在设计各表的字段时,应确保与表间关联相关的字段类型具有一致性。
避免对Hash键值字段进行数据的处理。
字段名称 |
字段命名 |
字段类型 |
枚举值 |
个人姓名 |
INDIV NAME |
VARCHAR(32) |
|
个人证件号码 |
INDIV CERT CODE |
VARCHAR(32) |
|
个人证件类型 |
INDIV CERT TYPE |
INT |
0身份证;1工商登记证;10港澳居民来往内地通行证;11台胞;12外籍人士;13个体工商户营 |
|
|
|
业执照;14聚类;15特殊客户;3军人证;5企业代码证;9单位证明;99其它证件 |
个人证件地址 |
INDIV CERT ADDRESS |
VARCHAR(256) |
|
2.2.3.4数据处理原则
在执行数据加工处理时,优先考虑在小型数据集(小表)内操作。为了确保不影响核心的大表,建议构建临时表作为临时的工作区域。
在执行年度、月度等高概括性数据汇总时,应当依托预先构建的日汇总等细致粒度数据(涵盖用户、产品等多个维度的汇总结果),以此为基础,旨在降低上级统计对底层详细信息的频繁查询,实现高效数据处理。
逻辑模型设计是对概念模型的深化处理,它在构建过程中,全面考量了数据的产生和访问频率等因素,进而规定数据的相关热度和关联性规则。作为概念模型向物理模型转化的关键环节,逻辑模型设计兼顾了业务层面的深入理解与系统的实际构建需求。
2.2.4.1数据有效性策略
所有在模型中设定的字段属性均需具备分析效能,对于无实质意义的字段属性,应当进行剔除。
删除源系统中仅供生产用途且缺乏分析意义的字段属性;同时,排除所有源系统中存在的无效字段,例如全部为空值或全为'Z'的情况。
任务:整合具有相同名称但含义各异、名称相似但实质不同或值虽同义但存储冗余的字段内容,实现信息的精简与统一。
2.2.4.2数据关系定义
在逻辑模型设计过程中,对于字段属性的设计需遵循与源系统中对应实体字段属性的映射原则。此时,关键在于确立与源系统字段定义明确的映射关联。常见的映射关系包括:
源系统单张表,在概念模型设计时也为单个模型的,应针对概念模型中每个字段,建立其对应的源系统字段属性映射;
在概念模型构建过程中,鉴于源系统的多元表结构,我们倾向于将其整合为单一模型。为此,每个原始数据源表需与目标模型逐一对应映射,同时确保每个模型中的每一项字段属性均配备精确的映射关联。
在概念模型设计阶段,针对源系统的单张表,我们将其分解为若干个独立模型。每个模型需分别对应源系统的标识,并确保每个模型中的每个字段属性均配备明确的映射关联。
2.2.4.3维值定义规则
所有静态维度值,如证件类型和用户状态等,应标准化地通过维度表进行定义。
维值 |
维值名称 |
枚举值 |
枚举值中文 |
生效时间 |
失效时间 |
CERT TYPE |
证件类型 |
0 |
身份证 |
1900/1/1 |
2099/1/1 |
CERT_TYPE |
证件类型 |
1 |
工商登记证 |
1900/1/1 |
2099/1/1 |
CERT TYPE |
证件类型 |
10 |
港澳居民来往内地通行证 |
1900/1/1 |
2099/1/1 |
CERT_TYPE |
证件类型 |
11 |
台胞 |
1900/1/1 |
2099/1/1 |
CERT TYPE |
证件类型 |
12 |
外籍人士 |
1900/1/1 |
2099/1/1 |
CERT TYPE |
证件类型 |
13 |
个体工商户营业执照 |
1900/1/1 |
2099/1/1 |
CERT_TYPE |
证件类型 |
14 |
聚类 |
1900/1/1 |
2099/1/1 |
CERT TYPE |
证件类型 |
15 |
特殊客户 |
1900/1/1 |
2099/1/1 |
CERT_TYPE |
证件类型 |
3 |
军人证 |
1900/1/1 |
2099/1/1 |
CERT _TYPE |
证件类型 |
5 |
企业代码证 |
1900/1/1 |
2099/1/1 |
CERT_TYPE |
证件类型 |
9 |
单位证明 |
1900/1/1 |
2099/1/1 |
CERT TYPE |
证件类型 |
99 |
其它证件 |
1900/1/1 |
2099/1/1 |
本项目的数据采集任务主要包括两类别:一是人口数据,源自数据湖;二是法人数据,同样存储在数据湖中。
数据采集方式有两种:
高质量的数据入库需经由数据湖中的数据经过系统的治理过程得以实现。
借助平台的调度引擎,实现了政务应用系统与数据资源池的直接双向数据交互,省去了数据湖作为中转的步骤,支持对交换链路进行灵活配置。
抽取流程如下图:
为了满足大数据中心对多元化数据源获取的需求,事件数据需具备兼容多种数据采集手段的能力,这可以通过接入丰富多样的数据源接口来实现,例如:
●常用标准协议接口如Socket等
●FTP文件接口
JDBC/ODBC接口
●消息队列(KAFKA)接口
Hadoop生态圈的开源技术Flume
2.3.1.1数据抽取方式
数据的提取主要依赖于自动化手段,具备全量和增量抽取的功能。
全面提取:从数据湖或源系统中的特定数据表或文件中进行全面的数据抽取操作。
数据提取功能:针对数据湖或源系统中的特定数据表或文件,支持按照预先设定的规则进行高效数据抽取
实现增量提取:专注于监控数据湖或源系统中的特定数据表或文件,仅针对新增或更新的数据部分进行抽取操作。
以下是可供选择的三种数据库提取方法,用户可根据实际需求进行选用。
文件■数据库流数据
市级数据湖归集的数据处理办法:
(1)批数据处理:
数据采集功能将各类批数据整合至数据支撑平台,经过存储、清洗、汇总与关联分析,提炼生成可供应用的数据,并确保数据间的互通共享或对外开放。
(2) 流数据处理:
数据采集功能获取的流数据在接入数据支撑平台后,能够根据多样化的需求,既支持实时数据的计算后公开,也便于通过实时数据分析整合生成适用的应用数据,从而推动数据共享与开放的实现。
2.3.1.2自动入库
法人数据通过自动化手段,从数据湖和特定应用数据库中获取,经由中间数据库接收源端按需推送的数据。系统配置有定时机制,即在预设的时间点,计算机自动执行对中间数据库的数据抓取,同时支持手动触发数据读取。对于数据入库,支持设置前置条件和灵活的时间调度策略,自动入库的时间安排选项丰富多样。
每月
每日
每小时
若遭遇采集失效或前置条件未达成,我们将采用优先级各异的轮询策略。
高优先级:10分钟轮询一次,最长36小时
中优先级:30分钟轮询一次,最长24小时
低优先级:60分钟轮询一次,最长24小时
2.3.1.3全量抽取
执行全量数据提取操作,无需预设筛选条件,直接获取源表的完整数据。在系统启动初始化阶段,能将数据湖以及各应用中已存在的相关信息资料全面导入至本系统,构建起汇聚库的初始基础数据源。
2.3.1.4条件抽取
执行数据筛选操作,设定相应的抽提条件,从源数据表中提取满足这些条件的数据。配置完成后,能够实现按小时、日或月的自动化入库过程。
条件设置
允许设定特定的筛选条件,例如:只提取创建日期为当天的数据项。
条件组合
数据可以进行逻辑上的联合筛选,即满足条件A与条件B的同时性要求。
2.3.1.5增量检查
增量抽取可以有效减少数据抽取的数量,减少对源数据库的压力,避免影响现有业务,提高数据抽取效率。以下方法可以实现准确快速的捕获变化的数据,进行增量抽取。增量数据抽取中有多种方式支持增量检查的方法有以下几种:
1、触发器方式
增量抽取过程通常依赖于触发器机制。其运作原理是在目标源表上创建三个触发器,即插入、修改和删除事件,以便对源表中的任何数据变动实时响应。这些触发器的功能是捕获并记录源表中发生的变化,将其暂存于一个专门的增量日志表中。ETL(提取、转换、加载)系统则从这个增量日志表中执行抽取任务,而非直接源自源表,以实现数据的增量更新。同时,为确保数据一致性,已抽取过的数据应及时在增量日志表中标记或移除。
简化设计下,增量日志表通常仅包含源表标识、更改的关键字段值及操作类型(如insert、update或delete)。首先,ETL增量提取过程会依据给定的源表名称和关键字值,在源表中定位并获取完整的记录,然后根据操作类型的指示,对目标表执行相应的处理步骤。
实施数据湖及其它应用程序中的信息数据的实时监控与时间戳校验,对新增或变化的数据进行标识,以便于高效地提取增量部分。
2、时间戳方式
增量抽取采用时间戳机制,其工作原理是抽取进程依据系统时间和目标表的时间戳字段值进行数据选择。为此,要求在源表中增设一个时间戳字段,每当系统更新或修改表中的数据时,同步更新该时间戳字段的值。
针对某些数据库(如Microsoft SQL Server),其具备时间戳的自动更新功能,即每当表中其他字段的内容发生变化时,时间戳字段会自动记录下更新的时刻。因此,在执行ETL操作时,仅需在源表中包含该时间戳字段即可。然而,对于不支持此类自动更新的时间戳的数据库,业务系统在更新业务数据时,必须通过编程手段手动更新时间戳字段。
时间戳方法虽能有效监控源表的新增与修改行为,但对于删除操作,却显得力有未逮,因此需辅以其他策略以实现全面记录。
3、全表比对方式
在增量抽取过程中,ETL流程会对源表与目标表的每一条记录进行详尽的全表比对,以便识别并获取新添加和已修改的数据项。
采用MD5校验码进行优化后的全量比对流程如下:首先,针对待抽取的表,需预先创建一个结构相似的临时MD5表,该表包含源表的主键及其基于所有字段生成的MD5校验码。在每次数据提取过程中,会将源表与MD5临时表通过MD5校验码进行对比。若发现差异,执行update操作;若目标表中不存在对应的主键,表明新记录,执行insert操作。最后,对于源表已删除但目标表仍保留的主键,执行相应的delete操作以确保数据一致性。
4、日志表方式
在生产数据库中,针对已建立的业务系统,应构建专门的业务日志表。每当关键业务数据变动时,业务系统的程序模块会自动更新并维护该日志表。在实施增量抽取的过程中,通过分析日志表的数据变化,确定需要加载的数据及其加载策略。日志表的实时维护则依赖于业务系统程序的精确编码执行。
5、系统日志分析方式
该方法依赖于对数据库自建日志的深入剖析,以识别数据变动。所有关系型数据库系统普遍记录了所有DML操作的日志,以支持备份与恢复功能。ETL增量抽取程序通过解析这些日志,能提取出特定时间点之后,源表所经历的DML操作详情,进而洞悉自上一次抽取以来的数据更新情况,从而精确指导增量抽取操作的执行。
部分数据库系统(如Oracle的LogMiner)专设了用于日志管理的工具包,显著地简化了对数据库日志的分析流程。
2.3.1.6增量抽取
设计系统能够实时监控数据湖及关联应用数据库的数据变动,仅提取自上一次导出以来的新增、删除或修改(即增量)数据。随后,对更新的数据实施增量检查并执行增量抽取,从而完成基础表的最新状态更新。
对捕获增量的方法有两点要求
1、准确
2、不要对业务系统造成太大压力
2.3.1.7数据校验
支持系统自动校验和人工校验方式。
数据验证流程:针对每个数据抽取配置,系统支持自定义设置自动化校验规则,涵盖了数据完整性的校验、数据值的合理性与合法性评估,以及数据有效性的深度检查。通常,我们采取系统自动化的校验手段对采集的数据进行严谨的规范性、一致性和准确性验证。
自动校验规则可配置:
1、条数阈值检查
2、空值数量阈值检查
3、日期等其他自定义规则检查
人工核查:针对采集的数据,进行格式、编码及内容的细致检查与处理,通常针对关键数据或自动化验证结果异常的情形实施人工审核。
2.3.1.8入库处理
该系统能够高效解析并处理已抽选和验证的数据,自动剔除冗余信息,将结果精准存入综合信息资源原始数据库,从而为构建全面的信息资源整合体系奠定坚实的数据基石。
对于海量源数据,我们采取分块处理策略,启用并行多进程抽取,以此提升数据抽取的执行效率。
优化分区策略:对大型数据表实施有效分区,通过入库后即刻的分区操作、必要时的合并以及视图构建,旨在提升原始数据表的利用率和处理效率。
数据转换:对日期、时间、证件号码等字段进行转换,使其符合统一的标准。将数据转换为指定格式并进行数据清洗保证数据质量。数据转换包括编码转换(m/f->男/女),字段转换(balance->bal),度量单位的转换(cm->m),数据粒度的转换。业务系统数据存储非常明细的数据,而数据仓库中数据是用分析的,不需要非常明细,会将业务系统数据按照数据仓库粒度进行聚合。
执行数据净化过程,针对包含不完整信息、错误条目及冗余数据的原始资料进行精准筛选和修正
数据标准化处理:在数据入库阶段,对源于各异的源代码实施统一的编码转换。
数据采集与管理系统具备全面的职能,包括元数据、采集规则、异常数据及日志的汇集管理,同时支持对采集活动的状态、数据来源追踪以及运行绩效的查询和统计。该系统旨在强化数据采集环节的安全保障和可靠性.
2.3.2.1采集信息统计
该系统能够对采集数据量、采集吞吐量、入库数据量、入库吞吐量以及数据采集的合格率等关键指标实施全面统计,并将统计结果通过图表形式直观呈现。同时,支持生成并下载详细的