智能城市政务大数据管理解决方案
招标编号:****
投标单位名称:****
授权代表:****
投标日期:****
智慧城市-政务大数据治理产品体系项目
XX年9月-XX年9月
3031万元
随着数据革命的推进,全球数据规模急剧膨胀,根据国际数据公司(IDC)的统计,预计到XX年,全球数据总量将达到惊人的35ZB。数据的潜在价值被广泛认知,各国政府与机构视其为争夺竞争优势的关键要素,积极投身于数据技术的创新研发与实践应用之中。
自党的十八大以来,以XXX同志为核心的党中央在全面深化改革的宏图中,将焦点投向“国家治理”的现代化转型,赋予其鲜明的时代内涵。随着大数据科技产业的革新浪潮席卷全球,深刻重塑着治理体系,大数据的日益发展对国家治理体系与治理能力现代化带来了深远影响。XXX对于大数据及其在推动国家治理体系与能力现代化进程中的关键作用给予了深切关注和高度评价。
2015年6月,XXX考察贵州时高度肯定贵州发展大数据确实有道理。2016年10月,XXX在主持中央政治局第三十六次集体学习时指出,要建设全国一体化的国家大数据中心,推进数据融合。2017年12月,XXX在中央政治局第二次集体学习时强调,要运用大数据提升国家治理现代化水平。XX年5月,XXX向中国国际大数据产业博览会致贺信,XXX强调,中国高度重视大数据发展,全面实施国家大数据战略。
在政策导向与市场力量的双重推动下,我国的数据建设呈现出显著增长。然而,尽管成就显著,但在促进数据应用的过程中,数据治理的挑战尤为突出,其中“难”尤为凸显。主要困难体现在:对数据治理的目标、具体内容及适用场景理解不深,缺乏统一的标准化规范,技术手段相对单一,且治理效果未能充分达成预设目标。在XX年5月的中国国际大数据博览会开幕式上,中国科学院院士梅宏针对《推动大数据治理体系建设,营造大数据产业发展环境》的主题演讲中强调,大数据治理体系的建设是我国实施大数据战略的核心支撑,对于充分发挥大数据价值,壮大大数据产业至关重要,它是基础也是重点。同样在XX年3月的全国大数据标准化工作会议上,梅宏院士再次重申,大数据治理问题亟待解决,并指出国际上虽有丰富的实践与研究,但仍存在若干问题。梅宏院士指出,尽管现有的技术与产品为大数据治理提供了工具,但缺乏多层次的管理体系和高效的运作机制。因此,构建适应大数据环境的数据治理体系,对于破解治理难题,落地国家大数据战略,具有深远的实际意义。
近年来,中国政府信息化和电子政务体系已积累了深厚的底蕴,政府部门积累了关乎国计民生的海量数据。然而,在决策过程中,经验法则仍占据主导,部分高级官员对本部门数据的认知不足,包括数据的存储位置和应用情况。因此,亟待深入理解本部门的数据现状,明确其主要应用场景,评估其对管理水平和公共服务效能提升的贡献,以及是否已与相关部门共享以实现价值最大化。政府部门间复杂的数据交互频繁,跨部门和跨系统的问题使得数据结构各异,标准不一,数据质量问题尤为显著。为了实现各局点之间的无缝对接、信息共享和业务协同,关键在于统一数据标准。借鉴电子政务建设的实际经验,我们应采用先进的信息技术手段进行数据治理,通过顶层规划和整体设计,构建适用于政府的数据标准化体系,从而根本性地解决数据不一致、不完整、重复、错误等问题,达成信息共享、信息交换和信息关联的目标。
国务院发布《促进大数据发展行动纲要》,编号为国发(2015)50号
《“十三五”国家政务信息化工程建设规划》发改高技(2017)1449号
通知:国务院办公厅发布《国务院办公厅关于印发政务信息系统整合共享实施方案的通知》,编号为国办发【2017】39号
《大数据产业发展规划(2016-XX年)》工信部规号
《贵州政府数据“聚通用”攻坚会战实施方案》黔数据领(2016)1号
《贵州省大数据战略行动XX年工作要点》黔数据领(XX)1号1.4.3. 建设必要性
数据治理定义为一套全面的权力管理和控制机制,旨在优化数据架构,确保数据在全生命周期中的质量,从而提升其应用价值。它的核心目标是实现数据资源的可识别性,构建合理的数据资源架构,确保数据质量的可控性和数据流程的明晰。这一过程涵盖了数据架构设计、数据模型构建、相关政策和体系建立、技术工具选用、数据标准化、数据质量管理、影响力评估、作业流程管理、监督与考核等多个关键环节,是一个持续改进的过程。
政府亟需一套全面的政务数据治理方案,该方案需具备解析、管理与治理数据的能力,以支持政府实现数据驱动的决策过程,即通过数据进行沟通、决策、管理和创新。本项目的建设具有四大核心必要性:
(1)通过实施数据治理,政府部门能够全面了解并有效管理其数据资源的状态。
鉴于政府部门在信息化建设过程中普遍缺乏整体规划,导致信息系统构建的多样性和复杂性突出,从而产生了众多的数据孤岛。因此,政府部门亟需实现对其数据资源的全面、一体化的实时掌握和理解。
(2)政府部门可以通过数据治理构建统一的数据资源体系
当前的信息系统面临数据分布零散、异步更新的问题,导致升级改造的复杂性增加。为解决这一挑战,我们提议构建一个统一的数据资源层,其中包括主数据和元数据的管理和整合,形成基础数据库并确立标准,从而便利信息系统的一体化整合、更新换代以及大数据应用的创新开发。
(3)数据治理能够持续提升政务数据质量
大数据的基石在于数据,数据的质量直接关乎其生命力。倘若数据质量出现问题,即便最先进的数据分析工具,在充斥着‘杂质’的大数据环境下,也只会提炼出无价值的‘噪声’信息。在构建了统一的数据资源平台后,政府部门应持续强化数据质量的优化,确保数据的精确性、真实性、一致性、完整性和及时性。
(4)通过实施数据治理,得以确保政务数据的高效管理和安全流通服务。
在构建完成统一的数据资源层之后,政府部门肩负着高效的数据管理职责,旨在对外分享数据并提供服务,积极推动数据的开放与价值挖掘。
《“十三五”国家政务信息化工程建设规划》(以下简称《规划》)提出了构建形成大平台共享、大数据慧治、大系统共治的顶层设计,建成全国一体化的国家大数据中心,有利促进网络强国建设的一体化设想,这是我国政务信息化发展的必然要求。《规划》突出了基于政务信息资源目录、共享开放和服务平台,有效推进政务数据共享开放和服务的客观需求。《规划》提出,构建以跨部门、跨地区协同治理的执政能力、民主法治、综合调控、市场监管、公共服务、公共安全等6个大系统工程的部门数据目录,人口、法人、空间地理和社会信用的基础数据目录,以及公共服务主题数据目录,形成国家政务信息资源目录体系,是实现国家政务数据共享开放和服务的重要基础。《规划》还提到,统筹构建一体整合大平台、共享开放大数据、协同联动大系统,将“大平台、大数据、大系统”作为较长一个时期指导我国政务信息化建设的发展蓝图。这就为我国政务信息资源的共享开放和服务提出了一个大的框架。充分利用国家政务数据中心的资源目录和共享、开放、服务大平台,开展政务信息资源的共享、开放和服务,是《规划》的重要内容。
在XX年6月7日,国家市场监督管理总局与国家标准化管理委员会联合公告了《中华人民共和国国家标准公告(XX年第9号)》,其中正式批准并公布实施了《信息技术服务治理第5部分:数据治理规范》(以下简称《信息技术服务治理》),标准编号为GB/T34960.5-XX,自XX年1月1日起生效。作为ITSS体系中‘服务管控’领域的国家标准,该标准隶属于《信息技术服务治理》系列的第五篇章。《信息技术服务治理》是在GB/T34960.1-2017《信息技术服务治理第1部分:通用要求》的治理理念基础上,针对数据治理领域进行了详尽阐述,涉及数据治理的总体原则、架构设计、顶层规划、治理环境、特定领域治理及流程设定。它旨在评估组织的数据治理现状,指导构建数据治理体系,并监控其运行和持续优化.
《贵州政府数据“聚通用”攻坚会战实施方案》揭示了若干关键挑战:首先,数据聚合速度亟待提升,大部分已迁移的系统局限于门户网站和小型应用,大型数据库如人口、法人、自然资源和空间地理、宏观经济等实时更新频繁的系统尚未全面纳入。其次,部门间的数据共享与交换存在瓶颈,交换范围狭窄且参与部门有限,仅工商、税务、质监等部门有所实践,其余部门的数据共享潜力巨大。此外,数据孤岛现象普遍,部门间的条块分割体制制约了数据流通,中央垂直管理的部门数据与地方政府数据共享面临困难,省级层面整合部委系统尤其不易。技术层面,数据分级分类标准和目录梳理尚不完善,阻碍了跨部门和跨领域的有效共享。最后,数据的应用效能不高,许多部门的系统仍局限于独立的信息化应用,主要侧重于行政审批流程简化等公共服务,而在宏观经济决策和经济运行分析等跨部门业务协同方面应用匮乏,政府数据的共享价值未能充分发挥。
根据相关政策文件,无论国家级别还是地方如贵州省的政策,均对数据采集整合、数据分析融合、数据质量管理和数据共享开放等数据治理环节有着明确的要求。因此,从政策层面来看,构建政务大数据治理体系具有坚实的基础和可行性。
数据治理作为一项系统性与综合性的议题,其理论与技术层面均呈现出体系化的特征。尤其在数据采集、数据接入、数据融合及数据管理等核心环节,技术栈在互联网和大数据兴盛的浪潮中不断磨砺并趋于成熟。本项目将从四个方面深入剖析技术实施的可能性。
(1)多源异构数据接入技术
目前,无论是开源框架还是华为、阿里等大型厂商都具备多源异构数据接入的能力,支持物联网、数据库等异构数据源的接入。在性能上,支持单日GB级别的数据吞吐量。在安全上,支持HTTPS加密传输,租户间资源及操作隔离,实现租户访问权限控制,保护系统和用户的隐私及数据安全。针对市县级或单个委办局的数据治理,当前多源异构数据接入技术完全能够支撑需求,针对省部级甚至国家级的数据治理,可通过分布式架构,通过增加计算和存储资源来支撑超大型多源异构数据的接入。
(2)探索与应用:网页数据的智能抓取与无头浏览器技术
网页数据采集,通常称为网络爬虫,是一项程序或脚本,依据既定规则自动搜集互联网信息,对于大数据领域的基石技术不可或缺。本项目采用的网页抓取工具是Scrapy,这是一款由Python编写的高效高级屏幕抓取框架。得益于Python的强大字符串处理能力,Scrapy特别适合解析网页结构数据。其灵活性体现在任何人都能便捷地根据需求定制,提供诸如BaseSpider、Sitemap爬虫等多种类型的基类,且最新版本支持Web 2.0爬虫。配合Scrapyd,Scrapy能够实现网页数据采集任务的上传与调度,展现出卓越的性能。无头浏览器,例如Splash,是一种没有图形用户界面的浏览器,具备所有常规浏览器的功能,常用于自动化测试或交互式浏览场景。本项目侧重利用其交互特性,构建可视化网页数据采集系统,此系统利用Python 3中的Twisted和QT5库,与Scrapy无缝集成,允许用户通过可视化界面直接生成数据抓取脚本,操作简便高效。
(3)脱敏脱密等数据安全技术
数据治理与使用过程中,个人隐私保护与保密数据管理始终面临挑战。针对敏感信息的识别,现有的技术手段,如正则表达式和语义理解,已广泛应用于诸如信用卡号、手机号、电子邮件地址、网络IP地址以及住址等信息的识别。在应对这一问题上,当前的脱敏和去标识化策略主要包括k-匿名性、L-多样性、数据抑制、数据扰动以及差分隐私等方法,这些在支持政务大数据的隐私保护与安全管理方面扮演着核心角色。
(4)跨媒体多模态政务数据融合技术
依托公司现有技术和项目积累,政务大数据治理产品体系着重建设政务大数据融合平台与政务数据知识服务平台。政务大数据融合平台凭借数据模型构建和跨媒体融合技术,致力于破解多源异构及跨媒体数据的集成融合难题,其在医疗、交通等领域的应用已见成效,对平台建设提供关键指导。政务数据知识服务平台则主要运用文本语义理解和跨媒体知识库构建,当前基于深度学习和注意力机制的文本分类与情感分析精度已达到92%,在处理结构化、半结构化和非结构化数据的知识抽取方面具备成熟的方法论和工具。尤其在智慧施政二期和天津跨媒体政务知识引擎关键技术研究项目中,我们对相关技术进行了深入探究。综合考量,依托现有项目基础和技术支撑,政务大数据治理产品体系在政务大数据融合与政务数据知识库构建层面展现出切实的实施性。
(5)国家信息共享交换模型(NIEM)
国家信息共享交换的数据模型旨在为跨领域的数据共享与交换提供指导,强调规范性和可扩展性。设计过程中,兼顾各方开发者参与的灵活性,确保数据语义的一致性。该模型作为各领域间以及领域内部信息共享与交换的基石,旨在促进信息共享、业务协同、公共服务和决策支持。它促使不同行业、业务领域和组织机构的信息系统间实现顺畅的信息交流与资源共用。 因此,国家信息共享交换模型定义为一种在特定范围内解决信息共享问题的框架,通过不断论证和优化解决方案,致力于实现信息的无障碍流动。国际知名范例如美国的国家信息交换模型(NIEM),对中国国家信息共享交换模型的理论研究和实际应用具有显著的参考价值,同时对于政务大数据管理的推进也具有重要指导意义。
根据以上分析,政务大数据治理产品体系在技术层面上显示出切实的实施可能性。
当前市场上的主导轻量级数据治理解决方案主要由四方伟业、华傲等企业提供。本项目旨在对这两款数据治理平台进行试用与深入评估。
图1 四方伟业数据治理平台产品功能架构
四方伟业的数据治理平台以其元数据为核心,致力于构建全面的功能设计与开发体系,其显著亮点在于出色的可视化表现。
图2 华傲数据治理平台产品功能架构
以下是华傲数据治理平台的主要特性概述: 1. 界面设计:简洁明了,注重用户体验。 2. 可视化功能:全面集成,便于理解和操作。 3. 数据目录管理:包括表目录、元数据目录和数据源目录,结构层次分明,便于查找和管理。 4. 数据质量规则支持:允许对表关联定制多样化的数据质量标准。 5. 组织架构关联:用户能够根据业务需求灵活关联相关的企业组织架构。 6. 元数据日志管理:强化数据管理,提供详尽的元数据采集记录。 7. 安全防护措施:具备数据水印管理和数据溯源功能,确保数据安全与合规性。
产品功能比较:
表1竞品功能比较
功能项 |
华傲 |
四方伟业 |
主机管理 |
☆☆☆ |
无 |
数据源管理 |
☆☆☆ |
☆☆☆ |
数据分类 |
☆☆☆ |
☆☆☆ |
数据分层 |
☆☆☆ |
☆ |
ETL工具 |
无 |
☆☆ |
元数据管理 |
☆ |
☆☆ |
数据标准管理 |
☆☆ |
☆☆ |
数据质量管理 |
☆☆☆ |
☆☆ |
数据清洗 |
☆☆ |
☆☆ |
非结构化数据管理 |
无 |
☆ |
数据脱敏脱密 |
☆☆ |
☆ |
数据订阅与发布 |
无 |
☆☆ |
数据检索功能 |
☆ |
☆ |
数据融合 |
☆☆ |
☆ |
数据模型管理 |
☆☆ |
☆ |
主流品功能结构分析如上表所示,☆☆☆代表该功能具有一定特点,是其它产品不具备的产品,代表该功能完善,☆代表该功能与其它产品相比有一定不足,无代表无该功能。
项目旨在构建一套面向政务环境的全面大数据治理体系,该体系涵盖顶层设计、数据采集与接入、数据融合、资源管理及应用开发等环节,旨在实现高效、安全和全程全维度治理。其目标是为政府提供一站式政务数据治理服务,推动政务数据从侧重汇集与通用向强化治理深化,整合运用大数据采集、治理与应用技术,从而显著提升政府的治理效能。
政务大数据治理构架的核心构建为'1+4+3'模式,其中1代表顶层战略设计,4个关键组成部分为专业技术平台,而3项则是基础应用服务的支柱。
图11政务大数据治理产品体系总体架构
顶层设计作为政务大数据治理产品体系的灵魂,明确其核心理念与目标定位,解析体系内关键要素之间的关联结构,划定政务大数据治理的数据涵盖边界,详述针对数据安全的技术措施与规章制度,并概括相关的法律法规和标准化规范要求。
技术平台作为政务大数据治理产品体系的核心组成部分,涵盖了数据采集、数据接入、数据融合以及数据资源管理等多个平台,全面并系统地为数据治理提供全程的技术支持。
政务大数据治理产品体系的外围构架由基础应用服务构成,主要包括数据开放平台、数据共享平台和数据知识服务平台。作为数据治理功能的展现窗口和上层应用的基石,基础应用服务承载着体现其价值与效能的关键职责。
除了主体架构,政务大数据治理产品体系还包括一套依托技术平台构建的工具集,这些工具组件为政务大数据治理的核心流程提供高效稳定的支撑,确保关键环节的顺利实施。
在实验室深厚的技术积淀与科研成就的支撑下,我们逐步将政务大数据治理平台产品应用于知文智用、一网通办及督查督办等场景中,借此检验产品的性能和功能。
图12展示了政务大数据治理产品体系的技术构架。该体系以外部数据源、互联网数据及行业数据等多元数据资源作为输入,目标是生成共享开放数据资源、驱动数据应用并提供数据知识服务。政务大数据采集平台负责收集并存储各种来源的数据,包括互联网和行业数据。政务大数据接入平台则需与外部数据源和内部采集平台的数据源建立连接。 进一步,政务大数据融合平台将接入和采集平台的数据进行深度整合与分析,构建出融合库(包括主题库、行业库和业务库等)。政务大数据资源管理平台对原始库(来自政务大数据接入平台)、融合库(由政务大数据融合平台生成)以及共享交换平台所使用的融合库进行统一管理和维护,支持逻辑集中和物理集中的双重管理模式。 经过在政务大数据资源管理平台进行的数据质量提升、分类分级、敏感信息处理等治理步骤,最终产出数据资源和数据目录,这些成果将服务于政务大数据共享交换平台、政务大数据开放平台以及政务大数据知识服务平台。
图12政务大数据治理产品体系技术视图
顶层设计政务大数据治理体系,其理论基础源自对政府职能履行与能力提升的需求,以数据治理为核心构建的理论框架。具体内容涵盖如下:明确政务大数据治理的核心理念与目标,剖析各核心要素之间的相互关联,划定政务大数据治理的数据覆盖范围,详细探讨政务大数据安全的技术措施和技术保障机制,以及整理归纳支撑政务大数据治理的法律法规和标准化规定。
政府部门因其独特的职能和权限划分,导致在历史进程中各自独立开发了众多电子政务系统。由于缺乏统一的顶层规划和建设,各个系统的异质性显著,导致数据间的共享与交换受限,形成了显著的数据隔离现象,即‘数据孤岛’。这在追求政务数据整合与通用性目标上构成了障碍,增加了数据整合的复杂性和成本。此外,政务数据孤立于互联网数据和行业数据之外,阻碍了政府全面了解社会发展的实时状况以及公众舆论的动态信息。
以支持大数据技术在政府廉洁运营、科学决策、社会治理和公共服务等诸多领域的实践应用为导向,致力于解决政务数据的庞杂、无序与异构特性,目标是构建一个政务大数据采集平台,旨在打破政府内部的数据孤立现象。该平台具备行业数据和互联网数据的采集与融合功能,适应各类政务数据采集场景,有效执行多元异构数据的抽取与装载任务。对于开放源数据库的政务系统,我们采用可视化ETL工具,通过直观的拖拽操作配置数据库连接,快速生成数据迁移任务;而对于那些源数据库不可访问的互联网数据,利用可视化网页数据采集系统,仅需轻点配置,即可生成数据抓取脚本。此外,整个平台由统一的任务调度中心负责ETL任务和网页数据获取任务的调度,并实现实时监控任务运行状态和数据采集量,从而实现了数据采集、接入和装载的全程管理与优化。
政务大数据接入平台:一种分布式异构数据源融合解决方案 - 功能特性:支持逻辑与物理接入,有效整合Hadoop平台处理非结构化和半结构化数据,用户可自定义数据属性及预置的数据处理组件,实现政务海量数据的高效管理。 - 数据接入技术:依托数据库适配能力,兼容关系型与非关系型数据库,提供全面的数据库连接、信息获取、查询与操作功能。 - 架构构成:主要包含存储层和接入适配层。存储层利用分布式高冗余设计,存储各类数据类型,确保数据安全并提供稳定的数据访问服务。 - 接入灵活性:接入适配层支持主流数据库协议(如MySQL、Oracle),同时涵盖非结构化文件处理及特定业务协议对接,允许根据需求定制专属通信数据接入协议,如FTP、HBASE等。
大数据的价值核心在于数据融合。由于数据割裂,可能导致业务理解的局限性,进而引发错误决策。跨行业的数据融合凭借其互补性和完整性,能显著提升数据的内在价值。因此,应积极推动大数据与各产业深度融合,深度挖掘大数据的融合分析潜力,以优化业务流程。从交互层面划分,数据融合主要包括数据组合、数据整合和数据聚合三个递进阶段,依次实现数据间的深度交互。数据组合源自多源数据的简单叠加,仅造成物理层面的连接,数据特性保持原貌;数据整合则需多方数据协同以实现产品价值,其融合过程如同化学反应,创造出新的价值;最后,数据聚合通过双方数据的聚合创新,催生全新的产品形态。
针对政务数据应用中的碎片化、数据割裂及标准化不一致等问题,政务大数据融合平台旨在解决多元异构和跨媒体数据的整合融合挑战。该平台致力于重塑数据集成架构,创建一个面向特定领域的多源异构数据语义融合分析体系。通过深入剖析业务系统的各个环节、数据的源头、存储位置、数据库类型、数据格式、数据模型、数据标准和更新频率,以及数据接口等元数据信息,实现政务非结构化数据的语义整合。进而构建统一、灵活且可扩展的政务通用域、公共域、结构域和领域数据模型,将分散的数据碎片整合为统一的政务融合数据库,从而为政务数据融合分析应用提供强有力的支持。
数据资源管理平台着重于数据,其构成包括元数据管理、数据资源分析、数据资源治理与运维四大模块。
1)用户关注元数据的全面管理:实现元数据的获取与更新,支持元数据变更统计、自我质量评估、运用状况剖析、版本控制以及生命周期管理等多元功能。
2)资源成本评估与分析:涵盖资源盘点与成本评估两方面的主要功能。
3)构建高效的数据资源治理体系:致力于为数据驱动的运营打造优质的数据生态环境,涵盖数据标准化、模型构建、质量保障、资源目录编目以及分级分类等关键环节。
4)运维职责涵盖数据资源的全生命周期管理与严格的安全保障措施。
秉承‘数据服务于我,而非占有’的理念,创新传统大数据集中共享模式,致力于消除‘数据隔阂’和‘信息孤岛’。我们依托政务大数据构建了全面的应用体系,其应用范围涵盖国家安全、社会治理、公共服务和经济发展等多个领域,旨在实现政务大数据在各领域及层级间的安全高效共享与综合运用。同时,借助当今主流的知识图谱等先进技术,我们全面提升数据应用效能,从而强化国家社会治理的整体实力。该体系主要包括政务大数据共享交换平台、政务大数据开发平台以及政务大数据知识服务平台三大支柱模块。
政务大数据共享交换平台旨在消除政府部门间的通信障碍,通过实现政务数据的多层次、多区域、多领域的高效且安全的共享与交换。依据国家电子政务标准框架,全面考量现有资源、业务整合、数据安全共享与交换等关键要素,平台选用DaaS(数据即服务)架构,致力于构建一体化、效能卓越、互联互通并确保安全的共享交换系统。这一平台旨在促进跨部门、跨层级、跨地域及跨领域的政务数据共享,从而推动信息的高效利用。
政务大数据共享交换平台的架构主要包括三个组成部分:公共数据资源库、高效的数据共享交换系统以及全面的数据管理平台。此外,它还配套了共享交换门户网站和数据API服务等实用功能模块,以满足多元化应用需求。
该系统包含数据源管理、数据资源管理、数据编目管理、数据质量管理及数据标准管理等多个模块,旨在对公共数据资源库中的基础库和主题库进行全面且高效的全局管控。用户能够通过该平台进行数据编目维护,实施分类分级管理,并借助数据共享交换平台的核心功能——包括交换桥接、前置交换、交换传输与交换管理等技术模块,利用其提供的数据API服务。在政务大数据共享交换的专门门户网站上,实现实时、安全且可靠的资源共享与交换。这一举措有力地打破了数据信息的孤立状态,促进了数据的高效利用。
政务大数据开放平台的主要目标是通过官方网站公开政府的公共信息资源,以满足多元化的用户数据需求。这一举措旨在推动政府数据的增值运用与创新开发,服务于国家经济和社会生活,进而充分挖掘和释放政府数据蕴含的庞大价值。
政务大数据的公开实践,遵循《国家信息共享开放实施办法》等政策要求,首先对数据进行脱敏、脱密、清洗和提取等预处理步骤,以机器可读的形式呈现。这些经过处理的数据汇集成为政务数据公共开放资源库,随后在政务大数据官方平台上发布数据集,提供API接口及应用商店等服务,从而实现政务大数据的开放与共享功能。
面对政务数据的分散孤立与内容片面性、分析工具匮乏、语义理解局限以及知识服务的缺失,政务大数据知识服务平台致力于整合多元且碎片化的信息资源,通过深度集成,促使数据模型向知识库升级。这一举措旨在为政府工作人员和公众用户定制精准并个性化的知识服务解决方案。
致力于满足政务应用的数据分析与知识推理需求,政务大数据知识服务平台的核心目标是提供全方位和专业领域的知识服务与知识计算能力。通过高效地整合与汇聚海量政务数据,包括多源异构和跨媒体的信息,我们运用先进的数据内容挖掘与知识抽取技术,实现了政务通用知识与特定领域知识的精确提取与语义融合分析。这构建起一个庞大的跨媒体政务知识库,支持实体关联、知识存储与计算、知识补全与验证,以及知识融合与推理等多元政务知识服务功能。 这些功能旨在通过实际政务情境,为企事业单位、公众和政府提供高效的知识服务,打破政务数据挖掘与分析的障碍,推动智能辅助决策的智能化进程,以及在政务场景下支持智能问答和知识搜索。这样,我们能够提升政府的科学决策能力,优化精准化服务,并强化跨部门间的政务协同效应。
大数据治理产品体系的关键数据来源之一源自互联网政务主题数据采集。其核心功能涵盖:实时流数据的即时获取,以保持对动态环境的敏锐洞察,确保决策的及时性;互联网舆情数据的深入搜集,以便全面掌握社会舆论态势;物联网数据的无缝接入,如同装备了无所不在的眼睛(千里眼)和耳朵(顺风耳);以及应用数据的全面采集,通过无感知的数据接口部署,确保每个细节都不被遗漏。
遵循国家政务信息资源目录编制标准及贵州省的具体规定,政务数据分类分级工具助力政府部门系统性地整理本单位所持有的政府数据资源。通过详尽揭示数据的元数据、业务来源、类别属性、共享开放状态、等级划分、使用规定、更新频率等关键信息,该工具智能化生成部门的数据资源目录、共享目录和开放目录。它具备自动化功能,根据输入数据自动生成类别、共享与开放级别的推荐,并援引适用的国家法规和专业案例作为判断依据,从而协助政府工作人员深入理解政务数据分类分级的规则和依托,从而释放公务员在繁琐政策查找中的精力,显著提升行政效能。
在大数据领域,数据沙箱技术是一种大数据分析应用手段。政务数据开放沙箱工具针对大数据分析的需要,构建数据沙箱,基于数据的访问控制策略(即提供数据供算法训练成最终模型,但不允许带走本地数据),要求在满足数据保密的同时又能提供一定的分析价值。
为解决政务数据共享开放过程中人工考核存在的问题,如主要依赖人工评估导致的工作负担重、效率低下、评价公正性受限,以及评估体系和管理未充分利用信息化平台,技术手段相对落后,本提案建议引入政务数据共享开放考核工具。这种工具旨在建立科学的考核规范与标准,确保评估有明确依据,通过设定量化指标,提升考核的操作性和客观性。这样可以推动政府数据共享开放工作的标准化、制度化和科学化进程,从而促进其有效实施与发展。
政务大数据治理产品体系作为核心支持组件,位于政务大数据应用场景的后台,专为各类政务应用提供全面的数据与算法服务。其价值在各类应用落地实践中得以显现,各平台可根据实际业务场景灵活组合,以适应多元需求。遵循实验室的研发策略和整体布局,政务大数据治理产品体系将着重在知文智用、智慧督查督办系统及一网通办等领域推进应用示范项目的实施。
智能政策公文服务系统——‘知文智用’,作为一款人工智能驱动的法规服务平台,致力于简化政策法规的信息获取与理解。该系统针对日常生活中与政策法规息息相关的复杂需求,通过集成全国各级政府海量的政策法规资源,结合大数据、自然语言处理及知识图谱人工智能技术,依托分布式存储与计算能力构建而成。其功能包括精准的政策法规语义搜索、直观的可视化图谱交互分析、专家级的智能问答、政策发布趋势洞察(热点追踪)、地域与发布机构的统计分析,支持多设备接入,如手机、电脑及智能机器人,旨在为政府工作人员、企业决策者和广大公众提供一站式的政策法规信息服务。
知文智用已成功研发并推出1.0版本,专注于政府公开公文的智能检索功能。目前,其政务大数据治理产品体系对知文智用的数据采集起到了关键支撑作用。在知文智用未来规划的升级版本中,我们期待实现与该产品的深度整合。这将不仅涉及数据采集范围的拓宽,还将涵盖数据融合及质量提升阶段,从而全面增强知文智用的数据支持能力。
新一代智慧政务督查督办系统是一个集信息化与智能化于一体的高效管理系统。依托于政府数据共享交换平台,整合了大数据与人工智能等前沿技术,有效消除了业务部门的信息壁垒,推动了以数据驱动的透明化办公。该系统旨在提升领导的全局决策能力、部门工作的执行效率,促进权责分明,确保公平公正的考核机制,从而改善低效的办事流程、提升行政管理透明度、激励积极的工作态度,以及优化部门间的协同合作。目标构建起覆盖全面的信息化、智慧化督查工作模式,形成横向到边、纵向到底的系统化督办管理体系,以及实现‘项目动态跟踪’、‘督查人员状态监控’等11个模块,共46项关键功能,其中包括督办事项风险自动关联警示、项目进度实时追踪验证、里程碑执行情况监督预警、延误智能预警和领导决策支持五大创新亮点。目前,系统开发已完成,预计在2018年底已进入实验室内部试运行阶段。
在智慧督查督办二期的升级工程中,我们将致力于实现督查督办与大数据、人工智能的深度整合。目标是推动智慧督查督办系统从理论研究迈向实际应用,旨在获取更多项目合作机会。在智慧督查督办系统的普及推广过程中,政务大数据治理产品体系将全方位支持数据治理和算法服务的实施。
中共中央办公厅、国务院办公厅印发《国家信息化发展战略纲要》的进一步规范和指导未来10年国家信息化发展,《纲要》要求持续深化电子政务应用,着力解决信息碎片化、应用条块化、服务割裂化等问题,以信息化推进国家治理体系和治理能力现代化。开展“互联网+”政务服务,构建一体化公共服务体系是推进“放、管、服”改革向纵深发展的重要措施。目前北京、上海、贵州等地区分别上线“一网通办”政务服务平台,截至XX年10月,全省各级政务中心办件量为1347万件,接受群众咨询19757次。省级零跑腿事项为551项,占比达80.7%,最多跑一次事项132项。省级事项“一网通办”率达53%,市、县级分别达36%和29%。省直进驻部门窗口工作人员主动为办事企业和群众提供延时预约服务735次,共计245小时,各窗口共获企业群众感谢信512封,锦旗45面,群众办事满意度达99.99%。
在未来较长时期内,政务服务平台的'一网通办'将迈向新的里程碑。其核心依托在于数据的'流通性',即在严格的质量控制和接口标准框架下进行政务数据的交互。从数据质量的提升、标准化进程,直至数据交换的关键环节,无一不是政务大数据治理不可或缺的组成部分。因此,政务大数据治理产品体系的设计与构建源于对'一网通办'服务的全面支持。我们计划在三年内,这套体系将具备充分的支撑能力,能够适应区县级'一网通办'项目的实施;而展望十年长远目标,它将有力支撑省市级级别的'一网通办'建设需求。
5.1.1.1.目的
政务大数据治理旨在实现如下目标:优化决策支持、防控数据风险、挖掘数据潜力、促进数据流通效率、推动数据共享与开放。
5.1.1.2.定义
数据治理的内涵在业界尚未形成统一共识,国际组织与知名信息技术企业的见解各有侧重,同时,国内多个国家标准亦对此进行了各自的诠释和阐述。
表2国内外权威机构对数据治理的定义
机构 |
定义 |
DAMA(国际数据管理协会) |
数据治理是对数据资产行使权力和控制的活动集合,包括计划、监控和执行等 |
DGI(国际数据治理研究所) |
数据治理是包含信息相关过程的决策权及责任制的体系,根据基于共识的模型执行,描述谁在何时何种情况下采取什么样的行动、使用什么样的方法 |
IBM |
数据治理是组织管理其信息知识并回答问题的能力,如数据来自哪里?数据是否符合公司政策及规则?数据治理实践提供了一个全面的方法来管理、改进和利用信息,以帮助决策者建立对业务决策和运营的信心 |
ISO/IEC 38505-2《信息技术-信息技术治理-数据治理-第2部分:对数据管理的影响》 |
治理团队对数据产生价值过程中的评价、指导、控制,是数据治理的最基本概念 |
GB/T34960.5-XX |
数据资源及其应用过程中相关管控活动、 |
《信息技术服务治理第5部分:数据治理规范》 |
绩效和风险管理的集合 |
银行业金融机构数据治理指引(银保监发(XX)22号) |
数据治理是指银行业金融机构通过建立组织架构,明确董事会、监事会、高级管理层及内设部门等职责要求,制定和实施系统化的制度、流程和方法,确保数据统一管理、高效运行,并在经营管理中充分发挥价值的动态过程 |
根据权威机构对数据治理的共识,融入政务实践视角,政务大数据中心管理体系对数据治理的诠释为:一项旨在评估、指导和监控组织数据管理与应用的全面框架。通过规划战略方向,构建组织架构,明确各部门职责,并执行有效的治理措施,旨在达成数据风险可控、确保安全合规、推动绩效提升及释放数据价值,同时不断推动创新的数据服务供给。
图13政务大数据治理数据体系
政务大数据治理数据体系包含从数据来源、数据生命周期和数据等级三个维度。数据来源是对数据治理对象的范围界定,主要包括政府部门数据以及行业、互联网和物联网中与政务相关的数据。数据生命周期是指政务大数据治理体系中数据所处不同阶段的划分,包含原始库、资源库、主题库、知识库和业务库五个阶段。数据等级是指根据数据内容对数据密级的划分,可分为非密数据、秘密数据和机密数据三大类和对应的七小类。
图14政务大数据治理安全体系
政务大数据治理体系由四个关键部分构成:一是安全规范标准,作为构建体系的指导原则;二是安全技术保障体系,提供全方位的技术层面防护;三是安全运维保障体系,确保数据治理平台在建设和运维阶段的平稳运行;四是安全管理保障体系,从制度、人力资源和组织结构层面强化信息系统的安全管理。