大数据平台深化设计投标方案
招标编号:****
投标单位名称:****
授权代表:****
投标日期:****
1.标准规范及统一架构
业务标准规范:严格遵循政务数据共享交换的纲领,设计思路全面贯彻规范化、标准化原则。依据国家政务信息资源管理、交换、共享的相关标准和国家政策规定。在系统建设中,以标准与规范为准绳,涵盖数据内容的设计、数据分类与编码的确立,以及精度与标准的设定等方面。
构建一体化技术框架:包括统一的技术路径、产品支持、技术保障和业务支撑,全方位构建应用系统的支撑体系。
构建一套统一且标准化的应用集成框架,旨在规范各开发商的应用服务接口开发流程。
2.松耦合、高灵活、可重用设计
政务数据共享交换平台的业务特性多元且需求繁复,若仅沿用传统设计策略,针对个别问题制定单一解决方案,显然难以适应平台业务需求的动态演变与持续扩展的要求。
遵循顶层设计理念,系统模块实现独立化,采取自上而下的设计策略,对业务系统进行深度抽象与整合,构建出一系列相对独立的子系统与子模块。所有组件采用统一的接口规范,标准化数据格式与结构,从而有效分解复杂平台,提升其可扩展性、灵活性和持久的生命力。
构建一套全面的可扩展功能模块,涵盖:数据源治理、编目控制、资源管控、交互管理、共享服务、用户权限管理、数据分析模块以及日志记录等通用组件。这些模块旨在优化各业务系统的性能,增强系统的一体化复用性,从而有效避免不必要的重复投资,提升整体效率与成本效益。
3.系统、数据的安全性设计
权限管理:针对注册数据与服务实施严格的访问权限控制。采用账户级别管理,确保消费者用户获取信息资源的限定性。同时,依据独立设备标识符,进一步限定设备持有者能够访问的信息资源范围。
确保安全防护的全面性与深度,从系统、数据、服务到设备,实施多层次、多维度的保护措施。
构建信任与安全性:借助内置CA证书的认证体系,各节点通过加密证书建立起安全的通信网络,确保节点的可靠性、不可抵赖性以及数据完整性。
4、技术先进性设计
1)具有良好的开放性,支持对结构化、非结构化等不同类型数据的查询接口封装,支持关系型数据库、NOSQL数据库、分布式数据库、内存数据库等多种类型数据存储模式,符合以Hadoop/Spark为代表的主流技术发展趋势要求,能够兼容开源Hadoop体系中的各类组件。
2)该方案基于J2EE技术架构,支持在UNIX及Linux等操作系统环境下进行部署。
3)系统设计需遵循B/S架构标准,兼容JDK1.7及以上的最新版本,并且能够与Websphere、WebLogic、TOMCAT等诸多主流应用服务器无缝集成。
4)为了确保一致性,本投标须严格遵守统一的业务规范、数据标准及数据架构规定。
5)系统兼容性广泛,支持IE8及以上的IE浏览器、谷歌浏览器以及Firefox等主流网页浏览设备。
6)系统的设计与实现须严格遵照公安部对于信息系统管理的各项技术规范,包括但不限于技术要求、业务指南、检测标准、功能标准以及数据标准。
7)系统构建严格遵照工程标准化规定,采用分层设计进行开发与部署,旨在实现业务流程与数据管理的分离,以及内容与表现形式的剥离,从而确保系统的高度可扩展性。
社会治理大数据应用服务平台:作为一款专为网格化社会治理用户设计的数据服务综合平台,它致力于提供全方位的社会治理要素信息。其构建可划分为四个明确的层次,详细阐述如下:
构建社会治理大数据的存储体系,提升全文检索与分析功能,致力于打造面向社会治理的大数据服务能力建设,推动省级平台间的数据协同与共享机制。
社会治理大数据应用平台的设计遵循服务导向架构,其整体构架划分为七大关键模块:大数据汇聚层、大数据整合与融合、大数据存储与计算分析平台、大数据资源中心、深度数据分析与解析、全方位大数据服务、以及直观的数据可视化展示和高效的数据管理体系。
平台架构下图所示:
依托Hadoop开源生态技术栈,构建了分布式存储与计算平台,支持多种计算模式:离线、实时、内存和图计算。平台整合了五种数据库类型,包括关系型、列式、图、内存以及全文检索数据库,以适应社会治理大数据的多元化存储需求。功能涵盖数据资源的全生命周期管理,包括存储、转换、增量导入和清洗。根据不同数据的特点、规模和应用场景,数据会被适配至对应的数据库系统。此外,还提供了标签管理和数据分析模型管理,借助图形化数据建模界面,用户能够设计和执行数据分析流程,从而开发完整的数据建模应用工作流。
技术架构分为四个关键层次: 1. 数据服务层: 2. 数据计算层: 3. 数据存储层(DWS): 4. 数据采集层:此层次负责数据的原始获取。 此外,我们还设有数据源层(ODS),它作为系统与外部业务系统、业务数据库及文档库的连接点,为共享数据交换平台的数据支持提供了基础。
图-2:综治中心数据应用架构
数据源ODS层的主要职责是从各个业务系统获取异构的结构化数据,如来自公安、人社、民政和政法部门的数据,以及非结构化的数据资源,如微博(如新浪微博)和网络社区(如百度帖吧和论坛)的内容。这些数据经过抽取后,被整合至数据湖中,后续进行规范化和标准化的处理流程。
数据ETL采集层:
数据采集层采用可视化开发工具,支持直观的图形化操作方式,用户可以通过拖拽界面元素实现高效便捷的数据处理。
采用高效捷开发模式,该模式整合了数据建模与ETL设计,致力于快速响应开发需求,灵活适应变化。它实现了开发者与应用者视角的分离,支持多用户协同工作,共享资源库,内部构建了层次分明的数据仓库结构。提供全面的数仓全局视图,便于可视化管理与定义。内置功能强大,包括深度的数据清洗、转换和抽取,兼容TXT、EXCEL等多种文件格式,以及Oracle、MySQL、SQLService等各类数据库,以及HIVE、HBase、Elasticsearch等非关系型数据源。此外,还集成消息队列如Kafka、MQActive,ETL定义支持数据抽样功能,转换过程支持实时预览,并支持基于时间或事件触发的调度,优化了批量加载和并行计算机制,确保高效执行。
数据提取过程涉及按照预定的抽取策略自原始资料中获取信息,涵盖了结构化数据和非结构化数据的提取。该抽取策略灵活多样,支持定时、全量、增量、基于时间戳以及事件触发的抽取方式。
预处理层具备高效的数据去重功能,针对结构化数据,若在设定的时间窗口内各字段完全一致,将合并为单一记录。而对于非结构化数据,通过计算在指定时间段内的文件体特定区域的MD5值,确保重复文件仅保留一份原始内容,实现去重处理。
数据存储DWS层:
基础库:
基础库包含HBase数据库和HDFS。前者用于存储生产库中关系型数据库数据,后者存储生产环境中的结构化数据和非结构化数据,包括文本、视频、图片、网页等。
HBase数据库:
HBase数据库作为基础库的核心组成部分,映射着生产环境中关系型数据库的数据结构,其设计遵循了后者表的构建模式,如图所示:
Rowkey(Hash valuc) |
col1 |
co12 |
co13 |
col1、在列组(F)中,确保col2等字段与生产库表的相应字段保持同步。对于Rowkey,我们将运用哈希编码算法生成唯一的散列值。表名的命名规则为B_基础DB_来源_tablename,其中B代表基础库,即BasicDB;来源部分采用生产库用途的汉语拼音首字母大写形式,如旅馆对应LG。表名直接来源于生产库的原表名。
数据计算层:
大数据计算层:信息挖掘于海量原始资料,实质上是数据转化为价值的转化过程。它涵盖了对输入数据的全方位处理,其中包括数据的采集、储存、预处理、分拣、整合、运算、排列、变换、检索以及信息扩散的递进发展。该层的核心构成有两个关键要素:数据处理和数据管理,如图所示:
大数据平台计算层
收集 存储 加工
分类 归并 计算
排序 转换 检索
大数据平台计算层
数据服务层:
数据服务层通过API和RESTful接口对外公开其数据服务,支持BIDashboard指标的展现以及前端大屏的可视化呈现。
基础设施层:
以下是构成上层软件能力的关键基础设施: - 计算设施:承载着强大的计算能力,确保高效运行。 - 存储设施:提供稳定的大数据访问支持,保障存储的可靠性。 - 网络设施:具备高吞吐量特性,保证信息传输的流畅性。 - 安全设施:致力于实现服务的安全可靠,确保数据和系统的稳固防护。
奉贤综治数据应用服务平台构建于集成化的架构之中,主要包括Web服务、数据库服务以及Hadoop和Elasticsearch的集群环境。
平台设计的核心原则在于适用性。社会治理大数据应用服务平台应当具备满足各类社会治理业务应用所需,包括对多样化的数据资源处理、海量数据的高效管理以及实时响应的能力。
为了适应多应用的需求,平台各组件应优先选用标准化的协议和规范,力求简化实施要求。
确保数据调查的合法性与合规性是各项工作的基石,其核心要求为证据的真实可靠性、精确无误以及完整性,务必严格遵循国家法律法规的规定。
借助先进的大数据技术,我们运用分布式架构整合互联网公共资源、社会资源及外部接口的数据,同时高效采集智能终端产生的取证信息,旨在实现各类异构数据的无缝融合存储,进行综合性分析与深入挖掘。
构建严谨的数据调查规范体系,确保按照规定程序采集并精确审核证据,力求全面、公正,使之能与大数据平台整合的数据相辅相成,形成稳固且互相验证的证据链条。
社会治理大数据平台支持统一的开放数据接入标准,通过标准化的数据接口整合综治内部资源以及外部数据。针对已具备数据集成能力的县级(市、区)综治中心,我们提供配套的数据SDK,确保数据实时、稳定地流入市级平台。此外,平台亦配备必要的应用开发接口,以便利各类应用系统的开发工作。
平台积累了庞大的数据资源,其中不乏涉及敏感信息。为了确保数据的权限管理和安全审查,平台必须配备相应的安全保障设施。
确保严格遵守保密审查规程,在搜集数据及整合其他业务共享资料的过程中,始终恪守保密原则,杜绝任何办案信息的泄露,并实施严谨的系统访问痕迹管理。所有采集的数据采取加密传输手段,以便于集中进行深度综合分析。
随着社会治理信息化的深入发展,大数据信息的类型和规模将持续增长。与此同时,数据处理与分析的技术进步迅猛,新技术层出不穷,伴随应用开发与数据处理的进程。为此,平台设计应具备灵活性和扩展性,以便于接纳各类新数据、方法和技术的融入。
本期项目建设至少满足年的数据存储要求,后期根据数据种类及数据量的变化内容,进行动态地扩容数据中心存储。
在实施大数据应用场景优化时,庞大的数据表量与繁复的关联性显著降低了整体效能。为此,社会治理大数据服务平台应首要依据实际应用需求,对原有的社会治理数据结构进行大幅精简。通过采用NOSQL列式数据库构建高效的大数据表,将原先分散于众多表格中的信息整合到一张或少数几张表中,实现从多元表结构向单一表模式的转变。
此方法有效简化数据连接,优化社会治理数据的关联架构,从而增强数据应用的效益。同时,借助大数据平台的线性扩展能力,我们将海量的非结构化数据整合入平台,旨在深度挖掘和充分利用已有的数据资源,强化数据融合策略。
社会治理大数据平台凭借整合的丰富数据资源,支持用户进行高效的数据查询,包括精准查找、模糊匹配和全文检索。用户能够便捷地运用类似自然语言的搜索条件,享受如同百度般直观的搜索体验,确保了对海量数据的查询响应时间达到毫秒级的高效率。
社会治理大数据平台除支持搜索应用外,还能凭借整合的社会治理大数据,进行碰撞分析、统计分析及聚合分析等多元化的数据分析,从而为社会治理实战提供强有力的支持。
社会治理大数据平台支持通过数据接口和服务接口,向第三方应用群体开放其整合的海量数据、搜索与分析功能,旨在构建针对网格化社会治理的应用级大数据服务体系。这样,各级综治中心及网格员可根据业务需求的多元化,高效、简便且灵活地利用这些服务,从而减少业务开发的时间和成本,无缝适应快速变化的业务环境。
首页概览展示:机构队伍、基础信息、关键成员一览、奉贤市地图概览、热点动态、区域援助对象以及事件处理进度的全面呈现。
首页概览展示:机构队伍、基础信息、关键成员一览、奉贤市地图概览、热点动态、区域援助对象以及事件处理进度的全面呈现。
设计思路:
为了提高效率,我们设计了一张中间表格,通过字典表对数据进行了初步分类和汇总。后续的业务逻辑直接操作此中间表,同时在业务代码层面实现了数据的缓存存储,从而确保了快速响应的能力。
表格设计
详述:TTTABLE字典表(数据结构表)
字段名 |
类型 |
说明 |
source_system name |
varchar2(60) |
源系统名称,例如:公安、人社、法院 |
sourcesystemdb_type |
varchar2(20) |
源系统类型,例如:mysql、oracle |
source_table_name |
varchar2(80) |
源系统表名 |
sourcetable fieldnumuber |
varchar2(20) |
源系统字段总数 |
source table recordnumber |
varchar2(20) |
源表中记录数 |
sourcebusiness_type |
varchar2(20) |
源表业务类型,例如:人、物、组织 |
table code |
varchar2(32) |
表格编号 |
table_en name |
varchar2(180) |
英语表名 |
table_zhname |
varchar2(60) |
中文表名 |
table_title |
varchar2(180) |
前端展示标题 |
table_db_type |
varchar2(60) |
目标数据库类型 |
table business level |
varchar2(20) |
数仓数据模型,例如 |
|
|
ODS,DWB,DBSDM |
table_big_type |
varchar2(20) |
大类,例如:人、物、组织 |
table_smalle_type |
varchar2(20) |
小类 ,例如:重点人员、上访人员 |
static_flag |
varchar2(6) |
是否统计标识 |
static_frequency |
varchar2(60) |
统计频度 |
static_detail |
varchar2(200) |
表简短描述 |
reserve |
varchar2(80) |
预留 |
静态站点报告:地址字典表详述
字段名 |
类型 |
说明 |
site_code |
varchar2(16) |
地址编号 |
site_name |
varchar2(80) |
地址名称 |
longitude |
varchar2(16) |
经度 |
latitude |
varchar2(16) |
纬度 |
REPORT T SUMMARY
字段名 |
类型 |
说明 |
Table_code |
Varchar2(32) |
表格编号 |
Table_name |
Varchar2(32) |
表格名称 |
Area_code |
Varchar2(32) |
地址编号 |
Scount |
Number(11) |
记录条数 |
Stat_time |
Date |
统计时间 |
Reservel |
Varchar2(32) |
预留字段 |
Reserve2 |
Varchar2(32) |
预留字段 |
Reserve3 |
Varchar2(32) |
预留字段 |
数据流向
TADLE CODE |
TADLE_EN_NANE |
TADLE_EIL HAME |
TADLI_TITLE |
TADLE_DIG_TYTE |
150001 |
REPORT_T_QY BXIB |
企业基本信息 |
企业 |
15 |
100003 |
RETORT_T_DYEXD |
党员信息表 |
党员 |
10 |
150002 |
RETORT_T_DNDZZIXD |
单位党组织信息表 |
党组织 |
15 |
100002 |
RETORT_T_CZTWTCXXD |
出租房屋松查信息表 |
出租房屋 |
10 |
100013 |
REFORT_T_XWSFRXXB |
刑释放人员信息表 |
刑满释放入员 |
10 |
100025 |
REFORT_T_RY CXIB |
人员基础信息表 |
实有人口 |
10 |
130003 |
REFORT_T_FADJXIB |
房室登记信息表 |
实有房屋 |
13 |
140003 |
REFORT_T_JDYLAQGLIXB |
寄物流安管理信息表 |
奇递物流 |
14 |
100010 |
REFORT_T_HTEKZFXXB |
户错人口走访信息表 |
户人L |
10 |
100014 |
REFORT_T_LDEKXIB |
流动人口信息表 |
L |
10 |
100013 |
REPORT_T_SDRYXIB |
涉毒人员信息表 |
毒人员 |
10 |
100017 |
REPORT_T_S.ZRXXB |
社矫止人员信息表 |
社区矫止员 |
10 |
107023 |
REPORT_T_75ZHJSBR:XR |
肇等严重精神碍精神障碍者 |
|
10 |
127003 |
REPORT_T_WGYXXR |
网格员信表 |
网格员 |
12 |
127001 |
REPORT_T_WGHJS:XR |
网格化建设信息表 |
网格数 |
19 |
150003 |
REPORT_T_QFQZZZXXB |
群防群治组织信表 |
群防治组织 |
15 |
100022 |
REPORT_T_ZDSFRXXB |
重点上访人员信息表 |
重点上访人员 |
10 |
接口设计
1机构队伍
1.1请求方式get
1.2请求方式 url
1.3请求参数
无
1.4返回结果
返回值名称 |
返回值类型 |
说明 |
success |
boolean |
false:失败, |
|
|
true:成功 |
data |
array |
集合 |
name |
string |
名称 |
value |
string |
总数 |
示例
2.1请求方式 get
2.2请求方式url
查询项目详情摘要
2.3请求参数
无
2.4返回结果
返回值名称 |
返回值类型 |
说明 |
success |
boolean |
false:失败,true:成功 |
data |
array |
集合 |
name |
string |
名称 |
value |
string |
总数 |
示例
请求:
查询项目详情摘要
返回:
{
"success": true,
"data":[
{
name:”实有人口”,
value:“112”
},
{
name:”户籍人口”,
value:“112”
}
]
}
3重点人员
3.1请求方式 get
3.2请求方式url
查询项目详情概览
3.3请求参数
无
3.4返回结果