大数据平台深化设计服务方案

 

 

 

 

招标编号:****

投标单位名称:****

授权代表:****

投标日期:****

 


 


1 构建与功能设计

1.1 创新设计概念

1.标准规范及统一架构

业务标准规范:严格遵循政务数据共享交换的纲领,设计思路全面贯彻规范化、标准化原则。依据国家政务信息资源管理、交换、共享的相关标准和国家政策规定。在系统建设中,以标准与规范为准绳,涵盖数据内容的设计、数据分类与编码的确立,以及精度与标准的设定等方面。

构建一体化技术框架:包括统一的技术路径、产品支持、技术保障和业务支撑,全方位构建应用系统的支撑体系。

构建一套统一且标准化的应用集成框架,旨在规范各开发商的应用服务接口开发流程。

2.松耦合、高灵活、可重用设计

政务数据共享交换平台的业务特性多元且需求繁复,若仅沿用传统设计策略,针对个别问题制定单一解决方案,显然难以适应平台业务需求的动态演变与持续扩展的要求。

遵循顶层设计理念,系统模块实现独立化,采取自上而下的设计策略,对业务系统进行深度抽象与整合,构建出一系列相对独立的子系统与子模块。所有组件采用统一的接口规范,标准化数据格式与结构,从而有效分解复杂平台,提升其可扩展性、灵活性和持久的生命力。

构建一套全面的可扩展功能模块,涵盖:数据源治理、编目控制、资源管控、交互管理、共享服务、用户权限管理、数据分析模块以及日志记录等通用组件。这些模块旨在优化各业务系统的性能,增强系统的一体化复用性,从而有效避免不必要的重复投资,提升整体效率与成本效益。

3.系统、数据的安全性设计

权限管理:针对注册数据与服务实施严格的访问权限控制。采用账户级别管理,确保消费者用户获取信息资源的限定性。同时,依据独立设备标识符,进一步限定设备持有者能够访问的信息资源范围。

确保安全防护的全面性与深度,从系统、数据、服务到设备,实施多层次、多维度的保护措施。

构建信任与安全性:借助内置CA证书的认证体系,各节点通过安全证书相互连接,确保了节点的可靠性、不可抵赖性及信息的完整性保护。

4、技术先进性设计

1)具有良好的开放性,支持对结构化、非结构化等不同类型数据的查询接口封装,支持关系型数据库、NOSQL数据库、分布式数据库、内存数据库等多种类型数据存储模式,符合以Hadoop/Spark为代表的主流技术发展趋势要求,能够兼容开源Hadoop体系中的各类组件。

该方案基于J2EE技术架构,支持在UNIX及Linux等操作系统环境下进行部署。

系统设计需遵循B/S架构标准,兼容JDK1.7及以上的最新版本,并且能够与Websphere、WebLogic、TOMCAT等诸多主流应用服务器无缝集成。

为了确保一致性,本投标须严格遵守统一的业务规范、数据标准及数据架构规定。

系统兼容性广泛,支持IE8及以上的IE浏览器、谷歌浏览器以及Firefox等主流网页浏览设备。

系统的设计与实现须严格遵照公安部对于信息系统管理的各项技术规范,包括但不限于技术要求、业务指南、检测标准、功能标准以及数据标准。

系统构建严格遵照工程标准化规定,采用分层设计进行开发与部署,旨在实现业务流程与数据管理的分离,以及内容与表现形式的剥离,从而确保系统的高度可扩展性。

1.2 系统架构

社会治理大数据应用服务平台:作为一款专为网格化社会治理用户设计的数据服务综合平台,它致力于提供全方位的社会治理要素信息。其构建可划分为四个明确的层次,详细阐述如下:

构建社会治理大数据的存储体系,提升全文检索与分析功能,致力于打造面向社会治理的大数据服务能力建设,推动省级平台间的数据协同与共享机制。

1.2.1 系统体系结构

1.2.1.1 功能架构

社会治理大数据应用平台的设计遵循服务导向架构,其整体构架划分为七大关键模块:大数据汇聚层、大数据整合与融合、大数据存储与计算分析平台、大数据资源中心、深度数据分析与解析、全方位大数据服务、以及直观的数据可视化展示和高效的数据管理体系。

平台架构下图所示:

依托Hadoop开源生态系统,构建起高效的大数据存储与计算平台。该平台涵盖了离线、实时、内存和图等多种计算框架,专为社会治理大数据分析需求定制。平台整合了关系型、列式、图式、内存以及全文检索等多元数据库,以适应各类社会治理数据资源的存储需求。其功能包括数据资源的全生命周期管理,包括存储初始化、数据转换、增量导入和清洗,确保数据质量。根据不同数据的特性和应用场景,数据会被适配至相应的数据库体系中。此外,平台还提供了标签管理和数据分析模型管理,借助图形化数据建模工具,用户能够灵活设计并执行数据分析流程,构建出完整的数据分析计算工作流,从而高效开发数据建模应用。

1.2.1.2 技术架构

技术架构分为四个关键层次: 1. 数据服务层: 2. 数据计算层: 3. 数据存储层(DWS): 4. 数据采集层:此层次负责数据的原始获取。 此外,我们还设有数据源层(ODS),它作为系统与外部业务系统、业务数据库及文档库的连接点,为共享数据交换平台的数据支持提供了基础。

图-2:综治中心数据应用架构

数据源ODS层的主要职责是从各个业务系统获取异构的结构化数据,如来自公安、人社、民政和政法部门的数据,以及非结构化的数据资源,如微博(如新浪微博)和网络社区(如百度帖吧和论坛)的内容。这些数据经过抽取后,被整合至数据湖中,后续进行规范化和标准化的处理流程。

数据ETL采集层:

数据采集层使用可视化的开发开具,通过图形化拖拉拽,敏捷开发模式,集数据建模和ETL设计于一体,能快速响应开发,灵活应对,需求变动,开发者与应用者视角隔离,支持多人协同定义,共享资料库,内置数仓分层结构,提供数仓全局一体化视图,可视化管理和可视化定义,内置丰富的清洗、转换、抽取,支持多种文件格式,如TXT、EXCEL多种数据库类型,关系型数据库Oracle、MySql、SQLService、非关系数据HIVE,HBase,Elasticseach,消息中心件Kafka、MQActive,ETL定义支持数据抽样,转换过程支持边设置边预览,基于时间或事件的调度触发模式,批量加载和并行计算机制。

数据提取过程涉及按照预定的抽取策略自原始资料中获取信息,涵盖了结构化数据和非结构化数据的提取。该抽取策略灵活多样,支持定时、全量、增量、基于时间戳以及事件触发的抽取方式。

预处理层具备高效的数据去重功能,针对结构化数据,若在设定的时间窗口内各字段完全一致,将合并为单一记录。而对于非结构化数据,通过计算在指定时间段内的文件体特定区域的MD5值,确保重复文件仅保留一份原始内容,实现去重处理。

数据存储DWS层:

基础库:

基础库包含HBase数据库和HDFS。前者用于存储生产库中关系型数据库数据,后者存储生产环境中的结构化数据和非结构化数据,包括文本、视频、图片、网页等。

HBase数据库:

HBase数据库作为基础库的核心组成部分,映射着生产环境中关系型数据库的数据结构,其设计遵循了后者表的构建模式,如图所示:

Rowkey(Hash valuc)

col1

co12

co13

在列组(F)中,确保col2等字段与生产库表的相应字段保持同步。对于Rowkey,我们将运用哈希编码算法生成唯一的散列值。表名的命名规则为B_基础DB_来源_tablename,其中B代表基础库,即BasicDB;来源部分采用生产库用途的汉语拼音首字母大写形式,如旅馆对应LG。表名直接来源于生产库的原表名。

数据计算层:

大数据计算层:信息挖掘于海量原始资料,实质上是数据转化为价值的转化过程。它涵盖了对输入数据的全方位处理,其中包括数据的采集、储存、预处理、分拣、整合、运算、排列、变换、检索以及信息扩散的递进发展。该层的核心构成有两个关键要素:数据处理和数据管理,如图所示:

大数据平台计算层

收集 存储 加工

分类 归并 计算

排序 转换 检索

大数据平台计算层

数据服务层:

数据服务层通过API和RESTful接口对外公开其数据服务,支持BIDashboard指标的展现以及前端大屏的可视化呈现。

基础设施层:

以下是构成上层软件能力基础的关键设施: - 计算设施:承载着强大的计算能力,确保高效处理任务。 - 存储设施:提供稳定的大数据访问支持,保证海量信息的存储可靠性。 - 网络设施:实现高速的数据传输,确保高吞吐量的通信需求得以满足。 - 安全设施:保障服务的稳固与安全,为系统的运行提供坚实防护。

1.2.1.3 物理组架构

奉贤综治数据应用服务平台构建于集成化的架构之中,主要包括Web服务、数据库服务以及Hadoop和Elasticsearch的集群环境。

1.2.2 系统设计原则

1.2.2.1 确保适用性

作为平台设计的核心准则,社会治理大数据应用服务平台务必契合各类社会治理业务对数据资源的多元化、海量需求以及实时响应的特性。

1.2.2.2 强化标准一致性与管理规范化策略

为了适应多应用的需求,平台各组件应优先选用标准化的协议和规范,力求简化实施要求。

确保数据调查的合法性与合规性是各项工作的基石,其核心要求为证据的真实可靠性、精确无误以及完整性,务必严格遵循国家法律法规的规定。

1.2.2.3 提升创新和技术领先优势

借助先进的大数据技术,我们运用分布式架构整合互联网公共资源、社会资源及外部接口的数据,同时高效采集智能终端产生的取证信息,旨在实现各类异构数据的无缝融合存储,进行综合性分析与深入挖掘。

1.2.2.4 实用性原则

构建严谨的数据调查规范体系,确保按照规定程序采集并精确审核证据,力求全面、公正,使之能与大数据平台整合的数据相辅相成,形成稳固且互相验证的证据链条。

1.2.2.5 透明且包容的运营准则

社会治理大数据平台支持统一的开放数据接入标准,通过标准化的数据接口整合综治内部资源以及外部数据。针对已具备数据集成能力的县级(市、区)综治中心,我们提供配套的数据SDK,确保数据实时、稳定地流入市级平台。此外,平台亦配备必要的应用开发接口,以便利各类应用系统的开发工作。

1.2.2.6 强化安全保障措施

平台积累了庞大的数据资源,其中不乏涉及敏感信息。为了确保数据的权限管理和安全审查,平台必须配备相应的安全保障设施。

确保严格遵守保密审查规程,在搜集数据及整合其他业务共享资料的过程中,始终恪守保密原则,杜绝办案信息的无意泄露,并实施系统访问痕迹的严谨管理。所有采集的数据采用加密手段进行传输,随后进行集中且深入的综合分析。

1.2.2.7 灵活扩展性策略

随着社会治理信息化的深入发展,大数据信息的类型和规模将持续增长。与此同时,数据处理与分析的技术进步迅猛,新技术层出不穷,伴随应用开发与数据处理的进程。为此,平台设计应具备灵活性和扩展性,以便于接纳各类新数据、方法和技术的融入。

本期项目建设至少满足年的数据存储要求,后期根据数据种类及数据量的变化内容,进行动态地扩容数据中心存储。

1.2.3 详细阐述的功能单元特性

1.2.3.1 重构社会治理大数据存储结构

在实施大数据应用场景优化时,庞大的数据表量与繁复的关联性显著降低了整体效能。为此,社会治理大数据服务平台应首要依据实际应用需求,对原有的社会治理数据结构进行大幅精简。通过采用NOSQL列式数据库构建高效的大数据表,将原先分散于众多表格中的信息整合到一张或少数几张表中,实现从多元表结构向单一表模式的转变。

此方法有效简化数据连接,优化社会治理数据的关联架构,从而增强数据应用的效益。同时,借助大数据平台的线性扩展能力,我们将海量的非结构化数据整合入平台,旨在深度挖掘和充分利用已有的数据资源,强化数据融合策略。

1.2.3.2 开发全面的全文搜索与数据分析解决方案

社会治理大数据平台凭借整合的丰富数据资源,支持用户进行高效的数据查询,包括精准查找、模糊匹配和全文检索。用户能够便捷地运用类似自然语言的搜索条件,享受如同百度般直观的搜索体验,确保了对海量数据的查询响应时间达到毫秒级的高效率。

社会治理大数据平台除支持搜索应用外,还能凭借整合的社会治理大数据,进行碰撞分析、统计分析及聚合分析等多元化的数据分析,从而为社会治理实战提供强有力的支持。

1.2.3.3 提升针对社会治理的情报分析与服务效能

社会治理大数据平台支持通过数据接口和服务接口,向第三方应用群体开放其整合的海量数据、搜索与分析功能,旨在构建针对网格化社会治理的应用级大数据服务体系。这样,各级综治中心及网格员可根据业务需求的多元化,高效、简便且灵活地利用这些服务,从而减少业务系统开发的时间和成本,有效适应业务需求的快速变迁。

2 高效能数据中心应用详细规划

2.1 创新首印象设计

2.1.1 项目概述

首页概览展示:机构队伍、基础信息、关键成员一览、奉贤市地图概览、热点动态、区域援助对象以及事件处理进度的全面呈现。

2.1.2 用户界面创新与布局

首页概览展示:机构队伍、基础信息、关键成员一览、奉贤市地图概览、热点动态、区域援助对象以及事件处理进度的全面呈现。

2.1.3 详细设计关键功能特性

设计思路:

为了提高效率,我们设计了一张中间表格,通过字典表对数据进行了初步分类和汇总。后续的业务逻辑直接操作此中间表,同时在业务代码层面实现了数据的缓存存储,从而确保了快速响应的能力。

表格设计

报告中的数据表格:REPORT_T_TABLE详细表单

字段名

类型

说明

source_system name

varchar2(60)

源系统名称,例如:公安、人社、法院

source system_db_type

varchar2(20)

源系统类型,例如:mysql、oracle

source_table_name

varchar2(80)

源系统表名

sourcetable_fieldnumuber

varchar2(20)

源系统字段总数

source table recordnumber

varchar2(20)

源表中记录数

sourcebusiness_type

varchar2(20)

源表业务类型,例如:人、 物、组织

table code

varchar2(32)

表格编号

table_en_name

varchar2(180)

英语表名

table_zhname

varchar2(60)

中文表名

table_title

varchar2(180)

前端展示标题

table_db_type

varchar2(60)

目标数据库类型

table_business_level

varchar2(20)

数仓数据模型,例如ODS, DWB,DBSDM

table_big_type

varchar2(20)

大类,例如:人、物、组织

table_smalle_type

varchar2(20)

小类 ,例如:重点人员、上访人员

static_flag

varchar2(6)

是否统计标识

static_frequency

varchar2(60)

统计频度

static_detail

varchar2(200)

表简短描述

reserve

varchar2(80)

预留

静态站点数据字典表(详情地址)

字段名

类型

说明

site_code

varchar2(16)

地址编号

site_name

varchar2(80)

地址名称

longitude

varchar2(16)

经度

latitude

varchar2(16)

纬度

REPORT_T SUMMARY

字段名

类型

说明

Table_code

Varchar2(32)

表格编号

Table_name

Varchar2(32)

表格名称

Area code

Varchar2(32)

地址编号

Scount

Number(11)

记录条数

Stat_time

Date

统计时间

Reservel

Varchar2(32)

预留字段

Reserve2

Varchar2(32)

预留字段

Reserve3

Varchar2(32)

预留字段

数据流向

TADLE CODE

TADLE_EN_NANE

TALE_EIL HAME

TADLI_TITLE

TADLE_DIG_TYTE

150001

REPORT_T_QY BXIB

企业基本信息

企业

15

100003

RETORT_T_DYEXD

党员信息表

党员

10

150002

RETORT_T_DNDZZIXD

单位党组织信息表

党组织

15

100002

RETORT_T_CZTWJCXXD

出租房屋松查信息表

出租房屋

10

100013

REFORT_T_XWSFR.XXB

刑释放人员信息表

刑满释放入员

10

100025

REFORT_T_RY CXIB

人员基础信息表

实有人口

10

130003

REFORT_T_FNDJXIB

房室登记信息表

实有房屋

13

140005

REFORT_T_JDYLAQGLIXB

寄物流安管理信息表

寄递物流

14

100010

REPORT_T_HTEKZFXXB

尸错人口走访信息表

户人L

10

100014

REPORT_T_LDRKXIB

流动人口信息表

 

10

100013

REPORT_T_SDRYXIB

涉毒人员信息表

毒人员

10

100017

REPORT_T_S. ZRXXB

社矫止人员信息表

社区矫止入员

10

107023

REPORT_T_75ZHJSBR:XR

受肇祸等严重精神碍精神障碍者

 

10

127003

REPORT_T_WGYXXR

网格员信表

网格员

19

127001

REPORT_T_WGHJS:XR

网格化建设信息表

格数

19

150003

REPORT_T_QFQZZZXXB

群防群治组织信表

群防治组织

15

100022

REPORT_T_ZDSFRXXB

重点上访人员信息表

重点上访人员

10

接口设计

1机构队伍

1.1请求方式 get

1.2请求方式 url

查询工程进度详情

1.3请求参数

1.4返回结果

返回值名称

返回值类型

说明

success

boolean

false:失败,true:成功

data

array

集合

name

string

名称

value

string

总数

示例

请求:

查询工程进度详情

返回:

{

"success": true,

"data":[

{

name:”网格员”,

value:“112”

},

{

name:”党组织”,

value:“112”

}

]

}

2基本信息

2.1请求方式 get

2.2请求方式 url

查询项目详情摘要

2.3请求参数

2.4返回结果

返回值名称

返回值类型

说明

success

boolean

false:失败,true:成功

data

array

集合

name

string

名称

value

string

总数

示例

请求:

查询项目详情摘要

返回:

{

"success": true,

"data":[

{

name:”实有人口”,

value:“112”

},

{

name:”户籍人口”,

value:“112”

}

]

}

3重点人员

3.1请求方式g get

3.2请求方式 url

查询项目详情概览