企业信息化解决方案大数据智能化应用服务方案
招标编号:****
投标单位名称:****
授权代表:****
投标日期:****
DI系统:H3C数据集成解决方案(以下简称), 是一款全面的数据处理平台,旨在执行包括数据清洗、数据转换、数据映射、数据分发、流程监控、数据质量评估及综合数据分析等一系列任务。
DI系统能够全面支持各类建设场景下的数据仓库与数据集市、数据集中的数据ETL加工处理任务,以及内外部信息的高效处理与加工应用。
DI系统具备广泛的兼容性,能够无缝对接各类数据源,包括但不限于各种数据库系统、XML文档及电子表格;适应快速变化的IT环境,采用开放式架构,独立于硬件平台,确保了系统的灵活性与扩展性。它旨在优化数据集成流程,显著提升开发、部署及维护效率,通过元数据驱动和遵循开放标准的共享服务策略,确保透明度、互操作性和高度的灵活性。
在获取数据的过程中,原始数据可能无法完全契合目标库的需求,涉及的问题包括格式不统一、输入错误或信息不完整等。DI工具的优势在于其能够对提取的数据进行深度处理,其中包括数据转换与加工。常用的组件包括:字段映射以调整数据结构,数据过滤以剔除冗余或不符合条件的数据,数据清洗以确保数据质量,数据替换以修正错误值,数据计算用于执行复杂运算,数据验证以检查数据完整性,数据加解密保护敏感信息,数据合并实现多源整合,以及数据拆分以适应不同需求。这些组件犹如流水线上的独立环节,灵活可配置,且通过数据总线实现组件间的高效数据共享。
数据错误主要源于业务系统的不完善或数据输入的不规范。未经判断直接写入后台数据库的问题频发,如数值输入误用全角字符、字符串尾部附带换行符、日期格式不符合规定或超出范围等。此类数据异常需细分处理,针对全角字符和多余字符问题,可通过SQL查询手段定位,待业务系统修正后重新提取数据。对于日期格式错误或超限的异常,将导致数据集成流程中断,此时集成系统能够依据清洗规则自动识别并剔除这些错误。修复后,数据应重新装载至目标数据平台以确保准确性。
数据质量管理面临的一项挑战是,对重复性信息如地址的不同表述形式,往往被识别为独立的数据点,这需要有效管理和处理。
经过数据清洗规则的筛选,该部分数据从原始数据源中提取,随后依据业务策略进行相应的删除与整理。
在应用场景中,面临的关键任务是整合两个独立的应用系统,其核心挑战在于将两种截然不同的数据架构统一整合。这涉及大量的异构数据转换工作。所依赖的数据集成系统凭借其内置的全面数据转换功能和可定制脚本,能够高效地满足此类复杂的整合需求。
1.6.1大数据转换和装载
随着云计算时代的蓬勃发展,大数据(Big Data)日益受到广泛关注。它通过处理海量数据的交换、整合与深度分析,挖掘出新知,催生价值,引领着全新的探索阶段。众多用户已察觉到有必要将原本依赖于关系型数据库(如MySQL、Oracle)的数据,转型为诸如HBase、MongoDB、Cassandra等分布式数据库,以及Hadoop Distributed File System (HDFS)等分布式文件系统。为了实现这一转变,用户普遍采用数据集成(DI)工具,有效地实现了从关系型数据库到大数据平台的数据迁移和加载。
1.6.1.1功能特性
1.6.1.1.1全中文B/S架构
当前绝大多数的ETL工具还在使用C/S架构的配置器,不仅安装使用麻烦,而且无法实现多人同时配置数据集成服务的功能。DI系统内的监控配置器软件,采用B/S架构设计,可以通过浏览器方便的配置设计数据集成服务,且可以多人同时使用,B/S架构的监控配置器提供用户一个完全可视化的配置运行环境
兼容并蓄各类数据库与文件系统
系统支持几乎所有主流数据接口,如0racle8i/0racle9i/0racle10g/ Sql Server 2000/Sybase ASE 12. 5 / DB2 8.1/Informix IDS 10.0/MySq1 4.0 GreenPlum/PostgreSQL8.0/ InterBase7.1/ Access2000 /Foxpro6.0 /Lotus Notes 7/ Foxbase /Dbase/扁平文件/XML文件/Excel电子表格/ WebService。
1.6.1.1.3 支持各种大数据平台
我们的DI系统兼容众多主流列式数据库,包括HBase、Cassandra及Hadoop等,并支持HDFS分布式文件系统,能够有效地将数据抽取并存储于其中。
1.6.1.1.4: 支持集群化部署与配置
数据集成引擎在DI系统内部支持集群部署,可通过分布在多个服务器或虚拟机上实现。同时,一个集中式的监控配置器被用于管理,它能够全面监控整个数据集成集群中各引擎上运行的所有数据集成服务的状态。
1.6.1.1.5高性能运行
一种高效的数据集成引擎得到了全面优化,显著提升了任务执行效率。其特性包括对海量数据的强大抽取能力,以及支持批量装载的方式。
在数据库管理系统(DBMS)中,性能的关键因素主要包括表的连接操作、大规模的数据插入、更新以及分组总计等,这些在数据集成中是高频执行的任务。DI系统为此配备了相应的处理能力,旨在减少数据集成对数据源的负担,同时提升集成效率。特别是数据清洗阶段,如果在DBMS中通过SQL执行,往往需要对表频繁地执行update操作,导致多次扫描;然而,在本系统中,借助单个CleanUnit,可一次性清理一条记录中的多个字段,相比之下,仅需对表进行一次扫描,节省了资源与时间。
1.6.1.1.6 监控及权限
DI系统配备独立的监控模块,涵盖了资源监控、服务监控、服务管理、服务控制以及详尽的统计审计查询功能,旨在实现全面且高效的操作监督。
该监控系统采用B/S架构,支持通过浏览器进行访问,无需在客户端额外安装任何软件程序。
监控器提供用户名令方式的登录和证书登录两种方式,确保赋予权限的用户才能使用。
7 1.6.1.1.7 系统监控
监控与分析如下关键信息:服务器资源运用详情,包括CPU占用率、内存利用状况、硬盘使用情况、服务分布状态、今日流量动态以及授权的有效期限等。
以下是系统的详细视图:左侧展示了服务器的整体资源利用情况,包括CPU、内存和硬盘的占用状态;而右侧则特写了单一进程JVM的内存和CPU使用详情。
1.6.1.1.8 服务监控
监控所有DI服务的实时状态和流量信息,实现全面统一的实时掌握。
实时状态
首页的详细服务管理界面,展示了所有服务的实时状态、调度次数以及上一次调度的反馈结果。此外,它还整合了数据分析功能、架构视图、今日流量统计、服务下载链接以及运行中的实时数据查看,旨在提升管理效率。请参见如下图所示:
DI服务实时状况监控图
实时流量
DI服务的今日流量图,如图:
1.6.1.1.9 服务管理
服务操作界面包括增删改功能,通过点击对应的按钮,用户能够进入Web流程设计器,以便于执行服务流程的配置与编辑任务。
服务管理操作:包括启动与停止功能,支持一键同步执行对所有服务的启动或停止操作。
服务管理模块:包含部署与调度功能,支持对所有服务进行同步操作,一键实现部署及调度任务的执行。
服务分类
在服务管理中,我们采纳了服务属性的理念,这一创新源于客户的需求。它促使我们对服务实施多元化管理和详尽统计,诸如依据业务特性、地域划分、增量或全面的视角进行分类。以下是服务属性配置界面,以及据此展示的服务分类与统计详情。如下图所示:
1.6.1.1.10 服务审计
调度审计
查询所有服务的调度审计日志,包括针对每项服务的调度频率统计、总计的出库/入库记录总数,以及每次调度对应的具体控件出库/入库记录详情。
1、所有服务的调度次数:如图
总计的出库与入库记录数量,详如图表所示:
图表显示:每次调度所涉及的出库/入库控制元件的数量详情
条数统计
旨在通过设定条件,统计特定服务属性下的全部出库记录总数与入库记录总数的操作报告。
流量统计
请求获取在指定的时间范围内,所有服务产生的流量统计汇总信息,以及针对任一服务的详细流量统计数据。流量统计将以小时为单位进行精准计量。
条数比对
统计所有服务的出库与入库记录总数,包括针对每个服务的任一转换、源控件和目标控件的详细出入库记录。同时,对每次的调度信息进行对比分析。
对比每次调度信息,如图:
条数追踪
请求获取基于特定条件的全面出库与入库记录统计,包括所有服务的总计,以及针对每一项服务,详细记录每个控制组件的进出流量详情。
详细记录每个控件在服务转换过程中的流入和流出信息,具体示例如下:
1.6.1.1.11 服务报警
用于按条件查询所有服务的报警日志信息。
1.6.1.1.12 用户管理
用于管理访问管理中心的所有用户。
1.6.1.1.13 操作审计
查询DI系统中用户的所有操作记录,基于特定条件。涵盖用户登录、服务修改、部署、注销、服务删除、服务启动、密码修改、服务创建及服务停止等一系列操作时,系统将自动记录详尽的操作审计详情。
1.6.1.2方案组成
硬件构成方面,DI系统主要包括数据集成服务器、设计开发平台(即设计器)以及服务管理平台。特别地,数据集成服务器和设计开发平台选用强化安全的Linux操作系统。其整体架构示意图如下所示。
作为数据集成作业的实体执行器,数据集成服务器承载着开发者预设的数据集成规程,这些规程被存储于服务器中。它依据预先设定的调度日程自动执行任务,或在接收到客户端终端的指令时响应执行数据集成作业。
该服务管理平台具备实时监控数据集成业务运行的能力,提供包括运行状态、步骤追踪、数据流量、处理结果以及报警信息在内的全方位实时视图。同时,它支持在设计器内进行无缝的服务工作流程的在线配置与实时预览功能。
1.6.2数据存储与计算层大数据技术
1.6.2.1Hadoop大数据计算框架
H3C DataEngine构建在Hadoop基础上,整合了多项关键功能,包括负载均衡支持、批量交互式查询、深入的数据挖掘以及对海量数据的高效存储。该平台旨在弥补传统数据平台在处理PB级海量数据存储上的局限,以经济高效的架构应对结构化和非结构化数据的归档、存储、即时查询,同时强化数据治理、质量管理及历史数据优化。H3C DataEngine凭借其对SQL92标准的全面兼容,支持创建数据库对象如存储过程,并完整支持HiveQL。此外,它还符合JDBC和ODBC标准,提供跨平台兼容性,包括Linux和Windows(64位)环境下的ODBC驱动器支持,从而为深度数据挖掘和业务分析奠定坚实基础。
H3C DataEngine:高效能大数据处理平台
H3CDataEngine 提供全面兼容SQL92标准的大数据计算框架服务,支持包括存储过程在内的各类数据库对象,以及完整的HiveQL语法。它严格遵循JDBC和ODBC标准,特别针对Linux(64位)与Windows环境,Odbc驱动无缝适配。针对特征平台、交通流畅优化与安全生产等应用场景,我们充分利用Hadoop平台,实现对SQL的高效快速分析。特别值得一提的是,我们基于Hadoop的原生并行SQL处理组件HAWQ,该组件能够接收SQL查询结果集,并凭借其强大的并行处理能力,执行大规模数据的分析任务。
Spark SQL联MySQL
Drill
HAWQ组件
城市运行大数据平台通过整合来自14余家业务单元的多元数据资源,其架构独特,涵盖了异构数据库的广泛连接。平台专为处理各业务单位所使用的不同数据库类型而设计,包括Hadoop的HBase和Hive,以及关系型数据库如MPP(大规模并行处理)、Oracle和SQL Server。平台的核心功能之一是实现了跨异构数据库的关联查询,支持统一的SQL查询语言,同时集成Solr和ElasticSearch全文检索组件,确保高效的信息检索能力。
ElasticSearch件
Solr组件
在各种业务场景中,充分挖掘并应用其特性,包括文档集合的配置灵活性、架构的可扩展性以及查询性能的优化。实时搜索功能得以实现,确保数据以JASON格式的高效、稳定、安全传输。同时,支持动态映射,适用于体征平台、交通流畅保障与安全生产等多个业务领域,进行全文检索。 大数据平台被多个单位采用,凭借其强大的多租户设计,能够根据业务部门的特性和需求,提供资源独立的服务。各个部门能在各自的业务范围内使用分配好的大数据分析资源,无需指定特定物理机,自动实现资源隔离,有效防止资源竞争的情况。
多租户服务
针对资源供需状况,我们提供可灵活调度的闲置资源,并设立自助服务平台,以便租户实时监控其大数据业务组件的运行状态。
用户自服务
该方案采用Web图形化ETL工具如Kettle、Kafka及Sqoop等,实现数据从多元源(Windows、Linux、Unix等平台的多种数据库)的高效导入至Hadoop。具备任务链调度功能,当来自多个发布源的数据全部抵达后,自动触发任务执行。系统支持ETL元数据管理,包括元数据复制与迁移,同时提供详尽的任务运行统计分析,用户可深入查看子任务执行详情及运行日志。 针对一卡通、天然气等业务部门的结构化与非结构化数据,我们利用Sqoop进行跨数据库间的数据传输,确保在多操作系统环境下Kettle或类似ETL工具的稳定运行,从而实现数据抽取的高效与便捷。此外,该方案强调了对体征平台、缓堵保畅和安全生产等业务数据的全面支持,通过图形化界面简化数据清洗、转换过程,确保整个流程的安全性。 同时,借助分布式Flume工具,日志文件被实时采集并流式存储在HDFS中,便于后续深度数据分析。
Sqoop
Kettle
采用分布式Flume工具实现日志文件的流式采集,并将其高效地存储于HDFS中,以便进行深入的数据分析。
Flume
一卡通、天然气等多个业务部门数据包括结构化和非结构化数据,数据存放在Windows、Linux、Unix等多平台数据库中,使用Sqoop将一卡通、天然气等多个业务部门数据在Hadoop上关系数据库之间进行数据传输,使用Kettle或ETL工具可在多操作系统上运行,高效稳定的抽取数据、提供图形化管理等优势,保证体征平台、缓堵保畅和安全生产等业务数据抽取、清洗、加工、转换的便捷、高效和安全。
数据采集任务类型
Web化数据采集工具
数据转换
数据加工
以下是主要功能特性概述: - **任务链调度**:系统具备处理能力,可在所有订阅的多源发布数据集齐后自动触发任务调度。 - **ETL元数据管理**:支持元数据的高效管理和操作,包括复制与迁移,确保数据一致性。 - **运行统计与分析**:提供详尽的任务运行状态报告,用户可深入分析并通过子任务查看详细结果及日志信息。 - **数据清洗与转换**:内置数据清洗与转换工具,确保数据质量,满足后续处理需求。
数据采集任务管理
数据采集作业调度
数据采集任务运作状况
我们的城市运行大数据解决方案依托Hadoop大数据计算框架,构建了涵盖研发、测试和生产等多环节的高效集群管理体系。大数据处理平台具备卓越的扩展性,可支持多达100个节点的并发作业。对于存储需求,我们设计的大数据存储集群具备强大的PB级数据存储能力,确保海量数据的高效管理与存取。
多集群管理
具备图形化界面管理功能,支持对多套Hadoop与HBase集群的统一监控和配置。通过界面操作,用户可以灵活地管理节点服务器与其关联的机架,包括添加、移除机架以及调整主机分配。系统实施主动的健康检查机制,确保集群监控的实时性和可靠性。图形化的展示形式清晰呈现主机在物理机架中的分布,详细记录CPU、内存和磁盘资源的状态,以及服务的部署情况和健康状况。一旦发生硬件故障,用户能迅速依据机架定位到具体的服务器,从而简化故障排查流程,便利运维人员和大数据平台管理团队定位问题节点,提升响应速度和效率。
WEB集群状态监控
机架展示
添加机架
: |
|
上 |
|
|
天以 |
|
|
1 |
|
am |
|
|
|
1 |
|
|
|
|
|
3 |
|
|
|
|
|
1 |
|
|
|
|
|
|
4中
告警监控
在构建体征监测、交通流畅优化与安全生产等相关的重要应用平台上,鉴于其中承载的社会、企业及民生关键且敏感的数据,我们严格实施权限管理,遵循最小授权原则,对系统管理员、安全保密员以及安全审计员进行精细化的权限分配。Hadoop平台采用一体化的日志审计系统,完整记录所有操作行为,并支持查阅与追溯功能。
管理员
安全员
审计员
该系统负责管理组件及所有主机的全面监控,涵盖诸如HDFS、Spark等各类服务的日志、审计和警报信息。此外,还特设针对特定服务和操作的定制监控仪表板,支持高效的日志检索、全文搜索以及详尽的统计分析功能。
日志审计
日志全文检索
具备全文搜索功能,支持在HBase中进行高效的数据全文检索,同时配套详尽的技术文档供查阅。
ElasticSearch全文检索
业务平面与管理平面在大数据集群中实现独立的网络划分,旨在确保业务和管理系统的网络安全性得以有效保障。
大数据平台具备全面的多租户管理功能,旨在动态配置和管控各租户的资源,确保资源间的有效隔离,并提供详尽的资源使用统计报告。
多租户资源隔离
实现精细化权限控制,具备角色基础管理和多租户管理模式。集成LDAP安全验证机制,并支持Kerberos协议对用户账户进行深度安全认证。
主页主
支持Kerberos
要求集成Mahout和Spark MLlib等主流机器学习算法库,涵盖关键功能如聚类分析、分类算法、频次关联分析以及推荐系统。算法设计应注重挖掘过程中的智能分类与分析能力。
1、业务分类:数据预处理
1.1、业务子类:采样与过滤
模型名称:加权采样、过滤与映射、分层采样
1.2、业务子类:数据合并
模型名称:join、合并列、union、增加序列号、拆分、缺失值填充、归一化、标准化、类型转换
2、业务分类:特征工程
2.1、业务子类:特征提取
模型名称:TF-IDF、word2vec
2.2、业务子类:特征转换
模型名称:countvectorizer、tokenizer、stopwordsremover、o-gram、polynomialexpansion、dct离散余弦变换、minmaxscaler、maxabsscaler、quantilediscretizer
2.3、业务子类:特征变换
一、主成分分析 二、特征规范化 三、特征尺度转换
2.4、业务子类:特征重要性评估
1. 随机森林特征的重要性分析 2. GBDT特征的权重评估 3. 当前模型特征显著性探究
2.5、业务子类:特征选择
模型名称:偏好计算、过滤式特征选择
2.6、业务子类:特征生成
模型名称:窗口变量统计
3、业务分类:机器学习
3.1、业务子类:二分类
一、线性支持向量机 二、逻辑回归二分类模型 三、梯度提升决策树(GBDT)二分类模型
3.2、业务子类:多分类
以下是各类模型的名称: 1. 临近度分析模型(K-Nearest Neighbors,KNN) 2. 多类别逻辑回归算法 3. 随机森林分类模型 4. 朴素贝叶斯分类法 5. 决策树模型
3.3、业务子类:关联规则
模型名称:fp-growth、apriori、carma
3.4、业务子类:聚类
以下是几种常用的聚类方法: 1. k-均值聚类算法 2. 主题模型lda 3. 二分划分的k-均值方法 4. 高斯混合模型(gmm)
3.5、业务子类:回归
以下是几种回归模型的名称: 1. 线性回归模型 2. GBDT回归算法 3. XGBoost强化回归
3.6、业务子类:评估
模型名称:混淆矩阵、多分类评估、二分类评估
4、业务分类:文本分析
以下是主要的模型类别:词频统计分析、TF-IDF权重计算、PLDA方法、基于字符串的相似度评估、Word2Vec词向量表示以及分词处理(SplitWord)
5、业务分类:分类算法
模型名称:car树、quest、chaid、决策列表、线性模型、神经网络、特征选择、判别分类、广义线性模型cox回归、自学响应模型
6、业务分类:异常检测
模型名称:异常检测
7、业务分类:社交网络分析
模型名称:社交网络分析
8、业务分类:R统计分析
以下是各类统计分析方法的模型概括: 1. 相关性探索:通过相关分析揭示变量间的关系。 2. 残差质量评估:执行残差检验以确保模型预测的准确性。 3. 类别区分技术:运用判别分析进行样本分类。 4. 因素解析:实施因子分析以揭示潜在变量的影响。 5. 对应性研究:依赖对应分析探究变量间的结构性联系。
构建直观易用的安装维护管理系统,涵盖引导式集群部署、实时监控集群状态、预警管理、日志管控、用户权限管理、版本更新维护以及定期健康检查等多元化的运维功能,旨在提升大数据平台运维与监控的效率,简化运维人员的日常操作。
敬请体验DataEngine Manager的高效服务
您将通过本指南启动集群的安装过程,首先步骤是为新创建的集群指定一个名称。
请给你的集群命名了解更多信息
cluster
下步→
Web化向导式安装
运维监控
敬请提供详细的大数据平台开发手册与API接口技术说明书,同时附带相关示例代码供参考。
(详见本章第一节对外服务和外部接口)
Hadoop架构:H3C DataEngine展现的特点如下
高可靠性:Hadoop的数据存储和处理能力赢得了用户的信任与依赖。
具有卓越的可扩展性:Hadoop通过在众多可利用的计算机集群间动态分布数据并执行计算任务,展现出强大的扩展能力,能够轻松容纳数千个节点,实现无缝扩容。
得益于其节点间数据的动态迁移能力和节点间的动态负载均衡,Hadoop表现出极高的执行效率,从而实现快速处理任务。
具备高度容错机制:Hadoop通过自动备份数据的多个副本,以及智能地重新分配故障任务,确保了系统的鲁棒性。
通过采用X86服务器作为基础架构,Hadoop相较于一体机和商用数据仓库等数据集市,能够显著降低构建成本。
Hadoop核心功能模块在H3C DataEngine中的体现涵盖:
分布式高可靠性协同管理系统
一种适用于大数据的高效并行数据处理架构
HDFS:Hadoop分布式文件系统。
承担MapReduce作业的高效调度任务。
HBase: Key-Value。
:数据仓库软件包的架构基于MapReduce模型
作为Hadoop架构之上的高级数据处理组件,PigLatin语言为编程人员赋予了更为直观的数据流自定义操作手段。
该框架为内存驱动的迭代计算设计,特别适合于需反复处理特定数据集的场景。
该系统是一个实现实时流处理的分布式、可靠且具备容错能力的架构。
其中HDFS是Hadoop最基础的分布式文件系统,对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等等。但是HDFS的架构是基于一组特定的节点构建的。
复制的数据块
这些节点包括NameNode,它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为128MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。
MapReduce作为Hadoop的核心计算模型,其设计原则遵循‘分解并行处理’的理念。它将对大规模数据集的操作任务分解并分配给主节点管理下的多个从属节点协同执行,随后通过整合各节点处理的中间成果,汇总得出最终结果。概而言之,MapReduce可被定义为“任务拆分与结果汇总的过程”。
分布式Hadoop处理:致力于海量非结构化数据的分析
Hadoop依托X86架构的本地服务器,集成了高效的计算与存储能力,实现了分布式并行处理和经济高效的存储解决方案。它支持快速响应、高并发的查询需求,且具有良好的可扩展性,能够无缝扩展至包含数千台服务器的集群系统。
统一资源管理:YARN的优化版本,支持在单一物理主机/虚拟主机和数据集中部署并协同运行多种计算框架,涵盖离线分析、内存计算与实时光速处理。
HDFS:一种高效分布式文件系统,以其卓越的容错能力见长,适用于广泛的x86架构环境,旨在降低整体运营成本,支持高度扩展,并能有效构建大型应用程序。
离线计算框架:MapReduce通过分解为Map与Reduce两个步骤进行算法处理,特别适用于数据密集型运算环境。
迭代与交互式计算的优势:相较于MapReduce,Spark展现出优势,作为内存计算框架,其设计目标是提升数据在内存中的存储和处理能力,从而显著增强针对迭代任务和交互式应用的执行效率。MapReduce本质上属于磁盘计算框架,其性能在这些场景中相对较弱。
实时流处理:MapReduce并不适宜执行连续的流式计算与即时分析,例如广告点击计数,相比之下,Storm在实时性能上具有显著优势,其处理效率远超MapReduce架构。
(2)实时计算(实时分析应用场景)
实时计算平台致力于确保数据处理的精确性和稳定性,通过记录每条数据完整处理路径的追踪。一旦在处理流程中遇到异常,平台具备自动重算功能,仅对未完成的运算进行补足,从而确保数据仅被处理一次。这种设计使得即使系统遭遇故障,任务仍能保持正确执行,报表应用免受故障影响,避免了因故障导致的延迟或数据错误。
流式处理:一种实现实时数据建模的逐行读取策略,对于大规模综合数据分析通常力有未逮。若需对长时间跨度内原始数据的整体概览,同时融合新旧数据进行相关操作,流处理平台往往难以胜任此类任务。其处理流程如下:
源源不断地,数据源于各类数据源,诸如实时运营产生的在线业务数据及持续抓取的信息资源。
数据将有序流入高吞吐量的消息队列系统Kafka,每一条接收到的数据随即被分发至各Storm处理节点进行运算。
在数据接收的即时点,Storm流处理节点执行相应的计算任务,并将运算结果实时导向查询平台或内存数据库系统中。
1.6.2.2.1 对外服务和外部接口
1.6.2.2.1.1 外部接口
该外部接口致力于构建高效能的服务连接,向上层应用程序提供统一的数据服务。其主要功能涵盖SQL接口、MapReduce接口、定制化的业务接口、关联查询接口,旨在满足数据查询、交互、交换、分析以及目录服务、综合查询和信息比对等多元化业务需求。所有服务接口已实现模板化配置,便于数据规范的设定、管理和维护,同时支持服务权限的动态、精细化管理。此外,还支持多形式的Web服务接口,通过数字证书认证,自动记录接口调用者信息(如用户身份、调用时间、发起IP地址、操作类型、涉及字段、特定条件和返回结果)的日志生成与追踪。
基本接口
SQL接口
平台整合了遵循SQL92、SQL99、SQL2003标准的多元数据库体系,包括传统关系型数据库和分析型数据库集群,致力于提供全面的数据存储与管理系统。该架构兼容并支持国际通用接口如CAPI、ODBC、JDBC、ADO.NET,用户可以直接通过SQL语句操作,获取执行结果集,确保高效便捷的数据交互能力。
HQL接口
在构建的数据仓库管理系统中,我们整合了Hadoop生态系统的关键组件Hive,以便于高效管理非结构化数据。通过Hive的HQL查询语言,用户能够便捷地操作和处理存储在数据仓库中的海量信息,实现数据的高效管理。
MapReduce/Spark
MRJob的关键组件是平台集成的Hadoop生态系统,它利用此生态来处理非结构化数据,通过实现Mapper和Reducer接口,实现了Map和Reduce操作的功能。
自定义接口
业务定向接口
平台特设针对特定业务的数据服务接口,以便高效封装满足应用需求。上层应用开发可直接调用这些预置的业务数据接口,无需从头设计或重构,进而显著提升开发效率。
关联查询接口
借助用户自定义函数(UDF)的扩展特性,分析型数据库集群能够无缝衔接Hadoop生态系统中的数据接口。在集群内部,我们通过设计并实现多个函数,这些函数能够调用底层的MapReduce功能。这样,无论是结构化的数据结果集还是非结构化的数据,都能从查询命令中获取并统一输出。通过关联查询接口,我们实现了对多样化数据源的无缝关联查询,这一切对上层应用来说是完全透明的。
文件目录访问接口
DataEngine的NFS Gateway功能实现了将HDFS无缝集成至客户端机器,作为其本地文件系统进行管理。此举使得上层应用程序可以直接通过文件目录的方式进行数据文件的操作,包括存储、增加、删除和检索等基本操作。
Gateway有如下可用特性:
在具备NFSv3兼容性的操作系统环境中,用户能够通过本地文件系统对HDFS进行直观访问。
NFSGateway支持便捷地实现本地文件系统与HDFS文件之间的双向传输,即从HDFS下载至本地,以及从本地上传至HDFS。
HDFS支持通过挂载点直接传输数据流,然而其写入操作具有局限性,即仅限于增量添加,无法实现随机写入数据。
展示
部分参数说明
NFS Gateway
参数名称 |
参数意义 |
推荐值 |
NFSGateway maximumJava heap size |
NFSGateway最Java小 |
1024M |
NFSGatewaydumpdirectory |
NFSGateway转 |
/tmp/.HDFS-nfs |
Accesstimeprecision |
HDFS文件的访问精确时间,0代表禁止访问 |
0 |
1.6.2.2.1.2 应用对接模式
提供多种开放模式:
我们推行SaaS(软件即服务)的开放式架构,通过整合数据,研发出各类数据应用产品,并在应用商店上架,供外部用户进行便捷的在线访问和使用。
我们推行DaaS(数据即服务)的开放式架构,通过封装内部数据为API接口,供外部系统便捷地进行高效查询与调用。
我们支持PaaS(平台即服务)的开放式架构,旨在接纳第三方机构携带其私有数据与企业的数据资源在数据工厂内进行无缝融合与深度信息处理。
我们支持与合作伙伴采用三种不同的开发模式,具体如下:
数据中心的3种开发模式
致力于MPP和Hadoop平台上的数据处理开发服务,我们期待合作伙伴能够优化并定制处理流程,确保其兼容并能够在上述两大技术架构上顺利执行。
致力于实时计算开发,我们特别依赖于Storm框架进行流处理项目的构建。合作伙伴需熟练掌握并应用这两种核心开发工具,以实现高效实时流处理程序的开发。程序处理完毕后,应能自动触发数据服务的消息订阅功能,