行业数据服务平台建设方案(热门14篇)

时间:2025-06-13 05:23:25 admin 今日美文

行业数据服务平台建设方案 第1篇

批量模式

批量模式用于在平台建设完成初期进行历史数据的迁移,将大量的基础数据和历史数据导入平台集群。可通过sqoop等ETL工具将数据导入到HDFS或Hyperbase中;同样可通过bulkload工具将批量数据导入到Hyperbase中;也可以直接将数据直接传入HDFS,其后可以通过建立外表的方式对数据进行分析。

增量模式

增量模式用于上线后将指定周期时间间隔(如每天,每小时或每10分钟)内的数据导入平台,可通过sqoop的增量导入等模式进行。对于与Oracle关系型数据库的实时同步,平台提供与Oracle Golden Gate的接入接口,通过解析Oracle的日志,采用TDT进行导入,不增加生产库任何负担,将新增的记录实时同步到大数据平台。

准实时接入模式

某些场景下,普通的T+1模式已经无法满足业务系统的需求,需要进行准实时同步,准实时同步是指将数据从传统的关系型数据库实时同步到大数据平台上,这样客户可以实时或者准实时地在大数据平台上进行数据分析。借助Oralce GoldenGate(OGG)、IBM Datastage Data Replication (CDC)等软件的支持,这些软件实时地读取关系数据库的日志记录,将这些日志记录写成文件记录到本地(部分新版本可直接把文件传送到HDFS上)。

Transwarp Data Transporter是星环提供的一款数据整合工具,能够在秒级将数据从RDBMS同步到TDH,同时支持多种格式的文件数据,以及去重、聚合、关联等在内丰富的数据转换操作。根据具体配置策略,定时去检查对应HDFS目录或者由某些调度程序实时监控HDFS并调起TDT,TDT然后将这些日志文件按照一定的处理逻辑,将日志文件识别(如B、A、U、I、D等)并进行转译将记录同步到大数据平台Inceptor或者大数据平台Hyperbase中去。

实时接入模式

业务平台实时产生的结构化日志或者消息通过Flume分布式日志实时采集工具加载到TDH平台上HDFS、Search、Hyperbase或者Kafka数据队列中。Flume是提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

星环大数据平台TDH支持通过Flume自定义数据接口以及数据的简单处理,并将处理后的数据加载到指定的存储端。

流数据采集可通过高吞吐、高可靠的分布式消息队列缓存Kafka及flume来实现。Kafka可以用作数据缓冲队列,作为流处理的数据源。Transwarp Stream作为Kafka的消费者,使用StreamSQL对数据进行处理。在万兆网络,使用双副本的条件下,对于高效模式单台数据总线服务器支持的业务数据加载速度在300MB/s及以上,吞吐能力可以随集群规模线性扩展。对于可靠模式支持的业务数据单节点加载速度25M/s及以上,可以线性扩展至网络传输的极限。高效模式下数据丢失率在万分之一以内。可靠模式下加载数据要求与输入数据一致。单集群支持的数据总线服务器总数随集群规模扩展而增加,支持100节点以上的集群规模。数据从发布到订阅时延在1秒以内。

数据库直连

TDH支持使用DBlink方式进行实时连接将关系型数据库中的数据抽取到离线数据库,同时支持过滤条件下推,在关系型数据库上进行过滤以后再进行抽取,加速抽取和计算的效率。对于原来存储在关系型数据库中的维度表/码表,可以使用dblink的方式进行实时连接计算)。Stargate支持dblink的功能,可以在计算时将关系型数据库中的数据抽取到大数据平台上进行计算,同时支持过滤条件下推,可以在关系型数据库上进行过滤以后再进行抽取,加速抽取和计算的效率。MongoDB的数据可以通过MongoDB适配器采集到大数据平台的HDFS上,然后再进行计算。

行业数据服务平台建设方案 第2篇

元数据管理工具

星环大数据平提供Transwarp Governor来进行元数据管理,能够查看数据之间的血缘关系和进行依赖分析。Governor能够管理数据的位置、结构、操作以及数据的血缘和影响。Governor提供了统一化和图形化的元数据管理接口,具有追踪血缘关系和影响分析的能力,能够确保数据质量,此外Governor还能追踪操作历史,从而提高生产力和降低管理协作成本。

行业数据服务平台建设方案 第3篇

建设目标:聚合数据、统一治理、开放服务、智能应用
建设原则:标准先行、融合提升、开放创新、循序渐进
整体架构:一套标准、一个仓库、三个中心,构建一个系统
一套标准:基础数据标准、数据集成标准、数据模型规范、数据治理规范、数据服务规范等5大类26个标准规范
数仓技术架构:“分布式数据仓库+传统数据仓库”相结合的融合架构
数仓逻辑架构:数据同构层、数据加工层、数据集市层
数据治理:数据质量、数据安全、数据运维、元数据(数据资产)
应用创新:用户画像、数据挖掘、基因图谱、自助查询
技术引擎:Hive、Spark Streaming、MPP、Spark+MLlib
建设成果:数据资源平台、数据管理平台、数据服务平台、数据分析工具
三位一体:大数据平台、数据云平台、决策支持系统
数据中台:大数据仓库、数据治理中心、数据应用中心、数据服务中心
建设原则:开放性、统一性、扩展性、安全性、维护性
建设策略:夯实基础、丰富应用、加强管控、加强创新
总体架构:数据中台+业务中台、数据治理中心+数据服务中心+数据应用中心
应用架构
数据架构
技术架构
数据治理中心:“5化9管理”,数据标准规范化、数据采集全面化、数据管理流程化、数据资产可视化、数据质量度量化
数据治理中心:数据标准、数据采集、数据加工、数据存储、数据知识、数据质量、数据安全、数据运维、元数据
数据资产:目录、检索、报告、分析等,数据资产价值最大化
元数据管理:数据地图、血缘关系、影响分析
数据质量:完整性、准确性、一致性、及时性,全生命周期闭环管理,保障数据质量持续提升
知识管理:建设数据管理知识库,方法与经验沉淀共享
数据服务中心:数据加工服务、数据分发服务、数据共享服务、数据提供服务
......

行业数据服务平台建设方案 第4篇

建设大数据管理中台,按照统一的数据规范和标准体系,构建统一数据采集-治理-共享标准、统一技术开发体系、统一接口API,实现数据采集、平台治理,业务应用三层解耦,并按照统一标准格式提供高效的数据支撑服务,保证上层业务应用系统能够更加专注于业务流与数据流的梳理和重构,从而释放数据压力,节约系统开发周期,提升系统建设效率,满足企业、政府数据精细治理、分类组织、精准服务、安全可控的数据资源体系管理目标。

行业数据服务平台建设方案 第5篇

TDH提供了深度学习与交互式探索平台Sophon,它是除了Discover之外的另一个机器学习产品。Sophon包含一个交互式的开发IDE——Midas。

Midas是一种拖拽式图形界面工具,使用Midas可以很快且很简单地创建被称为流程的分析工作流来挖掘数据,只需通过将数据连接到用户构建模型的算子上,实现分析和预测功能。用户可以根据所获得的预测结果提高洞察力,实施对应活动。

用户画像分析是星环大数据挖掘平台推出的系列标准案例之一。用户画像的核心工作是,利用用户的相关数据,以及人为规定的高度精炼的标签规则,为用户打标签。完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。用户画像可以看作企业应用大数据的根基,能够更加直观的帮助企业了解用户,挖掘更多机会。一个完整的用户画像涉及很多内容,比如:自然属性(姓名,年龄,证件,联系方式等)、家庭属性(婚姻,孩子,父母等)、地理属性(居住地,工作区域,生活半径,出差情况,旅游情况,出行方式等)、行为属性(交易,投资,偏好等)、等级属性(客户价值,客户等级,客户忠诚度等)。

常用算法支持

Transwarp Discover是针对海量数据平台提供的分布式机器学习引擎,主要由Spark内存计算框架、R语言以及MapReduce机器学习框架构成。

支持R统计引擎,最新版本的TDH除了支持通过R访问HDFS或者Hbase中的数据外,还支持访问存储在Hive分布式内存中的数据。Discover同时内置了常用机器学习算法的并行化实现,可以与R语言中的数千个算法混合使用。支持R命令行以及图形化的R Studio执行R语言程序来访问TDH中的数据,从而使得TDH成为在大数据的数据挖掘和可视化应用领域的利器。TDH包含了经过高度优化的专有图算法,可高速分析关联关系网络等图数据。此外,TDH还集成了机器学习算法库Mahout,包含了聚类分析、分类算法、频度关联分析和推荐系统在内的常用机器学习算法。

定制模型构建能力支持

Sophon是一种拖拽式图形界面工具,界面如下图所示。使用Sophon可以很快且很简单地创建被称为流程的分析工作流来挖掘数据,只需通过将数据连接到用户构建模型的算子上,实现分析和预测功能。用户可以根据所获得的预测结果提高洞察力,实施对应活动。Sophon界面如下图所示:

行业数据服务平台建设方案 第6篇

(一)数据仓库分层技术

※ ODS 层:原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理;

※ DWD 层:对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化脱敏等;

※ DWS 层:以DWD为基础,按天进行轻度汇总;

※ DWT 层:以DWS为基础,按主题进行汇总;

(二)数据标准化设计技术

(1) ODS原始数据层

Ods层命名空间namespace=ods;

Ods层表命名方式tablename=源系统名+表名;

该层数据首先从kafka接入,然后通过一定的解析方式,最后逐条存入相应的表中。

(2) DWD明细数据层

Dwd层命名空间namespace=dwd;

Dwd层表命名方式tablename=源系统名+表名;

Dwd层与Ods层是一对一的关系,对Ods层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、维度退化脱敏等;

(3) DWS服务数据层

Dws层命名空间namespace=dws;

Dws层表命名方式tablename=自定义表名;

Dws层与Dwd层是一对多关系,以Dwd层为基础,按天进行轻度汇总;

(4) DWT数据主题层

Dwt层命名空间namespace=dwt;

Dwt层表命名方式tablename=自定义表名;

Dwt层与Dws层是一对多关系,以Dws层为基础,按主题进行汇总。

数据仓库分层技术;

※ 清晰数据结构:每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解。

※ 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。

※ 统一数据口径:通过数据分层,提供统一的数据出口,统一对外输出的数据口径。

※ 复杂问题简单化:将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。

屏蔽原始数据的异常:不必改一次业务就需要重新接入数据。

行业数据服务平台建设方案 第7篇

1.     

行业数据服务平台建设方案 第8篇

标准SQL开发工具Waterdrop是为开发人员和数据库管理人员提供的数据库管理工具,它可以进行跨平台管理,可作为大数据计算服务客户端,除了大数据计算服务外还支持兼容其余多种数据库。Waterdrop提供一个类似Eclipse的环境,用户可以通过Waterdrop连接Inceptor并在之上做数据库建模,支持 Oracle,MYSQL 建模设计;支持基于Hadoop(Hive、HBase 等)的分布式存储系统的数据建模。该产品主要包括四个功能模块:

行业数据服务平台建设方案 第9篇

从布点、收集、存储、刷新、识辨、关联、挖掘、决策、行动、再到反馈,这样一个闭环,才能让数据驱动业务。在数据真实性的前提下,数据驱动业务,才能以数据为驱动,为企业提供经营决策,创造效益。构建大数据分析系统(数据中台),存在一下问题:

(1) 数据采集的正确性确定难,从一端流向另一端,不可避免会产生转化率的问题,如何将非真实的数据与异常的数据过滤掉,收集真实的数据,实现完整的数据闭环,才能让数据挖掘、数据分析变成商业价值。数据真实性的收集,异常数据的过滤,在大数据平台建设过程中,是建设的难点之一。

(2) 技术选型困难,不同业务方有不同的数据需求,技术选型时依据这些客观需求及主观偏好,会选择不同的计算框架和数据组件,搭建一个合适特定行业的业务架构与技术架构,让企业转型变简单,也成为建立大数据分析系统的难点;

(3) 数据需求多样,业务部门需求多样化,包括报表计算、可视化看板、数据探索、数据服务、结果推送、数据采集及迁移、标签体系、用户触达、数据应用;

(4) 数据管理复杂,数据的可解释性、可管理性要求越来越高,各种新存储架构的加入,使得元数据管理和数据流程标准化更加复杂;

(5) 数据权限管理,数据赋能的体系中权限控制是很关键的功能,需要实现各种级别的数据权限,组织架构、角色、权限策略自动化,以及对新的计算架构的权限管理。

(6) 数据成本高量化难,数据成本包括集群成本、运维成本、人力成本、时间成本等,持续系统地计算这些成本需要在系统架构中加入相应的统计接口,而现有的大多数中台并没有将这些接口考虑在内。

(7) 数据标准建立和协调困难,数据标准化建设主要包括,数据建设规范中的数据安全规范、数据存储规范、数据建模规范、数据接入规范;数据消费规范中的数据销毁规范、数据调用规范、数据权限规范;

行业数据服务平台建设方案 第10篇

与大数据平台对接的系统很多,这些系统数据库结构各异。因此,数据交换方面考虑各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数据格式主要包含文本文件,XML等多种方式,传输频次包含非实时、准实时、实时形式。

平台同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。

行业数据服务平台建设方案 第11篇

计算层技术含量最高,最为活跃,发展也最为迅速。计算层主要实现各类数据的加工、处理和计算,为上层应用提供良好和充分的数据支持。大数据基础平台技术能力的高低,主要依赖于该层组件的发展。

本建设方案满足甲方对于数据计算层建设的基本要求:

利用了MapReduce、Spark 、MPP 、Zookeeper、Yarn、HBase、Mahout 等开源组件和技术;实现了实现各类数据的加工、处理和计算,为上层应用提供良好和充分的数据支持;并且提供了更高效的列式数据库Hyperbase、跨内存/闪存/磁盘等介质的分布式混合列式存储Holodesk、一体化的机器学习平台Discover和拖拽式图形界面工具Midas。可以给甲方后续建设提供更丰富、更多样性的选择。

行业数据服务平台建设方案 第12篇

星环大数据平台与开源社区保持密切的关系和技术互动。星环的Spark版本(Transwarp distribution on Apache Spark)是经过Spark原厂Databricks官方认证的发行版本。

平台总体技术架构符合以Hadoop/Spark为代表的主流技术发展趋势要求,在软件外观(包括工具命令调用格式、API设计与类包命名)保持和开源社区一致,并能与开源社区的合理技术演进保持同步,提供自动化版本迁移或源代码版本兼容性检测工具。

行业数据服务平台建设方案 第13篇

大数据集群能提供高可靠与高可用性保证,在集群中任意节点宕机的情况下,集群能稳定运行。分布式存储Transwarp HDFS通过高可靠的Namenode HA方案,保证HDFS的高可靠性,始终有一个Namenode做热备,防止单点故障问题。采用QJM的方式实现HA,文件系统元数据存储在高可靠的由JournalNode组成的集群上。通过HDFS的3副本机制,保证单个DataNode的宕机不会对整体分布式存储造成影响,HDFS在节点宕机导致副本丢失的情况下,会自动将副本重新恢复为3,并对上层应用透明。

分布式存储Transwarp HDFS通过高可靠的Namenode HA方案,active namenode和standby namenode同时运行,active namenode发生故障时,standby namenode能迅速自动切换为active,保证HDFS的高可靠性,始终有一个Namenode做热备,防止单点故障问题。

经过测试验证,在分布式存储角色NameNode宕机的情况下,热备Standby NameNode在1s内完成切换,并对正在运行的作业的正确性没有造成任何影响。在计算存储节点宕机的情况下,正在运行的作业将该宕机节点上的计算子任务进行了重算,最终返回正确结果。

行业数据服务平台建设方案 第14篇

大数据平台提供易用的可视化管理运维工具,降低数据平台运维成本,包括集群一键式的安装,参数的配置,节点的增删,服务的监控,资源指标的监控以及异常的记录与告警。

图形化集群服务监控

在集群监控页面,可以查看所有服务的运行情况,包括了Zookeeper、HDFS、YARN、Hyperbase、InceptorSQL(SQL统计分析集群)、InceptorDM(数据挖掘集群)、Stream以及Kafka等。

图2-2-2 集群监控页面

集群组件监控页面,可以查看所有服务的运行情况。可以查看的服务与其多种性能参数,如:

Zookeeper:最大延时

HDFS:实时读吞吐量

YARN:实时运行的应用个数

Hyperbase:实时读请求

Inceptor:实时运行的任务数

Stream:实时运行的任务数

Kafka:实时发送吞吐量

InceptorML:实时运行的任务数

HDFS的监控界面,概要部分缺省展示了实时的HDFS运行情况和空间利用率。其中,运行情况与负载由读写吞吐量来反映。读写吞吐量很高则表示此时HDFS的负载很高。

图 HDFS监控界面

Yarn的监控页面,概要部分缺省展示实时的资源占用率。

图 Yarn监控页面

Inceptor的监控界面,概要部分缺省展示了实时Inceptor Server的负载情况。监控页面主要展示的参数为当前活跃的任务数,这个数值非常直观地反映了集群实时的负载情况。

图 Inceptor监控界面

Hyperbase的监控界面,概要部分缺省展示了实时的Hyperbase的负载和运行情况。这个页面主要反映的性能参数是Hyperbase集群实时的请求处理性能,从这个参数中星环科技可以判断整个Hyperbase的负载情况。

图 Hyperbase监控界面

Stream的监控界面,可以查看实时的数据流量等信息。

图 Stream监控界面

图形化集群性能监控

平台通过专门的监控服务对集群的状态进行监控,包括服务器CPU、内存、网络和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标超过预设阀值时时提供告警功能。管理员可通过浏览器访问集群的监控和管理界面进行日常的监控和维护,系统提供图标信息展示。管理员可以便捷地了解到集群的计算资源是否处于空闲状态、哪些服务器的负载过高,甚至判断集群的组网及机架安排是否合理等。管理员也可通过对各个节点的各个角色的日志信息进行检索,获得更加精确的信息。

图形化集群资源管理

计算任务管理和作业管理

计算任务管理和作业管理,包括作业的上传、配置、启动、停止、删除和状态查看功能。