0731-88505867 | QQ空间 | 官方微博

世界500强企业ORACLE甲骨文人才培养体系

专业介绍

大数据

更新时间:2019-03-14  来源:湖南甲骨文

   什么是大数据?

  随着信息技术和互联网技术发展,人们的一言一行,特别是在互联网的行为,都以数据的形式存储在计算机中,形式包括数字、声音、照片、视频等等。人们对大数据还没有一个准确的定义,都是从其4V(数量Volume、多样性Variety、速度Velocity、价值Value)特征来 理解其内容,用一句话来概况:大数据是一种人类信息化的结果和现象,它不只是大规模的数据,还包括其相关的技术、领域 应用、社会学和道德法律等交叉内容。

  大数据行业前景:

  随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。越来越多的企业急需引入hadoop技术人才。由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。

  Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万,一般需要大数据处理的公司基本上都是大公司,所以学习hadoop技术也是进大公司的捷径!

  全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,大数据堪比石油,如何掘金大数据是所有个人、企业和国家的机遇和挑战。中国是人才大国,能理解和应用大数据的创新人才更是稀缺资源。大数据分析应用已经渗透到我们生活的方方面面,大数据人才缺口等你来填!

  如果说 6 年前你错过安卓, 3 年前你错过IOS ,今天你还要再错过 大数据 吗?

  

大数据课程优势-01.png

 

  

<a href=http://www.newsoftedu.com target=_blank class=infotextkey>新软教育</a>大数据工程师课程体系

 

  课程大纲:

  第一阶段:大数据开发基础

  n 课程简介

  此阶段课程为大数据开发必备之基础,强化Java技术及数据库编程技术

  n 课程内容

  课程一、Java基础语法

  1)Java环境安装配置

  2)Java基础语法

  3)Java 面向对象基础(OOP基础)

  4)Java接口与继承(OOP高级)

  5)Java常用类库

  课程二、Java核心编程

  1)熟练掌握I/O、线程的概念和用法

  2)掌握反射与类加载器

  3)掌握网络编程

  4)熟悉序列化、泛型的概念

  课程三、Java高级特性

  1)Java NIO

  2)Java 8最新特性-Lamda表达式

  3)Maven项目管理构建工具

  4)git版本控制系统

  5)实用软件工程

  课程四、数据库开发技术(MySQL)

  1)数据库安装配置

  2)数据库CRUD

  3)数据库高级查询

  4)数据库高级特性

  第二阶段:大数据开发技术

  课程五、大数据开发之-Linux基础

  n 课程简介

  鉴于今天Linux使用的广泛性和基础性,基本可以断定不懂Linux的话,在IT业界的前途就要受到限制。这是IT人一项重要的知识基础。,这是一门大数据基础必学课程,适合有志于转往大数据分析领域者补强Linux基础,以更好地学习Hadoop,Spark,Storm等众多课程!

  n 课程内容

  1)Linux系统概述

  2)系统安装及相关配置

  3)Linux网络基础

  4)OpenSSH实现网络安全连接

  5)vi文本编辑器

  6)用户和用户组管理

  7)磁盘管理

  8)Linux文件和目录管理

  9)Linux终端常用命令

  10)linux系统监测与维护

  课程六、Hadoop2.X核心编程

  n 课程简介

  了解大数据目前在企业中的应用场景,Hadoop 2.x是什么,能够解决什么问题,如何学习Hadoop 2.x生态系统框架及学习的基本储备知识。且详解Hadoop 2.x中几个重组成模块,这是整个大数据平台中最为基础基本也是比较核心的东西。

  n 课程内容

  1)大数据应用场景及市场

  2)Hadoop 2.x是什么,如何诞生的,能做什么

  3)Hadoop 2.x初步认识

   > 伪分布式环境搭建部署

   > HDFS、YARN、MapReduce案例Demo功能演示

  4)分布式文件系统HDFS

   > HDFS架构、各组件功能

   > HDFS Shell常见命令使用

   > HDFS Java API基本使用

   > 案例讲解:如何上传多个小文件合并成一个文件

  5)分布式资源管理框架YARN

   > YARN 架构与设计(思想第一)

   > 企业案例:如何针对企业实际集群配置各个节点资源

  课程七、MapReduce编程及Hive使用

  n 课程简介

  深入MapReduce编程,理解MapReduce运行过程,通过实际应用案例逐步认识。此外分布式集群部署、实际环境中集群基准测试。认识数据仓库Hive的优势及Hive具体使用。并通过企业实际需求分析,讲解HiveQL中的DDL和DML的使用,以及常见的性能优化方案。

  n 课程内容

  (1)初识MapReduce编程

  Ø MapReduce 编程框架

  Ø 以WordCount程序为例讲解MapReduce编程

  (2)深入MapReduce应用

  Ø MapReduce执行过程详解,通过实际案例引入

  Ø 案例讲解:二次排序及倒排索引

  (3)Hadoop 2.x分布式集群

  Ø Hadoop 2.x分布式集群部署及基准测试

  Ø HDFS HA高可用性架构

  Ø YARN HA及常见特性工具使用(应用案例驱动讲解)

  (4)数据仓库Hive初识

  Ø MapReduce编程的弊端

  Ø 数据仓库Hive功能架构

  Ø 安装部署Hive及基本使用

  Ø Hive中MetaStore配置及功能

  (5)HiveQL中DML和DDL

  Ø 依据电商官网日志分析讲解三种创建表的方式和用途

  Ø 如何加载导入和导出数据到Hive表

  Ø HiveQL中常见的查询语句

  (6)HiveQL中数据格式与压缩

  Ø 常见的数据存储格式,尤其是parquet和orcfile

  Ø MapReduce和Hive为什么要压缩数据

  Ø 常见数据压缩格式snappy

  Ø 结合电商数据日志分析案例,如何使用数据存储格式和压缩

  (7)数据转换工具Sqoop

  Ø Sqoop功能、使用要点

  Ø 实际案例:将RDBMS导入HDFS及Hive表数据导出

  (8)案例分析:电商用户访问日志会话分析

  Ø 结合业务需求对日志行为数据结构分析

  Ø 抽取临时会话信息表,对数据进行初步清洗过滤

  Ø 编写HQL语句完成需求分析和考虑性能优化

  Ø HiveQL常见的运行方式使用

  课程八、数据库HBase及应用案例

  n 课程简介

  面对海量数据的存储及实时查询,传统的RDBMS已经无法满足,基于HDFS之上的HBase应运而生,每个表的数据可以达到数百万列和数十亿条,数据存储在HDFS之上充分利用其存储优势,分布式的架构让其查询数据更加快,绝大数电商互联网公司都是用它。

  n 课程内容

  (1)HBase初窥使用

  Ø HBase应用场景、与RDBMS比较

  Ø HBase表的模型、环境搭建、

  Ø HBase Shell初步使用

  (2)HBase 深入使用

  Ø HBase架构深入剖析及数据存储模型

  Ø HBase Java API使用(CRUD、SCAN等)

  Ø HBase与MapReduce集成

  (3)案例分析

  Ø 结合【话单查询】业务,讲解如何设计表、表的预分区

  结合【电商订单查询】需求,表的设计

  课程九、内存计算框架Spark

  n 课程简介

  Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式处理、SQL交互式处理及机器学习和Graphx图像计算。目前绝大数公司都使用,主要在于Spark SQL结构化数据的处理,非常的快速,高性能。

  基于Spark Core之上的流式处理和结构化数据查询,已被众多公司青睐,在企业中使用最广泛,很多大数据公司都在将以往RDBMS和Hive中的数据处理,迁移使用Spark SQL。

  n 课程内容

  (1)内存计算框架Spark初识

  Ø Spark 概述、生态系统、与MapReduce比较

  Ø Spark 编译、安装部署(Standalone Mode)及测试

  Ø Spark应用提交工具(spark-submit,spark-shell)

  (2)Spark 核心RDD

  Ø RDD特性、常见操作、缓存策略

  Ø RDD Dependency、Stage常、源码分析+C10

  Ø Spark 核心组件概述

  Ø 案例分析:通过网址日志的分析(与MR和Hive比较)

  (3)Spark 高阶应用

  Ø Spark on YARN运行原理、运行模式及测试

  Ø Spark HistoryServer历史应用监控

  (4)Spark Streaming流式计算

  Ø Spark Streaming 原理、DStream设计

  Ø Spark Streaming 编程模型及读取HDFS上数据

  Ø 分布式消息队列框架Kakfa

  Ø 案例分析:如何实时获取数据数据,更新数据状态(Kafka+Spark Streaming)

  (5)Spark SQL结构化数据处理

  Ø Spark SQL前生今世(Hive -> Shark->Spark SQL)及优点

  Ø Spark SQL如何读取Hive表中数据

  Ø DataFrame使用及External Data Source API使用

  Ø 案例分析:结合Spark Streaming,实时分析数据,将数据存储到RDBMS中

  课程十、企业大数据平台及实时流式计算Storm

  n 课程简介

  大数据Hadoop生态系统,有很多框架,为了方便安装、配置及管理监控,一个框架Cloudera Manager诞生,非常的方便,提供了各个框架的版本兼容及修复很多BUG,为企业使用提供了丰富使用的接口。此外Storm实时计算框架,真正的实时性,在毫秒级别处理数据。

  n 课程内容

  (1)企业大数据平台

  Ø 大数据平台基本组件

  Ø Hadoop 发行版本、比较、选择

  Ø 集群环境的准备(系统、基本配置、规划等)

  (2)实战案例:搭建企业大数据平台

  Ø 以实际企业项目需求为依据,搭建平台

  Ø 真实服务器手把手环境部署

  • 安装Cloudera Manager 5.3.x

  • 使用CM 5.3.x安装CDH 5.3.x

  Ø 如何使用CM 5.3.x管理CDH 5.3.x集群

  Ø 基本配置,优化及性能测试

  (3)实时流式计算框架Storm

  Ø Storm实时性、架构和企业应用场景

  Ø Storm环境搭建,编程模型,WordCount实时统计

  Ø Storm高级特性Traident使用

  Ø 案例分析:结合Kafka,实时统计区域订单量和营业额

  课程十一、大数据可视化技术:Echarts从入门到上手实战

  n 课程简介

  "ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9 /10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。 支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达 图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题,详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交 互组件,支持多图表、组件的联动和混搭展现。大数据结合Echarts进行数据展示分析,现在已成为越来越多大数据企业的第一选择"。

  就业方向:

  由于本套课程涉及的技术面很广,所以就业方向也有很多,包括但不限于以下几个主要的就业岗位:

  》 Hadoop大数据开发工程师

  》 Hive大数据开发工程师

  》Storm大数据开发工程师

  》Spark大数据开发工程师

  》 大数据分析师

  》 。。。。。。

上一篇:VR/AR专业      下一篇:web前端
北京赛北pk10追号