Intermediate
大数据与亚马逊云,Hadoop/Spark和Docker

大数据与亚马逊云,Hadoop/Spark和Docker

这是一个为期6周的晚间项目,提供大数据技术的Hadoop和Spark生态系统的实践介绍. 本课程将涵盖Apache Hadoop的关键组件:HDFS, MapReduce with streaming, Hive, and Spark. 编程将在Python中完成. 本课程将从回顾我们的示例所需的Python概念开始. 课程形式是交互式的. 学生上课时需要携带笔记本电脑.

*非全日制课程的学费如在9个月内被接纳,可申请参加数据科学赌博10大排行网站营.
为应对COVID-19,国家重新开放, 我们所有的课程都可以在现场或远程/在线学习. 请以电邮方式注明您的选择 [email protected] 在我们班注册之后

Course Dates

 
January Session

Jan 11 - Feb 17, 2022
Tuesday, Thursday
7:00-9:30pm

$2990.00
Enroll Now
Earlybird ends on 02/20
March Session

Mar 22 - Apr 28, 2022
Tuesday, Thursday
7:00-9:30pm

$2990.00
$2990.00
$2840.50
Enroll Now
Earlybird ends on 05/01
May Session

May 31 - Jul 7, 2022
Tuesday, Thursday
7:00-9:30pm

$2990.00
$2990.00
$2840.50
Enroll Now
了解更多有关我们专业发展课程的信息.
DOWNLOAD COURSE INFORMATION

Product Description

Course Overview

这个为期6周的课程提供了使用Python和云计算的Apache Hadoop和Spark编程的实践介绍. 本课程涵盖的关键组件包括Hadoop分布式文件系统, MapReduce using MRJob, Apache Hive, Pig, and Spark. 使用的工具和平台包括Docker、Amazon Web Services和Databricks. 在程序的前半部分,学生被要求提取一个预先构建的Docker镜像,并使用Docker容器在本地运行大多数练习. 在第二部分,学生必须访问他们的AWS和Databricks账户来运行云计算练习. 学生上课时需要携带笔记本电脑.

Prerequisites

充分利用课堂资源, 您需要熟悉Linux文件系统, Linux的CLI (command line interface)和Linux的基本命令,如cd, ls, cp, etc. 您还需要具备基本的Python编程技能, 并且熟悉函数式编程风格, for example, 如何使用map()函数将一个字符串列表分割成一个嵌套列表. python中的面向对象编程(OOP)是不需要的.

Certificate

证书将在课程圆满结束时颁发. 学生的评估是基于他们所要求的家庭作业和期末项目(如适用)的表现的及格/不及格。. 学生完成80%的家庭作业,并参加85%以上的课程,才有资格获得结业证书.

Certificate of Completion
捆绑起来,学习更多,节省更多!
Browse Bundles
捆绑起来,学习更多,节省更多!
Browse Bundles

Demo Lecture

MapReduce using MRJob
Module
MapReduce
Instructor
Jake Bialer
Description
赌博排行前十网站的讲师Jake Bialer正在讲解MapReduce的例子.

Syllabus

第1单元:Hadoop简介

  • 1. Data Engineering Toolkits
    • 使用Docker容器运行Linux
    • Linux CLI命令和bash脚本
    • Python basics
  • 2. Hadoop and MapReduce
    • Big Data Overview
    • HDFS
    • YARN
    • MapReduce

Unit 2 – MapReduce

  • 3. MapReduce using MRJob 1
    • Protocols for Input & Output
    • Filtering
  • 4. MapReduce using MRJob 2
    • Top n
    • Inverted Index
    • Multi-step Jobs

Unit 3 – Apache Hive

  • 5. Apache Hive 1
    • Databases for Big Data
    • HiveQL and Querying Data
    • 窗口和分析功能
    • MapReduce Scripts
  • 6. Apache Hive 2
    • Tables in Hive
    • 托管表和外部表
    • Storage Formats
    • Partitions and Buckets

Unit 4 – Apache Pig

  • 7. Apache Pig 1
    • Overview
    • Pig Latin: Data Types
    • Pig Latin:关系运算符
  • 8. Apache Pig 2
    • 更多的猪拉丁语:关系操作符
    • More Pig Latin: Functions
    • Compiling Pig to MapReduce
    • The Parallel Clause
    • Join Optimizations

第5单元Apache Spark和AWS

  • 9. Apache Spark – Spark Core
    • Spark Overview
    • 使用Databricks笔记本运行Spark
    • Working with PySpark: RDDs
    • Transformations and Actions
  • 10. Apache Spark – Spark SQL
    • Spark DataFrame
    • SQL使用Spark SQL进行操作
  • 11. Apache Spark – Spark ML
    • ML Pipeline using PySpark
  • 12. Amazon Elastic MapReduce
    • Overview
    • Amazon Web Services: IAM, EC2, S3
    • Creating EMR Cluster
    • Submitting Jobs
    • Intro to AWS CLI

Campus Location

纽约第八大道500号905室,邮编10018
Nearby Subways
1 2 3 34th, Penn Station
A C E 34th, Penn Station
N Q R B D F M 34th, Herald Square

Instructors

Jake Bialer
Jake Bialer
Instructor
Jake Bialer is a full stack developer and 在过去的十年里,他一直致力于在线媒体机构的数据问题, e-commerce sites, and other web businesses. 他现在经营着自己的咨询公司, Bialerology他在赌博10大排行网站(NYC data Science Academy)教授网页抓取和大数据工程.

Session Schedule

 
January Session

2022年1月11日- 2月17日星期二 & Thursday
  • 1January 11, 2022
  • 2January 13, 2022
  • 3January 18, 2022
  • 4January 20, 2022
  • 5January 25, 2022
  • 6January 27, 2022
  • 7February 1, 2022
  • 8February 3, 2022
  • 9February 8, 2022
  • 10February 10, 2022
  • 11February 15, 2022
  • 12February 17, 2022
7:00-9:30pm

$2990.00
Enroll Now
Earlybird ends on 02/20
March Session

2022年3月22日- 4月28日星期二 & Thursday
  • 1March 22, 2022
  • 2March 24, 2022
  • 3March 29, 2022
  • 4March 31, 2022
  • 5April 5, 2022
  • 6April 7, 2022
  • 7April 12, 2022
  • 8April 14, 2022
  • 9April 19, 2022
  • 10April 21, 2022
  • 11April 26, 2022
  • 12April 28, 2022
7:00-9:30pm

$2990.00
$2990.00
$2840.50
Enroll Now
Earlybird ends on 05/01
May Session

2022年5月31日- 7月7日星期二 & Thursday
  • 1May 31, 2022
  • 2June 2, 2022
  • 3June 7, 2022
  • 4June 9, 2022
  • 5June 14, 2022
  • 6June 16, 2022
  • 7June 21, 2022
  • 8June 23, 2022
  • 9June 28, 2022
  • 10June 30, 2022
  • 11July 5, 2022
  • 12July 7, 2022
7:00-9:30pm

$2990.00
$2990.00
$2840.50
Enroll Now

通过注册一个捆绑包来节省更多

Data Science Mastery
数据科学与R:机器学习
数据科学与R:机器学习
数据科学与Python:机器学习
数据科学与Python:机器学习
大数据与亚马逊云,Hadoop/Spark和Docker
大数据与亚马逊云,Hadoop/Spark和Docker
$7970.00
Total: $7970.00$7410.00