学了那么多技术理论,面试的时候还是会卡壳? 做大数据开发的同学可能都会有这样的经历:面试的时候总会被问项目实战经验,好的项目经验简直比学历背景还重要。 所以,想要成为出色的大数据开发,光靠技术是不够的,你还需要丰富的项目经历。 那么问题来了,网上根本找不到用来练手的项目,要么数据量太小,要么太过时。
特意整理出一些大厂的实战项目,既有原版 PDF 资料,也有视频解读。
一、BAT 追捧的ClickHouse 告诉你如何实现查询速度提升 1000 倍,以及ClickHouse在拉勾网的落地实践。
10分钟快速了解大数据OLAP技术
BAT都追捧的ClickHouse到底有多快
从数据流动视角探索ClickHouse副本机制
ClickHouse在拉勾网的最佳实践
二、基于 Flink 的实时计算平台和实时数仓平台
美团点评的业务众多,涉及几十条业务线;数据量大,处理峰值达到 1.5 亿条每秒,每天数据增长量超过 3 万亿条;大多数业务都是交易场景,链路长、状态多样,业务在数仓建设中面临着很大挑战。 随着业务对时效性的要求越来越高,如即时配送、实时营销,越来越多的业务对实时数仓提出了需求和探索。实时计算团队调研汇总了多个业务线在实时数仓方面的建设经验,建设了一站式的实时数仓开发平台,以更好得支持业务发展。 本次分享将主要介绍实时计算的业务应用和规模、多个业务在实时数仓方面的建设情况,以及基于 Flink 的实时计算平台和实时数仓平台。
实时数仓和传统的离线数仓对比
实时数仓的应用场景
数据在实时处理过程中需要注意的问题
生产环境下数据延迟解决方案
三、 阿里云飞天大数据平台另外,还有阿里《大数据工程师手册》,由阿里云智能计算平台事业部研究员关涛与资深专家徐晟揭秘阿里云飞天大数据平台。 先给你们看看里面具体都有哪些内容:
飞天大数据平台是构筑于计算、存储、网络等基础设施之上,为企业和机构实现提供数字化和智能化的能力。举个例子,在城市交通中,基于大数据和人工智能控制红绿灯,可以有效缓解拥堵指数;使用大数据技术可以改造传统制业造流程,实现良品率的提升。 据了解,飞天大数据平台是目前国内规模最大的计算平台,可扩展至 10 万台计算集群,单日数据处理量超过 600PB。 做大数据的人,谁能把阿里飞天大数据平台的原理、机制搞清楚,别人不尊称你一声“大佬”都显得他外行! 以上三个都是各个技术方向最有代表性的项目,吃透它们再也不用害怕面试官的刨根问底!