程序员社区

闲鱼99元买的大数据葵花宝典一部,靠谱!

自从“大数据”成为国民热词以来,众多侠客一边感叹自己之前的技术栈逐渐被边缘化了,为了跟上时代的步伐,但想行走“大数据江湖”,站稳脚跟,就必须有套系统的学习秘籍。本文是根据一位阿里大数据专家的手记整理出的入门必学知识点,希望对准备入行的小伙伴有所帮助。

学习大数据首先要学习Java 语言和 Linux 操作系统,这两个是学习大数据的基本内功,不练这个,后面的程序根本没法进行。

闲鱼99元买的大数据葵花宝典一部,靠谱!插图

1、Java

Java的方向有 JavaSE、JavaEE、JavaME,入门大数据我建议只需要学习Java的标准版JavaSE就可以了,像 Servlet、JSP、Tomcat、Struts、Spring、Hibernate,Mybatis都是 JavaEE 方向的技术只需要了解就行,当然 Java 怎么连接数据库还是要知道的,像 JDBC 一定要掌握。 

2、Linux

因为大数据相关软件都在 Linux上 运行,所以 Linux 要学扎实,学好 Linux 对快速掌握大数据相关技术有很大帮助,能让你更好地理解Hadoop、Hive、Hbase、Spark 等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会 Shell 就能看懂脚本,这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

说完基础了,再说说还需要学习哪些大数据技术,才能进阶武林高手,最终笑傲江湖,独孤求败

闲鱼99元买的大数据葵花宝典一部,靠谱!插图1
自成一派

3、Hadoop

这是现在流行的大数据处理平台,几乎已经成为大数据的代名词,所以这个是必学的。Hadoop 里面包括几个组件:HDFS、MapReduce 和 Yarn。

HDFS 是存储数据的地方;

MapReduce 是对数据进行处理计算的,不管多大的数据,只要给它时间,它就能把数据跑完,但是可能不是很快,所以它叫数据的批处理;

Yarn 是体现 Hadoop 平台概念的重要组件,有了它,大数据生态体系的其它软件就能在 Hadoop上运行,这样就能更好地利用 HDFS 大存储的优势,节省更多资源。

其实把 Hadoop的这些组件学明白你就能做大数据的处理了,只不过你可能对"大数据"到底有多大还没有太清楚的概念。工作以后,你会遇到几十T/几百T大规模的数据,到时候不要觉得头疼,因为这是你的价值所在。

学到这里,就算正式进入大数据行业的大门了。学习能力足够强的同学可以试着自己练习一下美团、快手的面试真题,因为资料较大。

闲鱼99元买的大数据葵花宝典一部,靠谱!插图2

东方不败

不过要想变成高手,还有几个技能需要学一学。

闲鱼99元买的大数据葵花宝典一部,靠谱!插图3

东方不败

 4、Zookeeper

这是个万金油,安装Hadoop 的 HA 的时候会用到它,以后的 Hbase 也会用到它。它一般用来存放一些相互协作的信息,这些信息比较小,一般不超过 1M。我们只需要把它安装正确,正常地跑起来就 OK 了。

5、MySQL

学习完大数据的处理,接下来学习小数据的处理工具—— MySQL 数据库,装 Hive 的时候会用到。MySQL 需要掌握到什么程度呢?你能在 Linux 上把它安装好,运行起来,会配置简单的权限,修改 Root 的密码,创建数据库。这里主要学习 SQL 的语法,因为 Hive 的语法和这个非常相似。

 6、Sqoop

这个是用于把MySQL 里的数据导入到 Hadoop 里的。当然直接把MySQL 数据表导出成文件再放到 HDFS 上也一样。但在生产环境中使用要注意 MySQL 的压力。

7、Hive

这个东西对于会SQL 语法的人来说就是神器,它能让处理大数据变得很简单,不再费劲地编写 MapReduce 程序。有人说 Pig 呢?它和 Pig 掌握一个就可以了。

8、Oozie

它可以管理你的Hive 或者 MapReduce、Spark 脚本,还能检查程序是否执行正确,出错了发报警并能帮你重试程序,最重要的是,它还能配置任务的依赖关系。

9、Hbase

这是 Hadoop 生态体系中的 NoSQL 数据库,它的数据按照 key 和 value 的形式存储,并且 key 是唯一的,所以它能用来做数据的排重,它与 MySQL 相比,能存储的数据量大很多,所以常被用于大数据处理完成之后的存储目的地。

10、Kafka

这是个比较好用的队列工具,队列是干吗的?排队买票知道不?数据多了同样也需要排队处理,这样与你协作的同学不会抱怨数据太多,他可以把数据放在队列里,使用的时候一个个拿。

当然,我们也可以利用这个工具来做线上实时数据的入库或入 HDFS,这时你可以与一个叫 Flume 的工具配合使用,它是专门用来提供对数据进行简单处理,并写到各种数据接受方(比如 Kafka )的。

11、Spark

它用来弥补MapReduce 处理数据慢的缺点,特点是把数据装载到内存中计算,而不是去读慢得要死进化还特别慢的硬盘,特别适合做迭代运算,所以算法流们特别稀饭它。它是用 scala 编写,Java 语言或者Scala 都可以操作它,因为它们都是用 JVM 。

 会这些东西你就成为一个专业的大数据开发工程师了,月薪2W都是小毛毛雨。

当然还有很多可以提高的地方,比如网络爬虫和系统架构。这样我们就可以自己造数据,网络上的各种数据都可以下载到自己的集群上处理,以及如何用架构相关的知识保证系统架构的稳定性、一致性。

闲鱼99元买的大数据葵花宝典一部,靠谱!插图4

独孤求败

最后再学习下推荐、分类等算法的原理,这样能更好地与算法工程师打交道,你的公司也会更离不开你,不论产品还是开发都会对你喜欢得不要不要的。

赞(0) 打赏
未经允许不得转载:IDEA激活码 » 闲鱼99元买的大数据葵花宝典一部,靠谱!

一个分享Java & Python知识的社区