近年,对大数据底层设计、数据清洗、数据挖掘及大数据安全等相关人才的需求急剧上升,可以说占据了大数据人才需求的80%以上。比如数据清洗、数据挖掘等相关职位,需要源源不断的大量专科人才。
2018年1月18日,教育部公布“大数据技术与应用”专业备案和审批结果,208所职业院校获批“大数据技术与应用”专业。截至目前,已有270所高职院校成功申报“大数据技术与应用”专业。
在准确的趋势预测下,清华大学博士、南京大数据研究院院长刘鹏教授早在2016年就开始策划用于高职高专的教材,而这套面向全国高职高专人才的大数据教材最近将陆续面世。
清华大学出版社王莉编辑如此评价:刘鹏教授的这套教材选题比较独特,目的就是为了培养大数据基础人才,所以,这套教材考虑未来高知高专大数据人才的就业需求情况,选择了一些非常有特色的选题,例如,《大数据系统运维》是为今后高职高专的大数据人才从事大数据系统的维护工作所编写;《数据清洗》是针对市场上需要大量的做数据清洗的工作而设计;《大数据实践》是为了培养高职高专的学生尽快上手、游刃有余操作大数据主流软件的能力而编写的;《大数据导论》全面介绍了大数据的基础知识。同时,还有一些拔高的课程教材,例如,《R语言》和《数据挖掘基础》是为了提升大数据人才的数据分析能力而编写的。为了更好的推广这套教材,我们准备举办几届针对高职高专院校或应用型本科院校的培训班。
考虑到大数据人才未来要做具体的大数据基础工作,本套丛书的讲解侧重于应用,对知识点给出具体的操作,并且有配套的动手实验。内容安排遵循从简单到复杂、从理论到实践的学习过程;同时也遵循系统性和覆盖面宽的原则。本套丛书可以作为培养应用型人才的课程教材,也同样适用于有意从事大数据系统基础工作的IT从业人员作为参考书。“千里之行,始于足下”,“不积跬步无以至千里”,希望大数据应用型人才从一开始就能有一个全面良好的基础,本套丛书在起跑线上为你助力。
具体而言,本套丛书包括《大数据导论》、《云计算导论》、《数据挖掘基础》、《R语言》、《数据清洗》、《大数据实践》、《大数据系统运维》等专业教材。
《大数据导论》
《大数据导论》是了解和学习大数据的基础条件,通过本书了解大数据基本概念,大数据的架构,大数据的采集方式和预处理,常用的ETL工具,简单熟悉数据仓库的构建模式,大数据的存储,数据挖掘的方法,以及大数据的可视化技术,从而更好的将大数据技术应用在各行业领域,更深入地开展大数据技术的应用研究。从基础开始,通过理论与实际案例相结合,帮助读者由浅入深进行学习,逐步清理大数据的核心技术和发展趋势。本书可以作为培养应用型人才的课程教材,也适用于初学入门者,对大数据基础理论有需求的广大读者。
《云计算导论》
本书主要内容包括云计算的基本概念、发展现状、主要平台的部署及关键技术、虚拟化与容器技术、云计算的实用化、国内外云计算服务与大规模应用、环境云(envicloud.cn)和万物云(wanwuyun.com)典型行业应用介绍与剖析等内容,适用于应用型本科、高职高专院校的云计算课程和教学。本书的实验环境部署通过云创大数据实验平台(https://bd.cstor.cn)上远程开展。
《数据挖掘基础》
本书介绍了数据挖掘的基本概念,包括数据挖掘的常用算法、常用工具、用途和应用场景及应用状况,讲述了常用数据挖掘方法,如分类、聚类、关联规则的概念、思想、典型算法、应用场景等。此外,本书还从实际应用从发,讲解了基于日志的大数据挖掘技术的原理、工具、应用场景和成功案例。通过以上内容的学习,读者将了解数据挖掘的基本概念、思想和算法,并掌握其应用要领。本书可以作为培养应用型人才的课程教材,也可作为相关开发人员的自学教材和参考手册。
《R语言》
近年来,R语言可谓是数据分析的热门语言,相关的资料五花八门,让读者无所适从,本书力求用简洁、精炼、理论实践相结合的方式让大家快速掌握R语言。全书共17章,分为基础篇(第2-10章),应用篇(第11-15章)和进阶篇(第16-17章)。基础篇按照数据分析过程,主要讨论了R数据结构、数据导入/导出、数据清洗、数据变换、可视化、高级语言编程和常用建模方法。应用篇通过对5个经典案例的分析,使读者能够把学到的R基础知识应用到解决实际问题,把数据变成价值。进阶篇解决如何用R处理大数据的一些技术。本书可以作为培养应用型人才的课程教材,也可作为数据分析爱好者的参考资料。
《数据清洗》
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误。该步骤针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍了Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验和数据错误处理,数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。本书系统地讲解了数据清洗理论和实际应用,可以作为培养应用型人才的课程教材,也适用于希望了解数据清洗的广大读者。
《大数据实践》
本书内容涵盖了目前使用广泛的大数据处理系统Hadoop生态圈中的几大核心软件系统:分布式大数据处理系统Hadoop、Hadoop数据库HBase、数据仓库工具Hive、内存大数据计算框架Spark和Spark SQL,详细介绍了它们的架构、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等内容。本书对上述几大系统的各种安装部署方式都给出了详细步骤,常用命令也都有具体示例介绍,是一本实操性很强的工具书,能帮助初学者快速掌握和操作这几款常用的大数据处理系统。本书以浅显易懂的语言风格和图文并茂的操作示例引领读者迈入大数据实践之门,可以作为培养应用型人才的课程教材,也可作为相关开发人员的自学教材和参考手册。
《大数据系统运维》
本书是大数据应用人才培养系列教材中的一册,讲解了大数据系统运行维护过程中的各个主要阶段及其任务,包括配置管理、系统管理、故障管理、性能管理、安全管理、高可用性管理、应用变更管理、升级管理及服务资源管理,内容全面且翔实,兼具基础理论知识与运维实践经验,特别是重点介绍了大数据系统的运维特点及运维技能,以保障大数据系统的稳定可靠运行,更好地支撑大数据的商业应用价值。本书具有很强的系统性和实践指导性,可以作为培养应用型人才的课程教材,也同样适合于有意从事IT系统运维工作的广大从业者和爱好者作为参考书。