数据挖掘学习必备的10个技能(干货)
数据挖掘是从庞大的数据源中提取有效信息,并将该信息转换为潜在有用且最终易于理解的模式,以供进一步使用。正如 Wikipedia 所解释的,它不仅包括数据处理和管理,而且还涉及机器学习,统计和数据库系统的智能方法。
数据挖掘也是数据科学领域中最重要的技术,在2016年至2018年Glassdoor的“美国50最佳工作”列表中,数据挖掘排名第一。 此外,与2016年的1700个职位空缺相比,这两年内列出的职位空缺数量明显增加了160%。
为了帮助大家掌握数据科学技术,我们之前出版了80本值得一读的最佳数据科学书籍和88种成为数据科学家的资源和工具。 因此,在本文我将专注于数据挖掘领域,并总结10个您需要的基本技能。
计算机科学技能
1. 编程/统计语言:R,Python,C ++,Java,Matlab,SQL,SAS,shell / awk / sed…
数据挖掘在很大程度上依赖于编程,但现在尚无定论哪个才是数据挖掘的最佳语言。这完全取决于您处理的数据源。彼得·格里森(Peter Gleeson)提出了四个频谱供您选择哪种编程语言:特异性,通用性,生产率和性能,可以将它们视为一对轴(特异性-通用性,性能-生产率)。 大多数语言都有利有弊。根据KD Nuggets的研究,R和Python是数据科学中最受欢迎的编程语言。
更多资源:
您应该为数据科学学习哪些语言[ Freecode Camp ]
R中的数据挖掘算法[ Wikibooks ]
用于数据挖掘的最佳Python模块[ KD Nuggets ]
2. 大数据处理框架:Hadoop,Storm,Samza,Spark,Flink
处理框架对系统中的数据进行计算,例如从非易失性存储中读取数据并将数据吸收到数据系统中,这是从大量单个数据点中提取信息和洞察力的过程。它可以分为3类:仅批处理,仅流和混合。
Hadoop和Spark是迄今为止实施最多的框架。如果无需考虑时间成本,Hadoop是批处理工作负载的一个不错选择。与其他实施相比,Hadoop的实现成本更低。 而Spark是混合工作负载的不错选择,它可以为流提供更高速度的批处理和微批处理。
更多资源:
Hadoop,Storm,Samza,Spark和Flink:大数据框架比较[ Digital Ocean ]
数据挖掘的数据处理框架[ Google Scholar ]
3. 操作系统:Linux
对于数据挖掘科学家来说,Linux是一种流行的操作系统,对于操作大型数据集而言,Linux更加稳定和高效。如果您了解Linux的常用命令,并且能够在Linux上部署Spark分布式机器学习系统,那么这是一个加号。
4. 数据库知识:关系数据库和非关系数据库
要管理和处理大型数据集,您必须掌握关系数据库的知识,例如SQL或Oracle,或非关系数据库,其主要类型为:列:Cassandra,HBase; 文件:MongoDB,CouchDB; 关键值:Redis,Dynamo。
统计与算法技巧
5. 基本统计知识:概率,概率分布,相关性,回归,线性代数,随机过程…
相关,回归,线性代数,随机过程…
回顾一下数据挖掘的定义,我们就知道数据挖掘不仅涉及编码或计算机科学,而是处于多个科学领域的交叉点上,其中统计学是不可或缺的一部分。 统计学的基本知识对于数据挖掘者至关重要,它可以帮助您识别问题、获得更准确的结论、区分因果关系和相关性以及量化发现结果的确定性。
更多资源:
我应该知道什么统计才能做数据科学[ Quora ]
数据挖掘的统计方法[ Research Gate ]
6. 数据结构与算法
数据结构包括数组,链表,堆栈,队列,树,哈希表,集合等,而常见的算法包括排序,搜索,动态编程,递归等
精通数据结构和算法对于数据挖掘至关重要,它可以在处理大量数据时为您提供更具创造性和效率的算法解决方案。
更多资源:
数据,结构和数据科学传递[ IBM Developer ]
Cousera:数据结构和算法[ 加利福尼亚大学圣地亚哥分校]
7. 机器学习/深度学习算法
这是数据挖掘的最重要部分之一。 机器学习算法可建立样本数据的数学模型,以进行预测或决策,而无需进行明确编程即可执行任务。 深度学习是更广泛的机器学习方法系列中的一部分。机器学习和数据挖掘通常采用相同的方法,并且存在明显的重叠。
更多资源:
使用Python和R代码的机器学习算法的要点[ Analytics Vidhya ]
很棒的机器学习框架,库和软件的清单(按语言)[ Github josephmisiti ]
8. 自然语言处理
自然语言处理(NLP)作为计算机科学和人工智能的子领域,可帮助计算机理解,解释和操纵人类语言。 NLP被广泛用于分词,语法和语义分析,自动摘要和文本包含。 对于需要处理大量文本的数据采集者来说,了解NLP算法是必不可少的技能。
更多资源:
面向数据科学家的10个NLP任务[ Analytics Vidhya ]
很棒的机器学习框架,库和软件的清单(按语言)[ Github josephmisiti ]
开源NLP库:Standford NLP;Apache OpenNLP ; Naturel语言工具包
其他
9. 项目经验
您的项目经验是您数据挖掘技能的最省力的证明。 当被问到如何获得数据科学的第一份工作时,DataCamp的首席数据科学家David Robinson说:“对我来说,最有效的策略是从事公共工作。在博士后期间我进行了很多开源开发并写博客。这些都为我的数据科学技能提供了公开证据。” 如果您希望获得更多的数据挖掘经验,请尝试在12个最受欢迎的数据科学计划平台中中查找最佳项目。
10. 沟通与表达技巧
数据挖掘者不仅要处理数据,而且还负责向其他人,甚至是非技术受众,例如营销团队,解释从数据中获取的结果和见解。 您应该能够以口头,书面和陈述的方式很好地解释数据结果,讲故事。
服务提示