八爪鱼,百万用户信赖的网络爬虫工具

大数据相关的实用工具汇总推荐

作者:xinyue 发布时间:7/18/2014 5:14:38 PM 17724 人已阅读

摘要:大数据经过收集、存储、清洗、计算、挖掘、展现等多种处理后,非常直观的展现在企业和用户面前,为企业决策提供客观可靠的依据,为个人生活带来非常体贴入微的个性化服务。下面我们来总结下,大数据一些实用的工具都有哪些

大数据指的是海量数据的分析处理,可能是EB级的数量处理,我们之前也提到过大数据拥有4V特性,Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值),对于大数据的分析处理,需要有专门设计的硬件和软件工具进行专业化处理,大数据经过收集再到清洗计算挖掘再到展现和利用,每一步可用的工具都不同,下面我们就来扒一扒大数据领域一些实用工具吧。免费好用的像八爪鱼采集类似的工具也会推荐哦,借用当下的某名言,你若有用,我便免费到底!

1、  收集工具

由于大数据数据集的体量非常巨大高达EB级,而数据源来来自于各种公开信息、传感器、气候等各种渠道,以互联网渠道举例,网站公开信息、交易记录、评价信息、网络日志、视频、事监控、大型电子商务、门户信息或垂直媒体等各种渠道。像八爪鱼采集器也是新一代采集技术的大数据收集工具,除此以外,数据源收集这块目前比较常见的工具有:

scraperWIKI(可从多种数据源获取数据,生成自定义视图)

needlebase(可编写代码自动化抓取公开网站)

bazhuayu(可抓取超过98%的网页数据及60%的移动端数据)

2、  数据处理

Hadoop (能够对大量数据进行分布式处理的软件框架,具有高可靠性、高扩展性、高效性和高容错性)

Storm(分布式实时计算系统,开源系统,支持多种编程语言,可处理Hadoop的批量数据)

Apache Drill(有助于Hadoop用户实现更快查询海量数据集)

RapidMiner(分布式数据挖掘,免费提供数据挖掘技术和库,支持JAVA代码)

3、  数据存储(计算)

Apache Hadoop

NoSql 数据库 – MongoDB, Cassandra, Hbase

SQL 数据库 – MySql(Oracle), MariaDB, PostgreSQL, TokuDB

4、  数据清洗

DataWrangler(基于网络服务的可视化组数据清洗和重排工具,文本编辑简单,但不适合商业或敏感信息处理)

Google Refine(支持多种格式数据的聚类分析,无电子表格计算功能)

OpenRefine (交互数据转换工具,可对新的行数据进行编码)

 

5、  数据分析

Jaspersoft(报告和分析服务器)

Pentaho(数据集成和业务分析)

Splunk(IT分析平台)

Talend(大数据集成,数据管理和应用集成)

6、展现工具

可视化展现工具

EXCEL/ CSV/JSON(很对企业人员均会用到的数据分析工具)

Google Chart API(动态图标工具,须支持JavaScript的设备上使用)

Flot(线框图表库,支持所有支持canvas的浏览器

D3(支持SVG渲染的另一种JavaScript库,提供大量线性图和条形图之外的复杂图表样式)

Processing(数据可视化的招牌工具,编写简单的代码即可编译成JAVA)

FUSION TABLES(可根据地理位置可视化数据)

Gephi(进行社交图谱数据可视化分析的常用工具)

SPSSSAS

R(大数据预测分析工具)

Modest Maps(本身的地图库较小,但是配合WAX等扩展库很强大)

OpenLayers(可靠性高的地图库)

除了上述介绍的一些工具外,每个类别还有很多其他的工具可实现,有兴趣的朋友可以进一步去了解。

八爪鱼大数据培训每周六晚上20:30在YY频道28555302上准时开课,欢迎喜欢八爪鱼采集器和大数据的朋友踊跃报名参与,免费报名免费学习!有关任何八爪鱼使用疑问可加入八爪鱼用户交流2群302187299

 

 


欢迎咨询在线客服
加微信群,与更多用户一起交流