网页数据采集器的应用案例——舆情监测
舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。而网络舆情因其形成速度快,传播范围广,短时间内会对社会产生巨大影响。
现在,互联网媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源有:新闻评论、论坛、聊天室、博客、微博等。网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。
网络的开放性和虚拟性,决定了网络舆情具有以下特点:1、直接性:通过论坛,微博和博客等网站,网民可以立即发表意见。下情直接上达,民意表达更加畅通;2、突发性:网络舆论的形成往往非常迅速,一个热点事件的存在加上一种情绪化的意见,就可以成为点燃一片舆论的导火索;3、偏差性,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为一些网民发泄情绪的空间。在现实生活中遇到挫折,对社会问题片面认识等等,都会利用网络得以宣泄。因此在网络上更容易出现庸俗、灰色的言论。
互联网上的信息量十分巨大,并且格式也是多种多样,如果要是靠人力来进行网上海量信息的收集和处理的话,会耗费太多的资源。因此,网页数据采集器的作用之一就是可以代替人工,进行信息的收集。主要是实现以下两个功能:
1.信息采集。现有的网页数据采集技术主要是接收指定页面,然后用正则表达式分析里面的网页结构,获取指定的数据.采集不同网站的数据,所用的正则表达式也不同。但是八爪鱼采集器则是简略了这一过程,即使不会正则表达式或者说是不会代码,也可以进行信息的采集,真正实现了所见即所得,大大的降低了操作难度。
2.信息处理。对收集到的信息进行处理,如格式转换、数据清理,数据统计。对于新闻,需要过滤掉没用的信息,提取并保存新闻的标题、作者、发布时间、正文、阅读次数、评论人、评论内容、评论数量等。对于论坛,则是需要提取帖子的标题、作者、发布时间、内容、回帖内容、回帖数量等,最后形成可用的信息格式。
信息采集完成后,可以利用关键字布控和语义分析,识别敏感话题。分析每个发言人发表文章的观点和倾向性。通过各种手段,对采集到的信息进行分析,达到舆情监测的目的。
服务提示