八爪鱼,百万用户信赖的网络爬虫工具

还在人工采集各种文书?让法律技术男拯救你 !

作者:keven 发布时间:9/16/2017 3:20:31 PM 11267 人已阅读

摘要:还在从事人工采集的重体力劳动?法律技术男一步步教你用工具批量节选文书,自动生成带有当事人信息、公告类型、公告人的Excel表格。

本文改编于法秀公众号发表的《还在人工采集裁判文书?让法律技术男拯救你!| icourt》,并以八爪鱼最新版7.1制作实现。

作者:陈晓峰

单位:上海邦信阳中建中汇律师事务所 

微信公众号:C-Budesonide

微信个人号:brianchen0323

 

还在从事

人工采集的重体力劳动?

法律技术男

一步步教你用工具批量节选文书,

自动生成带有当事人信息、公告类型、公告人的Excel表格

 

也许这篇文章有点长,图有点多,但请相信编辑君,不要只点“收藏”,学会这个,你阅读这篇文章的每一分钟,都物有所值。

 

温馨提示:

(1)点击图片可查看大图

(2)本操作适用于Windows系统

 

先来一张成品图镇楼:

1

 

这是一篇用八爪鱼采集裁判文书的效果图,对于律师伙伴们来说,采集裁判文书很重要,旁听案件也是很重要的。如果想去旁听,大家就需要知道各地方法院的开庭公告。

通常情况下,对于行业相关的庭审、比较重大的庭审等都有旁听的价值。了解案情证据,看法院如何审理,了解学习这类案子的关键辩护点在哪里,这些对于年轻的法律从业人员积累经验相当有用:没吃过猪肉,但是先看看猪怎么跑的。

可是那么多公告,假如每一份都去点击链接、等待网页加载、通篇阅读、复制粘贴,如果一份所需用时1分钟,那整个网页份就要好几个小时,这还只是原始数据的采集,还要整理还要筛选,恐怕两天两夜也做不完。但,时间是宝贵的。

 

这里我就要隆重介绍我的好伙伴:八爪鱼采集器

以采集人民法院公告网的公告内容为例,打开网页先复制好采集网址

 

1准备阶段

下载“八爪鱼采集器”,并安装、注册。下载地址为:/download 注意:本文使用的“八爪鱼采集器”为 v7.1.2(2017年8月31日版),后续更新版本变化不大。

 

2新建采集任务

1)首先在八爪鱼采集器中打开自定义模式

2

 

2)然后,将要采集的网站网址复制粘贴到输入框中,点击“保存网址”,这样就可以看到要采集的网站了

3

 

3) 网页打开后,将页面下拉到底部,点击“下一页”按钮。在右侧的操作提示框中,选择循环点击下一页

4

选中页面里第一条公告的公告类型“开庭传票”,这时选中的部分会变成绿色,在右边的提示框里选择‘’选中全部

5

之后,接着选择“采集以下元素文本

6

 

4)同样的方法,依次采集公告人、当事人和时间这几块内容。然后打开右上角的流程,可以自定义命名采集内容字段,之后就可以选择“保存并启动

7

 

5)这里我们可以选择“启动本地采集”开始采集数据

8

采集完成以后就可以导出数据了这里我们选择excel作为导出为格式,数据导出后如下图

9

 

附注:

1)采集过程有时候会发现卡在某处没有动静了,如果你排除是死机状态的话,不用慌张,不用理睬,因为是遇到网站卡顿的原因。

2)采集结果是存在一定的丢失,这是不可避免的,但数量并不多。

3工具并不是万能的,不能取代我们去推理。对于我,工具只是用来帮助我拓展思路之类的,平时也是直接浏览excel的采集结果,不会去单独做个整理报告,节约下来的时间,可以让我有更多的时间和精力去思考。

 


欢迎咨询在线客服
加微信群,与更多用户一起交流