还在人工采集各种文书?让法律技术男拯救你 !
本文改编于法秀公众号发表的《还在人工采集裁判文书?让法律技术男拯救你!| icourt》,并以八爪鱼最新版7.1制作实现。
作者:陈晓峰
单位:上海邦信阳中建中汇律师事务所
微信公众号:C-Budesonide
微信个人号:brianchen0323
还在从事
人工采集的重体力劳动?
法律技术男
一步步教你用工具批量节选文书,
自动生成带有当事人信息、公告类型、公告人的Excel表格
也许这篇文章有点长,图有点多,但请相信编辑君,不要只点“收藏”,学会这个,你阅读这篇文章的每一分钟,都物有所值。
温馨提示:
(1)点击图片可查看大图
(2)本操作适用于Windows系统
先来一张成品图镇楼:
这是一篇用八爪鱼采集裁判文书的效果图,对于律师伙伴们来说,采集裁判文书很重要,旁听案件也是很重要的。如果想去旁听,大家就需要知道各地方法院的开庭公告。
通常情况下,对于行业相关的庭审、比较重大的庭审等都有旁听的价值。了解案情证据,看法院如何审理,了解学习这类案子的关键辩护点在哪里,这些对于年轻的法律从业人员积累经验相当有用:没吃过猪肉,但是先看看猪怎么跑的。
可是那么多公告,假如每一份都去点击链接、等待网页加载、通篇阅读、复制粘贴,如果一份所需用时1分钟,那整个网页份就要好几个小时,这还只是原始数据的采集,还要整理还要筛选,恐怕两天两夜也做不完。但,时间是宝贵的。
这里我就要隆重介绍我的好伙伴:八爪鱼采集器
以采集人民法院公告网的公告内容为例,打开网页先复制好采集网址
1准备阶段
下载“八爪鱼采集器”,并安装、注册。下载地址为:/download 注意:本文使用的“八爪鱼采集器”为 v7.1.2(2017年8月31日版),后续更新版本变化不大。
2新建采集任务
1)首先在八爪鱼采集器中打开自定义模式
2)然后,将要采集的网站网址复制粘贴到输入框中,点击“保存网址”,这样就可以看到要采集的网站了
3) 网页打开后,将页面下拉到底部,点击“下一页”按钮。在右侧的操作提示框中,选择“循环点击下一页”
选中页面里第一条公告的公告类型“开庭传票”,这时选中的部分会变成绿色,在右边的提示框里选择‘’选中全部”
之后,接着选择“采集以下元素文本”
4)同样的方法,依次采集公告人、当事人和时间这几块内容。然后打开右上角的流程,可以自定义命名采集内容字段,之后就可以选择“保存并启动”
5)这里我们可以选择“启动本地采集”开始采集数据
采集完成以后就可以导出数据了,这里我们选择excel作为导出为格式,数据导出后如下图
附注:
1)采集过程有时候会发现卡在某处没有动静了,如果你排除是死机状态的话,不用慌张,不用理睬,因为是遇到网站卡顿的原因。
2)采集结果是存在一定的丢失,这是不可避免的,但数量并不多。
3)工具并不是万能的,不能取代我们去推理。对于我,工具只是用来帮助我拓展思路之类的,平时也是直接浏览excel的采集结果,不会去单独做个整理报告,节约下来的时间,可以让我有更多的时间和精力去思考。
服务提示