logo

GPT大升级!它可以在哪些场景辅助数据采集?

前几天,OpenAI公司召开了发布会,宣布了GPT-4 的大升级,还推出ChatGPT新的语音与图像功能,让ChatGPT可以看、听和说话。

ChatGPT是OpenAI公司开发的一个基于人工智能技术的语言模型,全球周活跃用户已经超过1亿,它可以完成许多任务:回答问题、提供思路和建议、写文案、甚至编写代码等等。

目前ChatGPT的数据已经更新至2023年4月,但由于不能联网,它还不能直接帮我们执行数据采集操作,获取互联网上的数据,但它可以在各个环节辅助我们进行数据采集,包括但不限于编写代码、修改代码,或是提供工具使用建议

在数据采集场景中,ChatGPT可以在以下这些环节帮助我们:

让ChatGPT提供数据采集的建议

在正式采集数据之前,我们可以先做一些准备,比如询问ChatGPT对于数据源、采集策略和采集方法的建议。

假如我们想要研究今年国内房地产行业的情况,可以直接这样询问:

用ChatGPT辅助八爪鱼数据采集

对于没有编程基础的职场人士/学生而言,有一款0代码的、操作简单的数据采集工具会对工作和学习带来非常大的收益,八爪鱼就是这样一款工具啦!

八爪鱼专注0代码数据采集的推广与普及,能实现全网99%以上网站数据的采集。

对于大部分的数据规整的网页,我们都可以用八爪鱼的模板采集和智能识别功能来搞定数据采集。

但也有一些结构比较复杂的网站,需要我们自定义采集步骤,并使用一些辅助手段,比如XPath和正则表达式

用ChatGPT写XPath

在遇到一些结构复杂的网页的时候,我们可以使用xpath来精确定位需要采集的数据,提高采集的效率和准确性。

比如:无法正常翻页循环、定位不到所有列表、指定区域的定位……这些都可以用XPath来解决!

比如我们要采集网页中的某个元素数据,就可以打开网页,右键单击要提取的信息,然后选择”检查”来查看HTML结构。将HTML源代码复制给ChatGPT,让他提供XPath表达式即可。

用ChatGPT写正则表达式

正则表达式是一种字符串匹配的模式,用于描述一类字符串的集合。它可以用来匹配、搜索、替换、验证等操作。

在采集数据的过程中帮助我们调整网页既定格式;剔除多余符号等…..

撰写正则表达式规则对新手来说确实会有较高的门槛。但是有了ChatGPT,我们根本不需要自己编写,可以直接通过提问对话的方式获取所需规则!

步骤可参考新手速成!如何利用ChatGPT撰写正则表达式辅助数据采集?

让ChatGPT清洗数据

在数据清洗阶段,我们需要处理数据中的错误、缺失、重复或不一致的部分。

这包括去除冗余数据,例如重复的记录或无效的数据;解决数据类型不匹配问题,将数据转换成相同的格式或类型等。

让ChatGPT分析数据

在数据分析之前,我们也可以通过和ChatGPT对话来获取一些灵感,比如问他,我们想要分析某个产品的用户评价情况,应该从哪些渠道获取数据?从哪些维度分析数据? 通过数据分析结果,我们可以从哪些方面继续改进产品等。

以下是一些可以参考的数据分析方向:

统计分析

统计分析是数据分析的基础,比如我们可以通过观察比较数据在不同时间周期、地域、事件发展阶段的变化情况,来揭示数据背后的规律和趋势,也可以作为未来发展趋势的参考。

文章链接:用八爪鱼+RPA挖掘招投标数据价值,采集清洗一次搞定!

数据挖掘

数据挖掘是从大量数据中提取有价值的信息和知识的过程,包括关联规则挖掘、聚类分析、分类分析等多种技术。

文章链接:B站磕CP,知乎骂烂尾?大数据告诉你《开端》后遗症为何这么强!

文本分类

让ChatGPT将文本数据按照不同的类别进行划分,以便于后续的数据分析和处理,例如新闻文章可以分为政治、经济、体育等不同类别。

更多信息可以参考:干货 | 日采100W新闻数据,如何实现新闻自动分类

情感分析

对文本数据中的情感倾向进行分析,一般分为正面、负面和中性三种情感倾向,通常应用于舆情监测、电商评论分析等场景。

让ChatGPT对文本内容进行情感分析,可以更好地了解公众对某个事件或产品的看法和态度。

来源文章:B站磕CP,知乎骂烂尾?大数据告诉你《开端》后遗症为何这么强!

实体识别

让ChatGPT从文本数据中提取出具有特定意义的实体信息,如人名、地名、组织机构名等。

利用ChatGPT分析数据可以应用在各个行业,比如:

电商:从竞争对手网站提取产品评论和评级,以深入了解消费者偏好并确定需要改进的领域。

房地产:从房地产列表中提取房地产数据,以比较价格、分析趋势并预测未来的增长模式。

医疗保健:从医学研究论文和临床试验中提取数据,以找到有助于改善患者治疗结果的建议和相关性。

金融:从股票市场网站提取金融数据并对其进行分析,以预测股票价格、识别投资机会并评估风险。

旅游和酒店业:从旅游网站提取酒店、餐厅和旅游景点的评论和评级,并利用它们来确定需要改进的领域、预测未来趋势并向客户提供个性化建议。

媒体和娱乐:通过从媒体和娱乐网站提取数据来分析用户行为和情绪,为用户创建个性化内容推荐。

法律:从法律数据库中提取数据并进行分析,以预测法院裁决并评估法律风险。

……


以上是ChatGPT在数据采集场景中的部分应用,可以预见的是,随着行业的发展,ChatGPT以及其他人工智能模型的功能会越来越强大。

理想情况下,或许我们只需要告诉它,我们需要了解某个产品的社交媒体评论情况,它就可以自动调取公开数据,分析并直接向我们展示可视化的结果啦~