根据信息来源网站、app 或者发布平台通常需要采取不同的方式单独定制内容获取方式。
从特定渠道批量获取信息来源,有几种方式:
获取的方式也有多种,可以通过代码抓取,也可以通过可视化的浏览器扩展定制规则。下方参考链接中包含一些常用的工具。
下面以 chatbene.com 获取数据来源 producthunt.com(简称 PH) 的爬虫举例。
Chatbene 希望获得 PH 网站发布 AI 相关的产品列表,获得产品名称、简介、介绍说明、产品链接等信息;通过产品链接,还可以进一步获取更多关于产品的信息。
通过以上信息,通过 ChatGPT/OpenAI 语言模型快速整理生成一篇针对产品的介绍文章。PH 每天发布产品 100~200,包含 AI 相关产品在 30~50 个左右,如果仅通过人工整理需要花费很多时间。
查看 PH 网站,发现可以从首页,或者日期存档页面获取完整内容列表,通过特定 Tag 标签或分类页面,只可以获得一部分 AI 相关的产品;由于 PH 的内容排序机制,产品列表是按排名算法综合排序的,没有时间排序的选项,需要建立自己的数据库防止内容反复抓取,防止获取不到最新内容的情况;列表页面展示信息不够完整,需要从详情页中获取完整的产品描述和官网链接信息。
综合以上情况,可以通过浏览器扩展先从首页获取列表,然后依次打开详情页获取完整信息。通过查看 HTML 了结构,我觉得使用代码脚本的方式更加方便。
实现步骤如下:
以上过程任务拆解后,将上下文发送给 ChatGPT 即可提供每个步骤需要的脚本代码,代码包内包含爬虫完整代码( PH-Bot.zip
),可以自行参考实现。
更多参考: