Windows/Linux 平台下运行爬虫
一般讨论
Open

我们提供一个适用于 producthunt.com 内容抓取的脚本样本供参考。

解压 PH-Bot.zip 后,通过 Terminal 终端运行脚本。

  1. 初始化数据库,获取最新内容列表:bash 0.get-ph.sh
  2. 从已获得更新内容中,下载全部更新:bash 1.downthemall.sh
  3. 从下载的内容中提取关键信息:bash 2.content-parser.sh

以上步骤方便检查爬虫运行情况,一次性运行全部步骤:

bash 0.get-ph.sh && bash 1.downthemall.sh && bash 2.content-parser.sh

以上步骤 1 输出文件为 new_product_list.txt,步骤 2 输出文件内容到文件夹 posts,步骤 3 输出结果到文件夹 posts-content

posts-content 中的内容可进一步手动筛选或通过自动化筛选完成内容重写。可参考:
使用本地部署 AI 服务完成 AI 资讯内容筛选(测试版)

Voters
Powered by FeedbackTrace