我们提供一个适用于 producthunt.com 内容抓取的脚本样本供参考。
解压 PH-Bot.zip
后,通过 Terminal 终端运行脚本。
bash 0.get-ph.sh
bash 1.downthemall.sh
bash 2.content-parser.sh
以上步骤方便检查爬虫运行情况,一次性运行全部步骤:
bash 0.get-ph.sh && bash 1.downthemall.sh && bash 2.content-parser.sh
以上步骤 1 输出文件为 new_product_list.txt
,步骤 2 输出文件内容到文件夹 posts
,步骤 3 输出结果到文件夹 posts-content
。
posts-content
中的内容可进一步手动筛选或通过自动化筛选完成内容重写。可参考:
使用本地部署 AI 服务完成 AI 资讯内容筛选(测试版)