最近在看一个网站的文章,还没看完,说要闭站了,有什么办法把文章都保存下来吗?


举报· 366 次点击
登录 注册 站外分享
17 条回复  
eryuns 初学 2024-9-9 14:24:52

全站抓取?但是别被站长抓住

LangYnn 初学 2024-9-9 14:24:52

PY爬一下?

a91820d92e685cf06c5529cbff66c32eee500eb8

miza 初学 2024-9-9 14:24:52

都是些md小文件,直接开抓。



https://learn.lianglianglee.com/专栏/目录/子目录.md

只需要目录和子目录



网页全都是<li> xxxxx <li>

网页目录扒下来就可以直接开下了,感觉挺简单

MathGeoCloud 初学 2024-9-9 14:24:52

这个不管啥用途,你只要去爬,只要触发了人家网站的某种机制,肯定会封你IP或者啥的,程序又分不清楚你是自用还是他用。 :grinning:

pama 初学 2024-9-9 14:24:52

不用爬呀,这文章源码都在github,搜一下就出来了,想存档自己fork一个







handsome 限制会员 2024-9-9 14:24:52

要关了那就直接爬吧

dhb 初学 2024-9-9 14:24:52

试试 HTTrack

ticks 初学 2024-9-9 14:24:52

一般上搜索引擎的都有 sitemap.xml,直接 py 开爬就行了

isyifan 初学 2024-9-9 14:24:52

老哥要是爬好了记得踢我一脚,我刚想说爬来着

12下一页
返回顶部