最近在看一个网站的文章,还没看完,说要闭站了,有什么办法把文章都保存下来吗?
全站抓取?但是别被站长抓住
PY爬一下?
都是些md小文件,直接开抓。
https://learn.lianglianglee.com/专栏/目录/子目录.md 只需要目录和子目录
网页全都是<li> xxxxx <li> 网页目录扒下来就可以直接开下了,感觉挺简单
<li> xxxxx <li>
这个不管啥用途,你只要去爬,只要触发了人家网站的某种机制,肯定会封你IP或者啥的,程序又分不清楚你是自用还是他用。
不用爬呀,这文章源码都在github,搜一下就出来了,想存档自己fork一个
要关了那就直接爬吧
试试 HTTrack
一般上搜索引擎的都有 sitemap.xml,直接 py 开爬就行了
老哥要是爬好了记得踢我一脚,我刚想说爬来着