21 条回复  ·  2484 次点击
NoOneNoBody 小成 2024-11-29 01:45:11
是你去爬,还是写代码交给对方爬? 前者直接拒绝 后者把所有代码都写成没有针对的那个网站的,就是扔 url 参数才能运行,由爬取的人输入 你的代码里面不能有任何被爬网站的标识
Fffys 楼主 初学 2024-11-29 02:23:24
@NoOneNoBody 前者……不过也有不少是 free use 的网站,有的是明确写出是公共领域的数据,有的网站也没有 terms of use 就只有免责声明,也没有对爬虫进行限制,现在我是在想,是不是有一种合法爬取的方法?比如只爬公用领域、free use 的数据,或者和网站联系获得合法授权之类的? 后者的话,因为网站有很多,不太方便写成一个统一的方法,很多需要解析 HTML 从标签里获取数据,不过你的意思是,只要我最终交付的代码不包括具体的网站名我就可以法律上完全免责吗?但是我也需要提供示例输出文件啊,然后里面肯定有字段指向爬取的网站……
Fffys 楼主 初学 2024-11-29 02:25:47
因为没有认识的相关律师,打算在 quora reddit 上也发帖问问,那些在个人 bio 里写了是律师的人的回复可以全信吗?主要是我对欧美这边相关法律也不了解……
Fffys 楼主 初学 2024-11-29 05:30:50
跟进,我进一步询问后同意只抓取有 API 或者写了 free use 的网站,并且告诉我不会有商业用途,但是其中有的 API 网站写明了如果要用于商业用途需要联系网站管理员,我要怎么确定的确不会有商业用途呢?只爬取这两种是否就是安全的了?
lxh1983 小成 2024-11-29 06:46:16
可以直接举报啊
zzNaLOGIC 小成 2024-11-29 08:37:05
我在公司也搞爬虫 我的要求是这样的: 我不接受任何来自个人、领导、上下游的爬虫要求,有仅仅有数据风控部门给我发邮件正式下达任务我才执行,并且向订单风控部门提交申请必须有“网站数据抓取授权书”,由客户写授权书并盖上公章,风控审核通过后、才能给我发邮件下达执行任务。 当然了,嘴上别那么死板。什么完善公司流程,避免公司因法律风险造成损失,我有一个朋友。。。之类的,多扣帽子,多讲讲办公室政治正确的话,别跟个愣头青一样去对着刚。
wbrobot 小成 2024-11-29 08:58:13
我给你说个简单的解决办法: 拿出工资的一半,把爬虫编码和运行工作,外包给我们这些肉身中国的朋友。把需求一扔,你直接得到数据就行了。
Marain 小成 2024-11-29 09:39:47
@wbrobot 赛博殖民地
DengSven 初学 2024-11-29 11:56:44
@wbrobot 对头,将法律风险转嫁,无劳动得到一半的工资,给国内兄弟喝口汤,一箭三雕
mxT52CRuqR6o5 小成 2024-11-29 14:27:14
@Fffys #7 当自己不会写代码,完全手动打开网页复制粘贴
返回顶部