飞社-令人惊奇的创意工作者社区-程序员新手问问大佬们， AI IDE 或大模型数据安全问题

YanSeven · 2025-12-17 09:59:40

有些朋友还是逻辑跳跃了。你泄露的代码有没有价值是一回事儿，AI 会不会泄露是另外一回事儿。我的主观判断就是，所有的 AI 都会泄露你的代码，这里的泄露是指用你的对话做训练。从国外三巨头到国内三巨头，我都如此坚信。

ggzhyipeng · 2025-12-17 10:09:27

代码有没有价值是一回事儿，会不会对你进行追责是另一回事

charles0 · 2025-12-17 10:22:59

你就当作会泄露吧，不想泄露数据的话可以本地部署（注：可以在云服务器上本地部署）

charles0 · 2025-12-17 10:24:19

@NxxRngjnbgj 因为很多人并不把代码当作隐私，真正的隐私是日常消费记录、购买倾向、照片和文件、输入法词库等等

hello267015 · 2025-12-17 10:46:09

泄露代码和将代码用于模型训练是两回事 ai 收集到的代码都是碎片化的，可能是几行，几个类文件，就算极端情况下要将整个项目库作为 context 发给 ai ，但到了 ai 模型算法内部，这些代码都转成了一些毫无业务意义的 tokens ，从原理上来说 ai 就没有完整泄露代码的机制.... 但是将代码用于模型训练几乎是每个 CodeAgent 都会做的事情吧，你会在意 AI 借鉴、学习你的代码么，在意的话就不建议用 AI ，我是不 care...

sn0wdr1am · 2025-12-17 11:14:56

会有安全问题。如果公司有自己规定的，自己部署的 AI ，就用这个。如果公司有规定不能乱用 AI ，就不要用外面的 AI 。自己的代码，无所谓用什么 AI 。公司的代码，你不要任性，要尊重公司规定。

changwei · 2025-12-17 11:29:04

我也好奇过这个问题但是在使用 Copilot 时有看到他们官网说明： https://docs.github.com/en/copilot/reference/ai-models/model-hosting#openai-models 比如 OpenAI 有写：OpenAI makes the following data commitment: We [OpenAI] *do not train models on customer business data*. Data processing follows OpenAI's enterprise privacy comments. 他说不会用客户数据来 [训练模型] ，但是这句话的含义似乎并不代表他们不会收集数据来做其他用途？如果你是大公司的话，可以请教你们公司的律师和法务看看？！

2025-12-17 11:48:30

@NxxRngjnbgj #1 ，这是数据安全，不是算是隐私问题。主要是使用 AI Coding 造成的合规隐患。 ---- 作为回答就是会，自己很早期使用 Github Coiplot 的时候就完整补全出来了一段 juejin.cn 的文章链接出来……

gongym · 2025-12-17 12:18:12

@94 所谓的 ** juejin.cn 的文章链接 ** 应该是公开数据吧，不符合 OP 提到的场景

2025-12-17 13:04:45

@gongym #18 ，具体就不清楚了，完整 URL 复制出来又从 github 上面搜不到，就很奇怪。在写具体业务函数的 JSDoc 的时候突然补全出来一大堆文案里面就带了链接，我同事都快笑死了……