飞社-令人惊奇的创意工作者社区-分享创造刚做了个全网突发热点功能

freefreesea · 2025-12-22 18:04:30

@sunnysab 其实有个困难点。就是文本指纹聚类，也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的，当然这样存在误判的可能性。最好的方案是交给 ai 去判断，但是数据源太多了，我每天会产生 1500 万+条热点数据，假设每个标题十个字符(极其保守)，那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量，那如果是一个月，就是 50 亿个字符了，实际几百上千亿字符。问题就在这，一是大部分 ai 支持不了这么大的吞吐，而是就算支持，这个费用也是普通人远远无法承担的，再就是处理返回的时间会非常非常久。这是最大的问题，通俗点就是如何找相同热点。

freefreesea · 2025-12-22 18:17:37

@sunnysab 你数据量不大的情况下，比如一天就几万条数据，喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了，只要你的数据里包含时间这个属性，他基本就理的明明白白的。

topang · 2025-12-22 18:23:03

好家伙，收藏了！ excel 那边的突发好像不行？

freefreesea · 2025-12-22 18:33:10

@topang 只要主站没问题，excel 应该就没问题，因为是同一套数据。我刚看了一下，进去 excel 的时候，里面默认展示的分类是你在网站主页的分类。如果主页你是在 [突发热点] / [收藏] 这两个页面的话，进去 excel 里面就会显示没数据，因为这两个数据是独立的，并且突发热点的数据形式在 excel 里面是没法展示的。如果你是从非上面两个页面进去 excel ，那数据应该是都是展示正常的。

yaoppp · 2025-12-22 20:01:45

倒计时不用显示多少多少秒吧，改成分钟就够准确了

yaoppp · 2025-12-22 20:05:02

ui 有点儿乱，每个新闻标题前面都有个趋势线的 icon ，后面都有个着火的 icon ，这就没意义了。另外，留言区没有完全适配 light theme

freefreesea · 2025-12-22 21:07:43

@yaoppp 热点基本是每分钟刷新一次，所以时间显示需要精确到秒级

freefreesea · 2025-12-22 21:08:33

@yaoppp 新闻标题前面的趋势线 icon 是可以点击的，功能是历史热点追踪，后面带火的，是对应平台自己的热度值。所以还是不太一样的应该

浏览过的版块