17 条回复  ·  1866 次点击
freefreesea 楼主 初学 2025-12-22 18:04:30
@sunnysab 其实有个困难点。 就是文本指纹聚类,也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的,当然这样存在误判的可能性。最好的方案是交给 ai 去判断,但是数据源太多了,我每天会产生 1500 万+条热点数据,假设每个标题十个字符(极其保守),那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量,那如果是一个月,就是 50 亿个字符了,实际几百上千亿字符。 问题就在这,一是大部分 ai 支持不了这么大的吞吐,而是就算支持,这个费用也是普通人远远无法承担的,再就是处理返回的时间会非常非常久。这是最大的问题,通俗点就是如何找相同热点。
freefreesea 楼主 初学 2025-12-22 18:17:37
@sunnysab 你数据量不大的情况下,比如一天就几万条数据,喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了,只要你的数据里包含时间这个属性,他基本就理的明明白白的。
topang 小成 2025-12-22 18:23:03
好家伙,收藏了! excel 那边的突发好像不行?
freefreesea 楼主 初学 2025-12-22 18:33:10
@topang 只要主站没问题,excel 应该就没问题,因为是同一套数据。 我刚看了一下,进去 excel 的时候,里面默认展示的分类是你在网站主页的分类。 如果主页你是在 [突发热点] / [收藏] 这两个页面的话,进去 excel 里面就会显示没数据,因为这两个数据是独立的,并且突发热点的数据形式在 excel 里面是没法展示的。 如果你是从非上面两个页面进去 excel ,那数据应该是都是展示正常的。
yaoppp 初学 2025-12-22 20:01:45
倒计时不用显示多少多少秒吧,改成分钟就够准确了
yaoppp 初学 2025-12-22 20:05:02
ui 有点儿乱,每个新闻标题前面都有个趋势线的 icon ,后面都有个着火的 icon ,这就没意义了。另外,留言区没有完全适配 light theme
freefreesea 楼主 初学 2025-12-22 21:07:43
@yaoppp 热点基本是每分钟刷新一次,所以时间显示需要精确到秒级
freefreesea 楼主 初学 2025-12-22 21:08:33
@yaoppp 新闻标题前面的趋势线 icon 是可以点击的,功能是历史热点追踪,后面带火的,是对应平台自己的热度值。所以还是不太一样的应该
12
返回顶部