大成功!
这几天吧词组建立环节的代码重写了!用的是一个非常好的哈希算法,可以对20多万变长词进行散列,碰撞率极低,几乎没有!因为其中用到对不同频率字节的词组散列到不同位上去的方法。很好的解决了词库建立这一过程,时间从以前的7小时没有提取完只提取到6万词组左右----->现在20多分钟就可以提取16多万词的高效结果!!
真是值得欣喜!
不过现在词频矩阵等的计算还得想写好办法!大规模矩阵运算~~改进中....
这几天吧词组建立环节的代码重写了!用的是一个非常好的哈希算法,可以对20多万变长词进行散列,碰撞率极低,几乎没有!因为其中用到对不同频率字节的词组散列到不同位上去的方法。很好的解决了词库建立这一过程,时间从以前的7小时没有提取完只提取到6万词组左右----->现在20多分钟就可以提取16多万词的高效结果!!
真是值得欣喜!
不过现在词频矩阵等的计算还得想写好办法!大规模矩阵运算~~改进中....
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)