一匡互联网

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2017年11月10日

摘要: 现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding。文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大。这里有训练好的模型,30种语言非英语,感觉语料不是很好https://github.com/Kyubyong/wordvectors这个项目里面有英文预料的,英文有很多语料库例如wordbank google... 阅读全文
posted @ 2017-11-10 12:52 一匡互联网 阅读(2761) 评论(0) 推荐(0) 编辑

摘要: 不得不说博客园是很老土的,里面的标签居然没有搜索引擎,一看就是自以为是的开发者自己定义的。最后只好选了人工智能,反正所有的东西都可以和人工智能沾边。不过我喜欢这么老土的产品,不会被AI恶心到。要做一个搜索引擎,第一步是spider。spider有很多指标,例如有总结出如下:1. python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)2. WEB 界面编写调试脚本,起停脚本... 阅读全文
posted @ 2017-11-10 12:45 一匡互联网 阅读(545) 评论(0) 推荐(0) 编辑

摘要: 为什么选择使用 博客园,一个重要的原因是对 live writer支持得最好。由于有很长时间的windows客户端的开发经历,对客户端有特别的感情。当然现在html5的在线编辑已经做得很好了,native的客户端其实没有必要。配置方法见下面的博客https://www.cnblogs.com/siwuxie095/p/6214930.html2013年以前在windows时代我最想做的一个软件就是... 阅读全文
posted @ 2017-11-10 11:16 一匡互联网 阅读(145) 评论(0) 推荐(0) 编辑

摘要: 互联网圈子干了12年,从传统的客户端OA(PDF 渲染打印)到IM到地图到自动驾驶到搜索到机器学习,整个干了一圈。眼看就要40岁了,想起还没有怎么好好写博客。 毕业前在bbs上绝对是高产,工作之后由于保密条款的限制就再也没有写过什么博客。 现在公司终于提倡开放开源,可以写一点作为总结和回顾,当然也不涉及到公司的业务,都是自己的研究。本博客 关于搜索引擎,自然语言处理,机器学习,图像,三维,... 阅读全文
posted @ 2017-11-10 11:00 一匡互联网 阅读(168) 评论(0) 推荐(0) 编辑