胡说八道 - 知乎杂谈
hugging face 是怎么起家的?
- 开源创业公司
- 最初是做机器人聊天服务的
- 当初复现并开源了 google bert 的 tensorflow 版本,而声名鹊起。
- 现在有开源的 nlp 社群,提供很多 pretrained language model。
- 只需要安装 transformers 包,指定模型的地址,就可以用他们的模型。
还有啥创业公司
- AI INFRA
- 弱监督标注系统:snorkel ?
- https://zhuanlan.zhihu.com/p/72531604
- 感觉很适用于金融系统?因为标签少。可能有相悖的样本?
- 也适用于 nlp 这种人为标注,比较主观的多人标签上?
- 可以快速生成训练数据的弱监督系统。
- 在 tweet 情感分析的任务中,适用snorkel 的标签,比直接平均效果要好。
- grid .AI / pytorch lightening
- 深度学习管道!pipeline!
- 最少修改的情况下,提升内存利用率。加快实验扩展性和迭代速度。减少潜在速度
- 那 feature engineering 有没有 pipeline?
- 用 sklearn 的话,是可以 pipeline 形成流水线的。这样可以结合 grid search 进行自动化调参。
- https://www.cnblogs.com/jasonfreak/p/5448462.html
- https://zhuanlan.zhihu.com/p/42368821
- pytorch lightening 的学习,建议先读,这个有人总结了 template,是对 pytorch lightening 进一步抽象 :https://zhuanlan.zhihu.com/p/353985363
- chatBot rasa
- 聊天机器人的机器学习框架
- milvus
- 这个视频组用过。20年的时候他们还是踩了一些坑的。
- 向量数据库,可以在秒内实现十亿级的向量搜索。对 faiss ivf 索引进行了深度优化,提升了向量搜索性能。支持CPU, GPU。
- 应用场景广泛:声音,视频,图片,自然语言。(但应该都会进行向量化的存储)
- 开发者友好:python/c++/java...
- https://milvus.io/cn/docs/overview.md
- 向量搜索还有其他产品:jina(只有python),faiss, SPTAG, proxima... https://zhuanlan.zhihu.com/p/364923722
- streamlit
- 一个用于构建机器学习,数据可视化的 python 框架。
- !!感觉可以用来装逼!!
- 可以直观地将数据展示给其他小伙伴。
- 也可以做些小事情,比如自动化处理文件,不用暴露代码。所以是个 web app。
- https://zhuanlan.zhihu.com/p/163927661
- iterative
- data version control (DVC)用于机器学习的数据版本。其实类似 github 对代码的版本控制。
- 但把数据托管到仓库,会不会涉及数据泄露??
- https://github.com/iterative/dvc
- tecton
- 弱监督标注系统:snorkel ?