上一页 1 ··· 67 68 69 70 71 72 73 74 75 ··· 152 下一页
摘要: 随着开源大型语言模型的性能不断提高,编写和分析代码、推荐、文本摘要和问答(QA)对的性能都有了很大的提高。但是当涉及到QA时,LLM通常会在未训练数据的相关的问题上有所欠缺,很多内部文件都保存在公司内部,以确保合规性、商业秘密或隐私。当查询这些文件时,会使得LLM产生幻觉,产生不相关、捏造或不一致的 阅读全文
posted @ 2024-03-01 10:25 deephub 阅读(89) 评论(0) 推荐(0)
摘要: 谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸,2B和7B,并且提供了聊天的基本版和指令版。 用一句话来总结Gemma就是:学习了Llama 2和Mistral 7B的优点,使用了更多的Token和单词进行了训练了一个更好的7B 阅读全文
posted @ 2024-02-29 10:54 deephub 阅读(240) 评论(0) 推荐(0)
摘要: 我们这篇文章将推荐2月份发布的10篇深度学习的论文 Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping. https://arxiv.org/abs/2402.14083 Searchforme 阅读全文
posted @ 2024-02-28 10:48 deephub 阅读(97) 评论(0) 推荐(0)
摘要: 时间序列分析是数据科学的重要组成部分,特别是在金融、经济、天气预报等领域。它包括分析随时间收集或索引的数据点,以确定趋势、周期或季节变化。由于时间序列数据的复杂性所以分析时间序列需要复杂统计方法,我最近在Github上发现了一个刚刚发布不久的Python时间工具包PyTimeTK ,它可以帮我们简化 阅读全文
posted @ 2024-02-27 09:39 deephub 阅读(62) 评论(0) 推荐(0)
摘要: OpenAI最近发布了他们的新一代嵌入模型embedding v3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text- embeddings -3-small,较大且功能更强大的称为text- embeddings -3-large。 这些模型的设计和训练 阅读全文
posted @ 2024-02-26 10:22 deephub 阅读(165) 评论(0) 推荐(0)
摘要: 这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法 这个方法冻结整个模型,包括PEFT 阅读全文
posted @ 2024-02-25 20:17 deephub 阅读(71) 评论(0) 推荐(0)
摘要: 异常处理是写好代码的一个重要的方面,虽然许多开发人员都熟悉基本的try-except块,但是有很多更深入的知识可以使异常处理更高效、更可读和更python化。所以本文将介绍关于Python异常的20个可以显著改善编码的Python异常处理技巧,这些技巧可以让你熟练的掌握Python的异常处理。 Py 阅读全文
posted @ 2024-02-24 10:26 deephub 阅读(46) 评论(0) 推荐(0)
摘要: Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。 Mamba: Linear-Time Sequence Modeling with S 阅读全文
posted @ 2024-02-23 10:53 deephub 阅读(542) 评论(0) 推荐(0)
摘要: LiRank是LinkedIn在2月份刚刚发布的论文,它结合了最先进的建模架构和优化技术,包括残差DCN、密集门控模块和Transformers。它引入了新的校准方法,并使用基于深度学习的探索/利用策略来优化模型,并且通过压缩技术,如量化和词表压缩,实现了高效部署。 LinkedIn将其应用于Fee 阅读全文
posted @ 2024-02-22 11:22 deephub 阅读(43) 评论(0) 推荐(0)
摘要: 2023年是大语言模型和稳定扩散的一年,时间序列领域虽然没有那么大的成就,但是却有缓慢而稳定的进展。Neurips、ICML和AAAI等会议都有transformer 结构(BasisFormer、Crossformer、Inverted transformer和Patch transformer) 阅读全文
posted @ 2024-02-21 12:26 deephub 阅读(145) 评论(0) 推荐(0)
上一页 1 ··· 67 68 69 70 71 72 73 74 75 ··· 152 下一页