deephub

2023年11月25日

LLMLingua:集成LlamaIndex，对提示进行压缩，提供大语言模型的高效推理

摘要：大型语言模型(llm)的出现刺激了多个领域的创新。但是在思维链(CoT)提示和情境学习(ICL)等策略的驱动下，提示的复杂性不断增加，这给计算带来了挑战。这些冗长的提示需要大量的资源来进行推理，因此需要高效的解决方案，本文将介绍LLMLingua与专有的LlamaIndex的进行集成执行高效推理。阅读全文

posted @ 2023-11-25 10:16 deephub 阅读(145) 评论(0) 推荐(0)

2023年11月24日

https://avoid.overfit.cn/post/161e4abfe1fa4e1a98ddf8511c16f2c6

摘要：评估聚类结果的有效性，即聚类评估或验证，对于聚类应用程序的成功至关重要。它可以确保聚类算法在数据中识别出有意义的聚类，还可以用来确定哪种聚类算法最适合特定的数据集和任务，并调优这些算法的超参数(例如k-means中的聚类数量，或DBSCAN中的密度参数)。虽然监督学习技术有明确的性能指标，如准确性阅读全文

posted @ 2023-11-24 11:32 deephub 阅读(60) 评论(0) 推荐(0)

2023年11月23日

斯坦福大学引入FlashFFTConv来优化机器学习中长序列的FFT卷积

摘要：斯坦福大学的FlashFFTConv优化了扩展序列的快速傅里叶变换(FFT)卷积。该方法引入Monarch分解，在FLOP和I/O成本之间取得平衡，提高模型质量和效率。并且优于PyTorch和FlashAttention-v2。它可以处理更长的序列，并在人工智能应用程序中打开新的可能性。处理长序列阅读全文

posted @ 2023-11-23 10:17 deephub 阅读(50) 评论(0) 推荐(0)

2023年11月22日

使用ExLlamaV2量化并运行EXL2模型

摘要：量化大型语言模型(llm)是减少这些模型大小和加快推理速度的最流行的方法。在这些技术中，GPTQ在gpu上提供了惊人的性能。与非量化模型相比，该方法使用的VRAM几乎减少了3倍，同时提供了相似的精度水平和更快的生成速度。 ExLlamaV2是一个旨在从GPTQ中挤出更多性能的库。由于新的内核，它还经阅读全文

posted @ 2023-11-22 10:16 deephub 阅读(257) 评论(0) 推荐(0)

2023年11月21日

对OpenAI CEO奥特曼突然被解雇事件的一些分析

摘要：今天也来凑个热闹，说说OpenAI的事。本来不想写的，但是看到自媒体又开始胡说八道，所以根据我自己得到的消息和理解说一说我的看法，这篇文章要是有个小姐姐解说录成视频，那肯定火了，但是我现在没资源，人也懒，所以就直接码字吧。 1、奥特曼突然被解雇奥特曼前天还在APEC会议上还在演讲，第二天就宣布被解阅读全文

posted @ 2023-11-21 11:31 deephub 阅读(82) 评论(0) 推荐(0)

2023年11月20日

Chain-Of-Note：解决噪声数据、不相关文档和域外场景来改进RAG的表现

摘要： CoN要点 CoN框架由三种不同的类型组成，研究称之为阅读笔记。上面的图像，类型(A)显示了检索到的数据或文档回答查询的位置。LLM仅使用NLG从提供的数据中格式化答案。 https://avoid.overfit.cn/post/1a108bbaf6c84b5fbc51554fefa222cd 阅读全文

posted @ 2023-11-20 09:27 deephub 阅读(44) 评论(0) 推荐(0)

2023年11月17日

使用FP8加速PyTorch训练

摘要：现代的人工智能硬件架构(例如，Nvidia Hopper, Nvidia Ada Lovelace和Habana Gaudi2)中，FP8张量内核能够显著提高每秒浮点运算(FLOPS)，以及为人工智能训练和推理工作负载提供内存优化和节能的机会。在这篇文章中，我们将介绍如何修改PyTorch训练脚本阅读全文

posted @ 2023-11-17 09:40 deephub 阅读(156) 评论(0) 推荐(0)

2023年11月16日

大语言模型量化方法对比：GPTQ、GGUF、AWQ

摘要：在过去的一年里，大型语言模型(llm)有了飞速的发展，在本文中，我们将探讨几种(量化)的方式，除此以外，还会介绍分片及不同的保存和压缩策略。说明：每次加载LLM示例后，建议清除缓存，以防止出现OutOfMemory错误。 del model, tokenizer, pipe import torc 阅读全文

posted @ 2023-11-16 10:59 deephub 阅读(1061) 评论(0) 推荐(0)

2023年11月15日

sMLP:稀疏全mlp进行高效语言建模

摘要：这是一篇2022由纽约州立大学布法罗分校和Meta AI发布的论文，它主要的观点如下：具有专家混合(MoEs)的稀疏激活mlp在保持计算常数的同时显着提高了模型容量和表达能力。此外gMLP表明，所有mlp都可以在语言建模方面与transformer相匹配，但在下游任务方面仍然落后。所以论文提出了s 阅读全文

posted @ 2023-11-15 09:32 deephub 阅读(77) 评论(0) 推荐(0)

2023年11月14日

神经网络中的量化与蒸馏

摘要：本文将深入研究深度学习中精简模型的技术：量化和蒸馏深度学习模型，特别是那些具有大量参数的模型，在资源受限环境中的部署几乎是不可能的。所以就出现了两种流行的技术，量化和蒸馏，它们都是可以使模型更加轻量级，而不会对性能造成太大影响。但是它们需要什么，它们又如何比较呢? 量化:牺牲精度换取效率量化是关阅读全文

posted @ 2023-11-14 10:08 deephub 阅读(81) 评论(0) 推荐(0)

overfit深度学习

公告