会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
61
62
63
64
65
66
67
68
69
···
151
下一页
2024年4月29日
如何准确的估计llm推理和微调的内存消耗
摘要: Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了,这些模型是巨大的。它们都有超过700亿个参数: Command-R+: 104B参数 Mixtral-8x22b:具有141B参数的混合专家(MoE)模型 Llama 370b: 70.6B参数 你能在
阅读全文
posted @ 2024-04-29 10:49 deephub
阅读(63)
评论(0)
推荐(0)
2024年4月28日
通过学习曲线识别过拟合和欠拟合
摘要: 本文将介绍如何通过学习曲线来有效识别机器学习模型中的过拟合和欠拟合。 https://avoid.overfit.cn/post/daca44bbf042471bbd50b1a1514895cf
阅读全文
posted @ 2024-04-28 15:47 deephub
阅读(32)
评论(0)
推荐(0)
2024年4月27日
2024年4月计算机视觉论文推荐
摘要: 本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域 https://avoid.overfit.cn/post/6ea12c7caca64be2a03317a8bce92bed
阅读全文
posted @ 2024-04-27 16:41 deephub
阅读(285)
评论(0)
推荐(0)
2024年4月26日
常用的时间序列分析方法总结和代码示例
摘要: 时间序列是最流行的数据类型之一。视频,图像,像素,信号,任何有时间成分的东西都可以转化为时间序列。 在本文中将在分析时间序列时使用的常见的处理方法。这些方法可以帮助你获得有关数据本身的见解,为建模做好准备并且可以得出一些初步结论。 我们将分析一个气象时间序列。利用逐时ERA5 Land[1]研究20
阅读全文
posted @ 2024-04-26 10:15 deephub
阅读(105)
评论(0)
推荐(0)
2024年4月25日
开源向量数据库比较:Chroma, Milvus, Faiss,Weaviate
摘要: 语义搜索和检索增强生成(RAG)正在彻底改变我们的在线交互方式。实现这些突破性进展的支柱就是向量数据库。选择正确的向量数据库能是一项艰巨的任务。本文为你提供四个重要的开源向量数据库之间的全面比较,希望你能够选择出最符合自己特定需求的数据库。 什么是向量数据库? 向量数据库是一种将数据存储为高维向量的
阅读全文
posted @ 2024-04-25 11:22 deephub
阅读(530)
评论(0)
推荐(0)
2024年4月24日
微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行
摘要: Phi-3系列 Phi-3是一系列先进的语言模型,专注于在保持足够紧凑以便在移动设备上部署的同时,实现高性能。Phi-3系列包括不同大小的模型: Phi-3-mini(38亿参数) - 该模型在3.3万亿个令牌上进行训练,设计得足够小,可以在现代智能手机上运行。尽管体积紧凑,它的性能却可与更大的模型
阅读全文
posted @ 2024-04-24 12:13 deephub
阅读(116)
评论(0)
推荐(0)
2024年4月23日
Barnes-Hut t-SNE:大规模数据的高效降维算法
摘要: 在数据科学和分析中,理解高维数据集中的底层模式是至关重要的。t-SNE已成为高维数据可视化的有力工具。它通过将数据投射到一个较低维度的空间,提供了对数据结构的详细洞察。但是随着数据集的增长,标准的t-SNE算法在计算有些困难,所以发展出了Barnes-Hut t-SNE这个改进算法,它提供了一个有效
阅读全文
posted @ 2024-04-23 10:52 deephub
阅读(112)
评论(0)
推荐(0)
2024年4月22日
5种搭建LLM服务的方法和代码示例
摘要: 在不断发展的大型语言模型(LLMs)领域中,用于支持这些模型的工具和技术正以与模型本身一样快的速度进步。在这篇文章中,我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。 https://avoid.overfit.cn/post/efad539d09694749
阅读全文
posted @ 2024-04-22 11:02 deephub
阅读(67)
评论(0)
推荐(0)
2024年4月21日
使用ORPO微调Llama 3
摘要: ORPO是一种新的微调技术,它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明,ORPO在各种模型大小和基准上都优于其他对齐方法,所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。 我们将使用ORPO和TRL库对新的Llama 3 8b
阅读全文
posted @ 2024-04-21 10:04 deephub
阅读(182)
评论(0)
推荐(0)
2024年4月20日
掌握时间序列特征工程:常用特征总结与 Feature-engine 的应用
摘要: 时间序列数据的特征工程是一种技术,用于从时间序列数据中提取信息或构造特征,这些特征可用于提高机器学习模型的性能。以下是一些常见的时间序列特征工程技术: 滚动统计量:计算时间窗口内的统计量,如平均值、中位数、标准偏差、最小值和最大值。这些统计量可以捕捉到时间序列在不同时间段的行为变化。 滞后特征:创建
阅读全文
posted @ 2024-04-20 10:46 deephub
阅读(620)
评论(0)
推荐(0)
上一页
1
···
61
62
63
64
65
66
67
68
69
···
151
下一页
公告