2024 年 11月随笔档案 - 果冻人工智能

新型大语言模型的预训练与后训练范式，Meta的Llama 3.1语言模型

摘要：前言：大型语言模型（LLMs）的发展历程可以说是非常长，从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初，LLM的训练过程只关注预训练，但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程，而这些在ChatGPT的推广下变得广为人知。自C 阅读全文

posted @ 2024-11-30 09:41 果冻人工智能阅读(419) 评论(0) 推荐(1) 编辑

新型大语言模型的预训练与后训练范式，谷歌的Gemma 2语言模型

摘要：前言：大型语言模型（LLMs）的发展历程可以说是非常长，从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初，LLM的训练过程只关注预训练，但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程，而这些在ChatGPT的推广下变得广为人知。自C 阅读全文

posted @ 2024-11-29 09:20 果冻人工智能阅读(229) 评论(0) 推荐(0) 编辑

新型大语言模型的预训练与后训练范式，苹果的AFM基础语言模型

摘要：前言：大型语言模型（LLMs）的发展历程可以说是非常长，从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初，LLM的训练过程只关注预训练，但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程，而这些在ChatGPT的推广下变得广为人知。自C 阅读全文

posted @ 2024-11-28 09:27 果冻人工智能阅读(130) 评论(0) 推荐(0) 编辑

新型大语言模型的预训练与后训练范式，阿里Qwen

摘要：前言：大型语言模型（LLMs）的发展历程可以说是非常长，从早期的GPT模型一路走到了今天这些复杂的、公开权重的大型语言模型。最初，LLM的训练过程只关注预训练，但后来逐步扩展到了包括预训练和后训练在内的完整流程。后训练通常涵盖监督指导微调和对齐过程，而这些在ChatGPT的推广下变得广为人知。自C 阅读全文

posted @ 2024-11-27 09:48 果冻人工智能阅读(585) 评论(0) 推荐(0) 编辑

设计一个基于 LSTM 神经网络的文本分类器

摘要：前一篇：《用于自然语言处理的循环神经网络RNN》序言：本节主要讲解如何使用循环神经网络（RNN）创建一个文本分类器。RNN 是一类适合处理序列数据的神经网络的统称，而我们将在本节中使用 RNN 的一种常见变体——LSTM（长短期记忆网络）来实现这一文本分类器。使用RNN创建文本分类器在第六章中阅读全文

posted @ 2024-11-26 09:20 果冻人工智能阅读(278) 评论(0) 推荐(0) 编辑

用于自然语言处理的循环神经网络RNN

摘要：前一篇：《人工智能模型学习到的知识是怎样的一种存在？》序言：在人工智能领域，卷积神经网络（CNN）备受瞩目，但神经网络的种类远不止于此。实际上，不同类型的神经网络各有其独特的应用场景。在接下来的几节中，我将带大家走近循环神经网络（RNN），深入了解其原理及其在处理人类自然语言中的改进与应用。需要阅读全文

posted @ 2024-11-25 12:25 果冻人工智能阅读(277) 评论(3) 推荐(0) 编辑

人工智能模型学习到的知识是怎样的一种存在？

摘要：前一篇：《设计和训练人工智能模型的意义是什么？》序言：在上一篇文章中，我们通过大型互联网社交平台的一个常规需求场景，举例说明了如何使用人工智能模型来解决常规程序无法解决的应用问题。这让我们明白，人类设计和训练人工智能模型并不是为了“无聊”，也不是出于某些阴谋论而刻意突破人工智能技术，而是为了在实际阅读全文

posted @ 2024-11-24 10:21 果冻人工智能阅读(33) 评论(0) 推荐(0) 编辑

它终于发生了。2024年因人工智能倒闭的第一家美国上市企业！

摘要：一家美国公司在最近的财报发布后，股价从历史高点暴跌了99%，现在正走在倒闭的最后一段路上。这家公司叫 Chegg，是一家美国的教育科技公司，主要提供一系列服务，帮助学生完成学业。疫情期间，它曾是备受关注的明星公司，三年前的市值一度高达 120 亿美元。现在呢？它眼看就要消失了。原因是什么？Che 阅读全文

posted @ 2024-11-23 19:06 果冻人工智能阅读(103) 评论(0) 推荐(0) 编辑

OpenAI 是怎么“压力测试”大型语言模型的？

摘要：OpenAI 再次稍微揭开了它的安全测试流程的面纱。上个月，他们分享了一项调查的结果，这项调查研究了 ChatGPT 在根据用户名字生成性别或种族偏见的几率。现在，他们又发布了两篇论文，详细描述了如何对大型语言模型进行“压力测试”（也叫红队测试），目的是找出可能有害或者其他不希望出现的行为。为什么阅读全文

posted @ 2024-11-22 11:49 果冻人工智能阅读(51) 评论(0) 推荐(0) 编辑

2025 年将颠覆商业的 8 大 AI 应用场景

摘要：AI 发展的速度可以用“飞速”来形容，不仅影响了各行各业，还在逐渐成为企业发展的“核心引擎”。到了 2025 年，AI 不仅仅是用来创新的小工具，而是推动商业转型的“大功臣”。不管是客户服务、预测分析，还是个性化推荐，AI 帮助企业更高效地运作，降低成本，同时挖掘新的增长机会。未来几年，懂得利用 A 阅读全文

posted @ 2024-11-21 12:23 果冻人工智能阅读(261) 评论(0) 推荐(0) 编辑

设计和训练人工智能模型的意义是什么？

摘要：前一篇：《人工智能模型训练技术，正则化！》序言：人工智能模型的真正价值在于其实际应用，而不仅仅停留在理论阶段。本节将通过一个简单而常见的应用场景，展示如何将前面几节所设计和训练的模型应用于实际问题。我们将使用训练好的模型对句子进行分类，具体来说，识别社交平台上用户评论的类别。通过这样的技术，社交平阅读全文

posted @ 2024-11-20 08:53 果冻人工智能阅读(69) 评论(0) 推荐(0) 编辑

人工智能模型训练技术，正则化！

摘要：前一篇：《人工智能模型训练技术：随机失活，丢弃法，Dropout》序言：让人工智能模型变得更“聪明”的方法之一，就是减少“过拟合”（读死书）的问题，从而提升模型的“泛化能力”，也就是它面对新问题时的适应能力。在前面，我们讲解了最常用的“随机丢弃”法，本节将带大家了解另一种重要的方法——“正则化”。阅读全文

posted @ 2024-11-19 09:24 果冻人工智能阅读(71) 评论(0) 推荐(0) 编辑

人工智能模型训练技术：随机失活，丢弃法，Dropout

摘要：前一篇：《探索训练人工智能模型的词汇大小与模型的维度》序言：Dropout 是神经网络设计领域的一种技术，通常我们把它翻译成随机失活或者丢弃法。如果训练神经网络的时候不用 Dropout，模型就很容易“读死书”，也就是过拟合，结果可能导致项目失败。那 Dropout 到底在干什么呢？其实很阅读全文

posted @ 2024-11-18 11:09 果冻人工智能阅读(230) 评论(0) 推荐(1) 编辑

探索训练人工智能模型的词汇大小与模型的维度

摘要：前一篇：《人工智能同样也会读死书 “过拟合”》序言：你看，人工智能领域的专家都在做什么？他们其实只是在不断试错，因为并没有一种“万能药”——一种万能的算法可以一次性设计出任何人工智能大模型来实现客户的需求。所有的模型在设计和训练过程中都是——验证结构——修改架构——再验证新结构——再修改……最终达阅读全文

posted @ 2024-11-17 11:35 果冻人工智能阅读(46) 评论(0) 推荐(0) 编辑

人工智能同样也会读死书----“过拟合”

摘要：上一篇：《“嵌入”在大语言模型中是解决把句子转换成向量表示的技术》序言：我们常常会说某某人只会“读死书”，题目稍微变一点就不会做了。这其实是我们人类学习中很常见的现象。可是你知道吗？人工智能其实更容易“读死书”。不过在人工智能领域，我们有个听起来高大上的说法，叫“过拟合”。说白了，“过拟合”就是人阅读全文

posted @ 2024-11-16 11:41 果冻人工智能阅读(216) 评论(0) 推荐(0) 编辑

斯坦福大学推出线性前沿LLM技术，训练模型成本仅为20美元

摘要：序言：当前基于 Transformer 架构的大语言模型人工智能技术，由于投入大、成本高、人才需求苛刻，导致许多企业望而却步。动辄几千万甚至上亿的成本，现实中有几家企业能够承担？真正具有竞争力的技术应当在成本上更低、效率上更高，因此，各大院校和商业公司已不再仅仅关注模型的参数规模，而是在积极探索创新阅读全文

posted @ 2024-11-14 10:35 果冻人工智能阅读(327) 评论(0) 推荐(2) 编辑

“嵌入”在大语言模型中是解决把句子转换成向量表示的技术

摘要：上一篇：《人工智能是这样理解“情绪”的》序言：这段话要优化吗？““嵌入”是一种将句子、单词或其他语言单位转换为向量表示的技术。这个向量通常位于高维空间中，它以一种能够表达相似性的方式编码出文本的含义或上下文。嵌入层的作用就在于把离散的语言符号（如单词或句子）转换成连续的向量，使得模型能更好地理解和阅读全文

posted @ 2024-11-13 10:30 果冻人工智能阅读(95) 评论(0) 推荐(0) 编辑

人工智能是这样理解“情绪”的

摘要：前一篇：《人工智能模型训练：从不同格式文件中读取训练数据集》前言：在前面的内容中，我们经常提到“特征”，那么如何表示特征呢？举个例子，在日常生活中，我们描述一个快递包装盒时可能会提到它的高度、宽度和深度（这三个值就是盒子的特征，当然也可以用颜色、重量、材料等来描述）。当我们仅用高度、宽度和深度三个阅读全文

posted @ 2024-11-12 10:34 果冻人工智能阅读(33) 评论(0) 推荐(0) 编辑

人工智能模型训练：从不同格式文件中读取训练数据集

摘要：上一篇：《研发LLM模型，如何用数值表示人类自然语言？》序言：人工智能数据工程师在采集数据时往往会使用不同的工具，因此最终得到的原始数据结构各不相同。市场上已知的数据采集和分析工具所输出的文件格式大致有几种。前面我们介绍了如何从谷歌的TFDS中提取支持的格式数据，今天将为大家讲解两类更常用的数据集阅读全文

posted @ 2024-11-11 09:51 果冻人工智能阅读(171) 评论(0) 推荐(0) 编辑

还在搞传统爬虫吗？2025年用人工智能轻松抓取几乎所有网站

摘要：今天，我将介绍一种简单的方法，帮助大家从各种网站上收集数据，搭建一个能够像人在浏览器中操作的网页爬虫。这种爬虫甚至可以在 Upwork 等平台上独立完成一些网页抓取的自由职业任务。自2024年以来，随着 AI 的发展，网页抓取发生了巨大的变化。以前，大公司如亚马逊或沃尔玛为了保持价格竞争力，必须花阅读全文

posted @ 2024-11-10 09:41 果冻人工智能阅读(132) 评论(0) 推荐(0) 编辑

研发LLM模型，如何用数值表示人类自然语言？

摘要：上一篇：《人工智能——自然语言处理简介》序言：人工智能大语言模型（LLM）如何理解人类的自然语言？这个过程的核心在于将文本转化为计算机能处理的数值形式，经过计算，最终达到对语言的理解。起初，我们只是简单的随便用一个数字来表示一个单词或一个词根，但随着研究深入，我们发现，不同的数值表达方式能显著提高阅读全文

posted @ 2024-11-09 09:47 果冻人工智能阅读(26) 评论(0) 推荐(0) 编辑

人工智能--自然语言处理简介

摘要：上一篇：《人工智能模型训练中的数据之美——探索TFRecord》序言：自然语言处理（NLP）是人工智能中的一种技术，专注于理解基于人类语言的内容。它包含了编程技术，用于创建可以理解语言、分类内容，甚至生成和创作人类语言的新作品的模型。在接下来的几章中，我们将会探讨这些技术。此外，现在有许多利用 N 阅读全文

posted @ 2024-11-08 12:24 果冻人工智能阅读(91) 评论(0) 推荐(0) 编辑

AI 搜索来势汹汹，互联网将被颠覆还是进化？

摘要：最近，美国新闻集团起诉了知名 AI 搜索引擎 Perplexity AI。也许你会想，这不就是又一起“AI 惹官司”吗？其实，这次情况不太一样，甚至可能会改变我们未来上网的方式！争议的焦点是什么？是未来的 AI 搜索——即那些能从全网总结信息的“AI 答题王”。这些 AI 不只是简单的聊天机器人，阅读全文

posted @ 2024-11-07 11:32 果冻人工智能阅读(17) 评论(0) 推荐(0) 编辑

OpenAI 的正式版o1 模型意外泄露，推理能力真是震撼——事情是这样的

摘要：序言：无论 OpenAI 出于何种原因，用户的期待和认可都是关键。这次 o1 模型的泄露事件意外引发热议，也让用户有机会一窥 o1 的强大潜力。虽然 OpenAI 已推出 o1-preview 和 o1-mini 供用户试用，性能有所提升，但仍未展现最终模型的完整能力。完整版本的意外泄露让人们看到了阅读全文

posted @ 2024-11-06 16:08 果冻人工智能阅读(70) 评论(0) 推荐(0) 编辑

人工智能模型训练中的数据之美——探索TFRecord

摘要：上一篇：《构建人工智能模型基础：TFDS和Keras的完美搭配》序言：在人工智能模型的训练过程中，如何高效管理和处理大量数据是一个重要的课题。TensorFlow 的 TFRecord 格式为大规模数据存储和处理提供了一种灵活且高效的解决方案。在本节知识中，我们将介绍如何利用 TFRecord 结阅读全文

posted @ 2024-11-06 09:21 果冻人工智能阅读(103) 评论(0) 推荐(0) 编辑

构建人工智能模型基础：TFDS和Keras的完美搭配

摘要：上一篇：《数据工程师，转型人工智能岗位的理想时空通道》序言：本节将带您深入探索 TensorFlow 提供的关键工具和方法，涵盖数据集管理和神经网络模型的构建与训练。在现代人工智能框架中，TensorFlow 的数据集接口 (TensorFlow Datasets, 简称 TFDS) 与 Kera 阅读全文

posted @ 2024-11-05 09:20 果冻人工智能阅读(56) 评论(0) 推荐(0) 编辑

把握人工智能行业脉搏！全球最值得关注的7大AI资讯平台

摘要：序言：全球顶级的人工智能资讯网站都是以英文语言为主，如果大家看不懂，没关系，作者教大家一个技巧，用人工智能直接帮您看，然后直接让AI解析出您关注的重点内容给您，如果想了解详细信息，让人工智能一字不漏的翻译给你，就这么简单粗暴。在瞬息万变的人工智能领域，获取最新资讯、紧跟行业发展是保持竞争力的关键。阅读全文

posted @ 2024-11-04 19:31 果冻人工智能阅读(210) 评论(1) 推荐(1) 编辑

数据工程师，转型人工智能岗位的理想时空通道

摘要：序言：数据工程师是从传统软件工程师向人工智能方向转型的最佳切入点之一。数据工程师的职责通常是为人工智能项目收集和准备高质量的训练数据集，包括从互联网上获取公开数据、或自行采集、清洗、整理数据集。尽管看似简单，但数据工程师的工作至关重要，因为数据质量直接影响模型的性能，数据准备不当可能导致模型开发失败阅读全文

posted @ 2024-11-04 08:36 果冻人工智能阅读(33) 评论(0) 推荐(0) 编辑

‘随机失活’：人工智能真的在模仿人脑吗？

摘要：序言：过拟合是人工智能训练中的一个常见问题，类似于一位“读死书”的学生，他只能机械地背诵书本内容，缺乏灵活性，一旦题目稍有变化便无法理解。为了解决这一问题，科学家们从人脑的学习方式中获得启发，设计出“随机失活”方法。在学习过程中，随机关闭部分神经元，避免神经元之间过度依赖，从而提升模型的灵活性与应变阅读全文

posted @ 2024-11-03 10:26 果冻人工智能阅读(240) 评论(0) 推荐(0) 编辑

搞人工智能开源大语言模型GPT2、Llama的正确姿势

摘要：（如果想及时收到人工智能相关的知识更新，请点击关注！！）序言：目前我们每一小节的内容都讲解得非常慢，因为这是人工智能研发中的最基础知识。如果我们不能扎实掌握这些知识，将很难理解后续更复杂且实用的概念。因此，我们甚至采用一个概念一节的方式来编排内容，区分得清清楚楚、明明白白，以便大家能够非常明确地了阅读全文

posted @ 2024-11-02 09:50 果冻人工智能阅读(301) 评论(0) 推荐(1) 编辑

用图像增强来充实训练数据集，算不算是一种‘摸鱼’的方法？

摘要：序言：图像增强其实就是对现有图片做一些变化，让数据集看起来更多样化，减少去额外收集数据的需求。虽然从某种程度上来说，它能提高数据的质量，但严格来说它不是传统意义上的数据清洗。数据清洗的目的就是把数据里的错误、不一致或者缺失的部分给清理掉，让数据变得更干净、更好用。图像增强在上一节中，我们构建了一阅读全文

posted @ 2024-11-01 09:40 果冻人工智能阅读(66) 评论(0) 推荐(0) 编辑

11 2024 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论