12 2024 档案
摘要:
图片由Gabriel Sollmann提供,来源于Unsplash 前言:在人工智能快速发展的时代,AI正在从协助工具向独立内容生产者转变,甚至进入科学研究领域。然而,AI在科学写作中的能力是否足以胜任?作者通过一系列案例,揭示了AI生成内容在科学期刊中的泛滥,以及由此引发的编辑困境和学术信任危机。
阅读全文

摘要:
欢迎来到2025年,这是一个将重新定义我们对科技思考方式的年份。人工智能(AI)已经从一个热门话题发展为驱动各领域的无形力量,从个性化医疗到更智能的城市基础设施,它无处不在。如今,人工智能已经成为创新的骨干,悄然融入我们的生活,以我们刚刚开始理解的方式发挥作用。 但我们接下来会走向何方?和我一起解读
阅读全文

摘要:
大型语言模型(LLMs)如GPT可以生成文本、回答问题并协助完成许多任务。然而,它们是被动的,这意味着它们仅根据已学到的模式对接收到的输入作出响应。LLMs无法自行决策;除此之外,它们无法规划或适应变化的环境。 主动式AI(代理式)的出现正是为了解决这一问题。与生成式AI LLMs不同,主动式AI(
阅读全文

摘要:
上一篇:《创建用于预测序列的人工智能模型(五),调整模型的超参数》 序言:在完成初步的模型研发后,接下来的重点是探索和优化超参数。通过合理调整超参数(如学习率、动量参数、神经元数量等),可以进一步提高模型的性能和准确性。这一过程需要结合工具(如 Keras Tuner)进行自动化测试和优化,从而高效
阅读全文

摘要:
上一篇:《创建用于预测序列的人工智能模型(四),评估模型的能力》 序言:人工智能模型的研发过程实际上是一个多阶段的迭代过程,包括数据准备、模型架构设计、训练和验证,而超参数的调整和优化则始终贯穿其中,是提升模型性能的重要环节。 调整学习率 在前面的例子中,你可能还记得,我们使用了如下的优化器来编译模
阅读全文

摘要:
上一篇:《创建用于预测序列的人工智能模型(三),训练模型》 序言:对于当前的动则几千亿的大语言模型来说,训练的过程可以持续几天几周基于几个月,这取决于拥有的硬件数量以及总要训练的参数。模型训练完成后就进入模型的评估验证过程,一般会不断的重复直到优化完成。 评估人工智能模型的性能 当你训练好了一个 D
阅读全文

摘要:过去七天的 AI 新闻如狂风暴雨般涌来,AI 世界发生了许多重大变化。在这篇文章中,我们将深入探讨来自 Llama 3.3 70B、GPT-4o 和 Claude 3.5 Sonnet 等主要参与者的最新 AI 动态。 12 月 7 日,Meta 将发布其年度最后一个 AI 模型。而就在昨天(12
阅读全文
摘要:序言:我们在从事人工智能模型的研发时,当数据集,模型架构都准确好了,其实训练从代码角度来看,很简单粗暴。 训练模型 训练模型非常简单,只需调用 model.fit 方法,传入你的数据集,并指定训练的轮数(epochs): model.fit(dataset, epochs=100, verbose=
阅读全文
摘要:上一篇:《创建用于预测序列的人工智能模型,设计数据集》 序言:在前一篇中,我们创建了用于训练人工智能模型的数据集。接下来,就要设计模型的架构了。其实,人工智能模型的开发关键并不在于代码量,而在于其中的数学原理和数据集(即人类经验)的深度与质量。 创建模型的架构(一个DNN神经网络) 现在你已经将数据
阅读全文
摘要:上一篇:《预测大师的秘籍:揭开时间序列的真相》 序言:一章介绍了序列数据以及时间序列的特性,包括季节性、趋势、自相关性和噪声。你创建了一个用于预测的合成序列,并探索了基本的统计预测方法。在接下来的章节中,你将系统地学习如何利用人工智能模型(机器学习模型)进行时间序列预测。这包括:数据集的创建、模型的
阅读全文
摘要:作者:迈克尔·海因 作者提供的图片 AI 市场如同一个过度拥挤的俱乐部,数不清的 DJ 同时打碟,舞池里则像一袋注射了兴奋剂的跳蚤。经过一小时的时事通讯“探险”、电子邮件整理,随后又进行了一次 YouTube 探索,我的精力已经有些耗尽。在 AI 丛林中保持清醒和追踪进展,绝对是一项极具挑战的工作。
阅读全文
摘要:Google发布了它所称的“推理”AI模型——但这还处于实验阶段,根据我们简短的测试,显然仍有改进空间。 这个新模型名为Gemini 2.0 Flash Thinking Experimental(名字有点长,确实),可以在Google的AI原型平台AI Studio中使用。模型卡片描述它是“最适合
阅读全文
摘要:Dario Amodei(Anthropic 首席执行官)最近与 Lex Fridman 进行了播客。 Anthropic 是 Claude 背后的公司,Claude 是目前领先且最有效的商业大语言模型之一。 他谈到了几个话题,但今天我们将重点讨论一个——AI的未来会是什么样子? 我们将首先探讨我们
阅读全文
摘要:上一篇:《用人工智能模型预测股市和加密货币的K线图》 序言:预测时间序列,乍听之下似乎离我们普通人很遥远,甚至有些晦涩难懂。其实该技术早已渗透进了我们的日常生活。天气预报每天提醒你是否带伞、股市的波动影响你的投资决策、电力公司的负荷管理让你享受稳定的电网服务……这些无不依赖时间序列分析的强大力量。本
阅读全文
摘要:人类是骄傲的生物。最近,关于AI是否具备推理能力的争论愈演愈烈。几个月前发布的OpenAI的o1模型引发了各种反应,有人认为它“不过是些障眼法”,也有人称之为“AI的新范式”。 AI的推理能力(或者缺乏推理能力)似乎触动了我们许多人敏感的神经。我怀疑,承认AI会“推理”被视为对人类自尊的打击,因为推
阅读全文
摘要:上一篇:《人工智能规模法则的起源、分析、内幕以及对齐方法》 (18)《人工智能的宪法:用AI的反馈来确保AI的无害性》(2022年),作者:Yuntao、Saurav、Sandipan、Amanda、Jackson、Jones、Chen、Anna、Mirhoseini、McKinnon、Chen、O
阅读全文
摘要:
上一篇:《人工智能大语言模型起源篇,低秩微调(LoRA)》 (14)Rae 和同事(包括78位合著者!)于2022年发表的《Scaling Language Models: Methods, Analysis & Insights from Training Gopher》,https://arxi
阅读全文

摘要:上一篇: 《规模法则(Scaling Law)与参数效率的提高》 序言:您在找工作时会不会经常听到LoRA微调,这项技术的来源就是这里了。 (12)Hu、Shen、Wallis、Allen-Zhu、Li、L Wang、S Wang 和 Chen 于2021年发表的《LoRA: Low-Rank Ad
阅读全文
摘要:上一篇:《人工智能大语言模型起源篇(三),模型规模与参数效率》 规模法则与效率提高 如果你想了解更多关于提高变换器效率的各种技术,我推荐阅读2020年的《Efficient Transformers: A Survey》https://arxiv.org/abs/2009.06732论文,接着是20
阅读全文
摘要:上一篇:《人工智能大语言模型起源篇(一),从哪里开始》 (5)Howard 和 Ruder 于2018年发表的《Universal Language Model Fine-tuning for Text Classification》,https://arxiv.org/abs/1801.06146
阅读全文
摘要:序言:许多人最初接触人工智能都是在ChatGPT火热之际,并且大多停留在应用层面。对于希望了解其技术根源的人来说,往往难以找到方向。因此,我们编写了《人工智能大语言模型起源篇》,旨在帮助读者找到正确的学习路径,了解大型语言模型的大致起源。本文将分为三个部分,介绍当前主流的大型语言模型架构Transf
阅读全文
摘要:前一篇:《从爱尔兰歌曲到莎士比亚:LSTM文本生成模型的优化之旅》 前言:加密货币市场昨日大幅下跌,一天内市值蒸发逾70亿 人民币。有人可能会问,如果使用人工智能模型预测市场的涨跌,是否能避免损失?作者在此指出,加密货币市场和股市具有高度的主观性,受人为因素、情绪波动和外界干预的显著影响,而非单纯依
阅读全文
摘要:Sora现已上线 期待已久的时刻终于到来:OpenAI正式推出了备受期待的AI驱动视频生成工具——Sora。这款工具于2024年12月发布,为从文本和图像生成动态、创意且视觉引人注目的视频提供了尖端解决方案。以下是关于Sora的深度解析,包括它的功能亮点、重要意义、价格结构以及如何重塑视频制作行业。
阅读全文
摘要:上一篇:《搭建人工智能多模态大语言模型的通用方法》 在今天的文章中,我将回顾2024年有关多模态大语言模型(LLM)的文献资料,主要关注过去几个月发布的工作,以确保范围合理。 因此,这并不是一个关于多模态LLM的历史性概述或全面回顾,而是对最新进展的简要探讨。同时,我会尽量保持总结简洁,不加太多无关
阅读全文
摘要:上一篇:《理解多模态大语言模型,主流技术与最新模型简介》 序言:动手搭建建多模态LLM的两大通用主流方法是:统一嵌入-解码器架构和跨模态注意力架构,它们都是通过利用图像嵌入与投影、跨注意力机制等技术来实现的。 构建多模态 LLM 的常见方法 构建多模态 LLM(大型语言模型)主要有两种方法: 方法
阅读全文
摘要:上一篇:《用谷歌经典ML方法方法来设计生成式人工智能语言模型》 序言:市场上所谓的开源大语言模型并不完全开源,通常只提供权重和少量工具,而架构、训练数据集、训练方法及代码等关键内容并未公开。因此,要真正掌握人工智能模型,仍需从基础出发。本篇文章将通过传统方法重新构建一个语言模型,以帮助大家理解语言模
阅读全文
摘要:人工智能代理(AI Agents)的演变经历了从简单的起步阶段到如今系统化的进展,这些系统结合了内部控制机制、外部语境基础以及认知输入,从而实现了更复杂和动态的交互。 大型语言模型(LLMs)在知识和推理能力方面存在固有限制。具备语言能力的人工智能代理通过将LLMs与内部记忆和外部环境连接起来,利用
阅读全文
摘要:序言:近几个月非常精彩。AI研究领域又有了许多新进展,其中包括两个诺贝尔奖授予了AI领域,以及几篇有趣的研究论文发表。 其中,Meta AI 发布了最新的 Llama 3.2 模型,包括 1B 和 3B 规模的大语言模型的开源版本,以及两个多模态模型。 在接下来的4个篇章中,我将解释多模态大语言模型
阅读全文
摘要:序言:新技术的普及往往并非一帆风顺。每当生产力发展遇到瓶颈,人类社会总需要一种新的技术来推动经济进步。对陌生事物的怀疑和不信任是正常的,反而如果每个人都一致认为某项技术完美无缺,那可能就需要警惕了。以英特尔为代表的企业对AI的谨慎态度,恰恰反映了大多数企业的真实想法。 AI将在未来几年自动化或辅助我
阅读全文
摘要:上一篇:《人工智能模型学习到的知识是怎样的一种存在?》 序言:在接下来的几篇中,我们将学习如何利用 TensorFlow 来生成文本。需要注意的是,我们这里并不使用当前最热门的 Transformer 模型,而是探讨传统的机器学习方法。这么做的目的,是让你对当前主流的生成式人工智能模型有一个对比性的
阅读全文
摘要:前言:AI是核级威胁吗?本文讨论了美国关于人工智能(AI)的“曼哈顿计划”提议,并分析了其对美国未来可能带来的影响,尤其是是否能维持美国在全球的霸主地位。以下是文章的中文口语化网络翻译: 震惊。 这就是大多数人在读完《美中经济安全审查委员会》的2024年度报告后,感受到的情绪。他们得出的结论是,人工
阅读全文
摘要:序言:在这个充满变革的时代,人工智能正在悄然重塑我们的世界。从最初的大型语言模型到如今智能体的崛起,技术的进步速度远超我们的想象。这个故事,带你走进AI的未来,揭示那些被隐藏在背后的突破与机遇。随着智能体的出现,AI的边界似乎不再受限,我们正站在一个新纪元的起点。你准备好迎接这场革命了吗? 现在,说
阅读全文
摘要:序言:重新训练人工智能大型模型是一项复杂且高成本的任务,尤其对于当前的LLM(大型语言模型)来说,全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支持。因此,无论在科学研究还是实际应用中,人们通常依赖开源的预训练模型及其已经学习到的各种特征信息,就像使
阅读全文
摘要:生成式人工智能(GenAI)为我们开启了更快的开发周期、更少的技术和维护工作,以及之前看起来无法实现的创新应用场景的大门。但与此同时,它也带来了新的风险——比如幻觉问题,以及对第三方API的依赖。 对于数据科学家和机器学习团队来说,这一变革直接影响了他们的工作方式。一种新的AI项目类型已经出现,其中
阅读全文