上一页 1 2 3 4 5 6 7 8 ··· 90 下一页
  2023年8月3日
摘要: 以前有人问我“书读了很多之后,但是其中内容都忘记了,那么读书的价值何在呢?” 我说:“训练数据在训练完模型之后就可以删掉了,只要权值文件和网络结构保存好即可” 死记硬背是没有用的,因为死记硬背是一种过拟合的能力,而一个好的机器学习模型应该是泛化性能比较好的,所以好的教育应该是培养一个人举一反三的能力 阅读全文
posted @ 2023-08-03 20:04 风生水起 阅读(27) 评论(0) 推荐(0)
摘要: John Schulman,研究科学家、OpenAI联合创始人;加州大学伯克利分校计算机科学博士,师从Pieter Abbeel。现领导OpenAI强化学习团队。 本文是对John Schulman(下文中简称为JS)的报告《Reinforcement Learning from Human Fee 阅读全文
posted @ 2023-08-03 16:24 风生水起 阅读(264) 评论(0) 推荐(0)
摘要: 关键结论: 开源社区模型不具备真正智能,更好的小模型来自大模型的 Scale Down GPT-4模型信息:采用MoE架构,16个experts,800b参数 如何减少幻觉 hallucination?scaling/retrieval/reward model 指令遵循的开源小模型被过度炒作,已经 阅读全文
posted @ 2023-08-03 16:03 风生水起 阅读(161) 评论(0) 推荐(0)
  2023年7月26日
摘要: 来源链接:https://mp.weixin.qq.com/s?__biz=MzAxOTU5NTU4MQ==&mid=2247488715&idx=1&sn=2acedd3705b27e5b9e259485f2dd9653&chksm=9bc5fc99acb2758f82b638d03ace8993 阅读全文
posted @ 2023-07-26 15:14 风生水起 阅读(398) 评论(0) 推荐(0)
  2023年7月14日
摘要: 当进行多分类任务时,通常会使用 Softmax 函数和 CrossEntropyLoss 损失函数来处理模型的输出和计算损失。 Softmax 函数: Softmax 函数用于将模型的原始输出转换为概率分布。对于一个具有 K 个类别的模型输出向量 z,Softmax 函数的定义如下: softmax 阅读全文
posted @ 2023-07-14 15:42 风生水起 阅读(199) 评论(0) 推荐(0)
  2023年7月12日
摘要: Linux文件比较命令用来比较两个文件内容的差别。主要有comm命令和diff命令。如果想对两个有序的文件进行比较,可以使用comm命令。如果要逐行比较两个文本文件,列出其不同之处可以使用diff命令。Linux还有一种基本比较命令cmp,能够实现基本的比较两个文件是否相同。 Comm命令 编辑 播 阅读全文
posted @ 2023-07-12 21:34 风生水起 阅读(218) 评论(0) 推荐(0)
  2023年7月10日
摘要: 我们如何确保人工智能系统比人类聪明得多并遵循人类意图? 目前,我们还没有一个解决方案来引导或控制潜在的超级人工智能,并防止其失控。我们当前调整人工智能的技术,例如根据人类反馈进行强化学习,依赖于人类监督人工智能的能力。但人类无法可靠地监督比我们聪明得多的人工智能系统,乙[乙] 其他假设在未来也可能被 阅读全文
posted @ 2023-07-10 20:05 风生水起 阅读(80) 评论(0) 推荐(0)
  2023年6月23日
摘要: grep 是一个强大的文本搜索工具,在命令行中常用于查找匹配指定模式的文本行。以下是一些常用的 grep 命令示例: 在文件中查找匹配模式的行:grep "pattern" filename,这将在指定的文件中查找包含匹配 "pattern" 的行,并将其打印出来。 忽略字母大小写进行匹配:grep 阅读全文
posted @ 2023-06-23 16:28 风生水起 阅读(276) 评论(0) 推荐(0)
摘要: 在Vim编辑器中,你可以使用以下命令来进行上下翻页: Ctrl + F:向下翻一页(Forward)。 Ctrl + B:向上翻一页(Backward)。 Ctrl + D:向下翻半页。 Ctrl + U:向上翻半页。 将光标移动到行首可以按下0键,到行尾可以按下 $ 键。 Vim快捷方向键和以单词 阅读全文
posted @ 2023-06-23 16:25 风生水起 阅读(315) 评论(0) 推荐(0)
  2023年6月14日
摘要: 在强化学习中,PPO(Proximal Policy Optimization)算法是一种基于策略梯度的方法,用于训练强化学习智能体。PPO算法中引入Critic模型的主要目的是为了提供一个价值估计器,用于评估状态或状态动作对的价值,从而辅助策略的更新和优化。 虽然奖励模型(Reward Model 阅读全文
posted @ 2023-06-14 18:13 风生水起 阅读(4887) 评论(1) 推荐(3)
上一页 1 2 3 4 5 6 7 8 ··· 90 下一页