03 2023 档案
摘要:经典协同过滤 假设行为相似的用户有着相似的偏好,根据大量用户user的行为反馈识别用户群体的感兴趣的内容item并推荐,通常使用用户内容矩阵(User-Item Interaction Matrix)来表示。 显式反馈(打分) 能够明确反应出用户对内容的喜好程度,但数据获取难度高,数据量小。 隐式反
阅读全文
摘要:对齐与能力 能力(Capability):模型完成一些特定任务的能力。 未对齐(misalignment):模型在训练集上表现很好,但在测试集上表现很差。说明模型有能力学习,但训练设定的目标不对^1。 类似初版的GPT-3这类大模型,已经在大量的数据上训练过,也能够生成人类语言,但无法生成人类期望的
阅读全文
摘要:GPT系列模型的历史 GPT-1 Paper 关键研究成果 将transformer架构与无监督的预训练结合,相较于之前的语言模型将有非常大的提升; 基于预训练之后的模型针对一个小任务进行微调(fine-tune),将凸显出比较强的自然语言理解能力; GPT-2 Paper 关键研究成果 新增多任务
阅读全文
摘要:问题描述 Java API报错 java.io.IOException: Unable to find region for 2520192391014818087 in $TABLENAME ; ERROR Utils: Aborting task org.apache.hadoop.hbase.
阅读全文
摘要:问题描述 源表数据将HBase集群内节点的存储空间撑爆,导致HBase集群内节点拒绝服务; 思路 筛选出没用且占用空间最大的n张表,通过hbase client删除。 修复步骤 查询HDFS占用空间情况:hdfs dfs -df -h; 确认是否是HBase表占用的空间比较大:hdfs dfs -d
阅读全文