随笔档案「2023年3月」 - LexLuc

知识图谱手段增强的推荐系统

摘要：经典协同过滤假设行为相似的用户有着相似的偏好，根据大量用户user的行为反馈识别用户群体的感兴趣的内容item并推荐，通常使用用户内容矩阵（User-Item Interaction Matrix）来表示。显式反馈（打分）能够明确反应出用户对内容的喜好程度，但数据获取难度高，数据量小。隐式反阅读全文

posted @ 2023-03-04 18:32 LexLuc 阅读(472) 评论(0) 推荐(0)

RLHF：从GPT3.5系列到ChatGPT的临门一脚

摘要：对齐与能力能力（Capability）：模型完成一些特定任务的能力。未对齐（misalignment）：模型在训练集上表现很好，但在测试集上表现很差。说明模型有能力学习，但训练设定的目标不对^1。类似初版的GPT-3这类大模型，已经在大量的数据上训练过，也能够生成人类语言，但无法生成人类期望的阅读全文

posted @ 2023-03-04 17:13 LexLuc 阅读(776) 评论(0) 推荐(0)

梳理GPT系列模型的技术路线

摘要：GPT系列模型的历史 GPT-1 Paper 关键研究成果将transformer架构与无监督的预训练结合，相较于之前的语言模型将有非常大的提升；基于预训练之后的模型针对一个小任务进行微调（fine-tune），将凸显出比较强的自然语言理解能力； GPT-2 Paper 关键研究成果新增多任务阅读全文

posted @ 2023-03-04 17:00 LexLuc 阅读(1454) 评论(0) 推荐(0)

HBase Regions In Transition（RIT）问题解决思路及操作方法

摘要：问题描述 Java API报错 java.io.IOException: Unable to find region for 2520192391014818087 in $TABLENAME ； ERROR Utils: Aborting task org.apache.hadoop.hbase. 阅读全文

posted @ 2023-03-04 15:07 LexLuc 阅读(2982) 评论(0) 推荐(0)

HBase存储空间撑爆导致拒绝服务的问题解决思路与操作方法记录

摘要：问题描述源表数据将HBase集群内节点的存储空间撑爆，导致HBase集群内节点拒绝服务；思路筛选出没用且占用空间最大的n张表，通过hbase client删除。修复步骤查询HDFS占用空间情况：hdfs dfs -df -h；确认是否是HBase表占用的空间比较大：hdfs dfs -d 阅读全文

posted @ 2023-03-02 20:00 LexLuc 阅读(308) 评论(0) 推荐(0)

Lex个人随想乡

Attention before pay attention

03 2023 档案