为什么中文语言模型这么难

1.数据量级

gpt-4 1750亿参数

2、不同自然语言训练表现不同

中文较差

3、数据来源问题

(1)中文网站优质内容少,且需要付费,优质平台消亡

(2)很多现存平台内容质量差,如csdn

(3)水军、自媒体、营销号和饭圈太多,豆瓣,贴吧,微博小红书

(4)互联网大厂行业竞争与垄断,用户数据生态封闭

4、中文人工智能的未来

(1)最大的难点在于获取数据

posted @   万里同风  阅读(43)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 使用C#创建一个MCP客户端
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示