从语言学习过程谈人机聊天
语言学习过程,人脑结构,单词存储位置,最短路径
学习过程,通过大量接触语言,对话,对对话中的不同类词,不同情况下出现的位置属性性质等进行聚类操作,即相同类型的词存储在较近的位置,例如名词与名词存储在距离较近的位置上,动词与动词存储在较近的位置上,不同类词之间有主干道进行连接,连接的方式即为语言中的语法结构,某类词只能与某类词搭配的原因即不同词之间只能走主干道进行互联,在大脑中,有这样的情形发生,第一反应,第一印象,脱口而出…这即可理解为存储信息的神经元之间的最短路径问题,因为两者间距离最短传输时间最短,则能构成完整的一个句子的速度最快,从而形成了最优可能,或是日常中最基本的对话,即用最基本的词类进行组合,最直接简单的对个体进行表达,若短时间内形成了多个路径,则根据上文涉及到的词进行理解可能性评估选出最大可能性。
如果该假设成立,即1不同词性的单词在大脑中存储位置有着明显的聚类性,2语言的形成按照广度优先,输出最短路径(或最短时间,类似路由协议中多种指标衡量路径的负荷)则在赋予计算机人的语言分析表达能力时,也可以采用该方法,对于方法的可能性或是理论假设的真实性,部分是可同过实验证明,部分只是假设上帝是个懒汉,通过最基本的方法,组合出最绚烂的世界(实验证明一类词是否存储在大脑相同位置,形成语言通过DFS,最短路径)。
可行性,我们做这样说明,人学会说话用了1-3年,期间大量接触了各种词汇,接触了各种词汇的组合方式,了解了不同词在语句中的放置位置,对词归类分类存储,不同区域中不断维护,在拥有了基本单词后,多个单词表达语义,吃+饭,喝+水,在建立简单此类间路径,词库的划分更加丰富,神经连接慢慢增加,慢慢组织成网络。当网路成熟后,对新进入的单词,便可获得有哪些词,有哪行性质,相互关联的词有哪些,可进一步表达为什么意思。注意计算机中词义与行为是没有联系的,所以计算机的理解是人赋予的定义,即吃饭对人代表的是一种行为,对于计算机只是一种概率的组合,出现频率,图片等。但是本人对感情的态度却绝不仅是人类的定义,对于爱情,所爱之人的权中大于自己或是权重极大,则在进行决策时,旧数据就不能进行表达,词之间的权重要进行重新划分,所以恋爱的人头脑发热,大量计算权重,使得如硬盘烧毁,CPU温度过高,计算量不能满足等发生。
计算机实现过程
实现过程有两:
一,首先对单词进行聚类clustering, 通过大量遍历文本,获得大量的单词,反复遍历,获得相应单词在句子中的成分,位置,词性等特点,将相同的词存放在距离较近的位置,如磁盘相同磁道扇区盘片(涉及分布式存储),在形成句子时,根据已经构建的各种词类型的通路(语法)返回最快的即为对话。对于新来到的词在根据分类classification的方法,对其进行分解,通过词之间的转化关系得到进一步的关系。
二,通过pagerank方法,直接对已经分好类的单词进行组网链接的排名,不同单词可连接的单词数量种类都不一样,每个单词的权重也不同,即人们经常使用的单词是各有偏重。这样巨大的单词之间就形成了一个巨大的二维矩阵,就像互联网上的页面,采用Google的“让页面自己投票”pagerank方法,获得单词间的跳转可能,计算方法依旧采用已经成功应用的mapreduce,对于之前对话中提到的内容直接返回可能值即可。
分布式计算平台,图数据库的发展,大数据时代的到来,各种技术的成熟发展,相信很快就能出现能和人对话交流的机器。互联网又将刮起一阵飓风。深夜有感而发欢迎留言讨论