中文自动分词是中文信息处理技术中最基础、最关键的一个环节。所谓分词,就是把一个句子中的词汇按照使用时的意义切分出来。和英语单词不同,在中文里,只有段与段之间、句子与句子间有明显分割,而单词之间不存在分隔符。
目前中文信息处理包括字词处理、句法和语义处理、语料库统计方法、统计与规则相结合等方法。做语言处理时一般用准确率作为关键指标。但氖星智能提出了利用识别句子语法结构来提取关键词的方法,并用同一原则、差异原则、模糊原则、一致原则来作为关键指标。
本文从自然语言处理在智能建筑中的应用这个角度,分析氖星智能语言处理的性能。
智能建筑指以建筑物为平台,利用信息化应用系统、建筑设备管理系统等,向人们提供高效、安全的建筑环境。涉及要控制的装置包括:空调、电灯、电梯、家用电器、窗帘等。例如,根据光照度的亮和暗控制窗帘关闭和打开,控制电灯的关闭和打开;根据是否有人进入房间和温度的高低,控制空调的开关和空调温度。
这里对于空调控制提出4个应用场景:
场景1:手动调节空调
场景2:空调自动调节到某个值
场景3:空调自动调节到某人设定的值
场景4:根据识别的人调节空调到某个值
一、关键词提取测试
根据四种场景,在氖星智能语义理解工具中输入不同的句子,提取关键词。从结果看出,关键词提取都比较准确。如果有句子本身存在歧义,才会出现一些偏差。分词类型选1,表示做了同义词替换。
二、语义相似对比测试
根据四种场景,在氖星智能语义相似性对比工具中输入不同的句子,比较它们的相似度,数值越大,相似度越高;数值越小,相似度越低。
1.场景1:手动调节空调
第(3)句包含有打开空调的动作,和其他三句意思不同,所以相似度低。
(1)小明把空调打开到20度
(2)小明把空调开到20度3796
(3)小明开空调到20度-700(句子包含有打开空调的动作。)
(4)小明把空调调到20度3796
2.场景2:自动调节空调到某个值
以下四句意思相同,相似度数值高。
(1)小明进来前,空调自动调到20度。
(2)小明进来后,空调自动调到20度。18536
(3)让小明进来前,空调自动调到20度。17290
(4)空调自动调,小明进来后到20度。6113
3.场景3:自动调节空调到某人设定的值
第(2)句包含有温度不直接应用的意思,其他人还要调空调,和其他两句有所不同。
(1)有人进,空调自动调到小明设的温度。
(2)小明设的温度用于其他人进来后调空调。-1820(句子包含有温度不直接应用的意思)
(3)小明设的空调温度被其他人使用。7780
4.场景4:根据识别的人调节空调到某个值
以下3句意思相近,第1步,小明先设定温度值;第2步,智能家居系统通过图像识别装置识别出小红进来;第3步,调节空调到设定值。
(1)小红进来后,温度调到小明设定的值。
(2)识别出小红,温度调到小明设定的值。8010
(3)小明设定温度值,小红进来后调到此值。14190
三、分词准确性测试
1.当“时空”为完整词。输入“水资源时空调节”(指通过工程技术措施对水资源在一定时间或不同地域间的重新分配。和空调无关。)
分词结果:水资源时空调节
关键词提取:时空+调节++水资源+
2.当“空调”为完整词。输入:“小明来时空调自动开。”
分词结果:小明来时空调自动开。
关键词提取:小明+开+空调+来时+自动
实际得到正确结果。如果是分词错误:关键词提取结果为:小明来时空调自动开
3.当我们加大分词难度,输入“小明来时空调节能模式自动开。”这里和第1句一样,包括“时空调节”四个字。如果判断错误和第1句得到同样的关键词。
分词结果:小明来时空调节能模式自动开。
关键词提取:空调+节能++小明+开
如果是分词错误:关键词提取结果为:小明来时空调节能模式自动开
四、智能建筑中控制电梯的语句测试
对电梯控制语句进行语义相似对比。
1、控制电梯到某一层
3句意思相近,相似度数值较高。
(1)电梯到人最多的一层
(2)哪层人多,电梯到哪层3088
(3)哪层人多,然后电梯到这层620
2、对优先级进行设置。即控制电梯是里面的人按楼层还是外面的人按楼层优先级高。3句意思相同,相似度数值较高。
(1)外面优先控制电梯
(2)电梯外面优先控制10639
(3)外面电梯优先控制7954
本文从关键词提取、语义相似对比、分词准确性测试三个角度分析了氖星智能语言处理工具的性能,可以看出和传统通过计算词语频率的方法相比,关键词提取准确性提高很多,语义相似度对比效果也很好。
本人认为,本文使用的对各种场景枚举并测试的方法,是一个很好的测试和比较机器人性能方法,同样适用于其他场合,例如家政服务机器人、智能导航机器人、问答机器人等。