目组。
孙翔、余敏,以及汉语言学家颜同教授等人,正在测试语音引擎。
这间面积不大的办公室里,搭建起了一个小小录音棚,用于制作音频片段。
一套由入门到专业的录音设备器材备上,从录音到混音一应俱全。
颜同教授道:“对于学习汉语的人来说,最主要的障碍莫过于掌握大量汉字。
“尤其是在文言中,单音节词占绝大部分,也因此中国古人真的是会为了指示不同的客体而专门创造出一个字的。比如针对马的毛色不同,身高不同,乃至岁数不同,就能弄出几十上百个汉字来进行命名。
“比如駥(rong),代表八尺高的马。駽(xuan),代表青黑色的马。騑(fei),代指三岁的马。
“也因此,从先秦上古到十一世纪,汉字的数量一直在增长。
“你们选择让人工智能优先学习汉语,其实难度要比学习英语复杂的多。”
徐福不解道:“颜同教授,不是应该学习汉语更简单吗?
“我们只要认识六七百个字,就已基本读写无碍了。而牛津词典却每年都在增加,现在都已经十几册牛津词典了。
“简直就是个臃肿的怪胎。”
颜同笑道:“你有这个想法,并不奇怪。我们汉语比英语,使用起来的确更加简洁明了。但是要让智能程序说话,它就不能满足与普通人的对话的水平,它需要通晓每个字的读音、用意,甚至假音、假意。
“这无疑是个庞大的工程。”
徐福道:“我一直有个疑问,汉字到底有多少个?”
颜同摇摇头道:“具体多少个,其实没有定论的。
“比如目前发现和整理的甲骨文字数量有4055个;到了东汉《说文解字》中,汉字数量增长到9353个;三国时《广雅》收字18150个;一直到北宋《类编》收录的汉字,高达33190个;之后汉字增量放缓,直到清朝《康熙字典》共收字46933个,是古代收录汉字数量最多的字书。
“不过汉字的数量并非只有这么多,现代字书如《汉语大字典》更是收字60370个,其中《难检字表》还录入了不少读音不详的汉字。
“而将佛经、道经和石刻资料中发现的异体字也包含在内的《中华字海》,收字更是高达85568个。
“除了中国以外,受汉字影响的其他国家字书中也有大量汉字收录,比如RB《大汉和词典》收字五万