作为由人类自身创造的符号,自然语言理解一直是机器学习界不断研究的方向。自然语言理解使用了大量编译原理相关的技术,例如词法分析、语法分析等。然而,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对句子的约束和影响导致的理解不准确乃至错误问题经常发生。
如何利用机器学习技术进行自然语言的的深度理解,分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的具体含义等一直是科研院所和各大企业持续发力的方向。
2020年6月,在训练约2000亿个单词、烧掉几千万美元后,马斯克OpenAI推出的强大AI模型——GPT-3一炮而红。全球数以万计的开发人员正在基于该平台开展工作,并广泛应用于电子邮件助理、语言翻译、文档检索、游戏等领域。
与此同时,云创大数据也在自然语言理解领域进行创新,基于高性能人工智能数据处理一体机(云创研发的高维向量计算机)提供的强大算力,开发了语义搜索技术。高维向量计算机拥有60个处理单元,比对快捷,一秒钟可做7亿次比对,成本降低10倍以上。本机作为主流的人工智能识别算法后段的比对专用机,与各家算法兼容。凭借以上优势,该产品自推出以来便获得了不俗评价。
高维向量计算机
语义搜索技术应用语义理解而非关键词匹配的方法快速查找出需要搜索的内容,在0.1秒内即可返回结果,可广泛应用于专利搜索、电子病历检索、论文检索、论文查重、资料搜索、法律文献检索等多种场景中。
语义球
● 专利搜索场景。利用语义搜索技术,可以准确查找到其他企事业单位已经成功申请专利的描述、编号等信息,方便在专利申请时避免重复申请等相关问题。
● 电子病历检索场景。针对医学知识图谱中关键技术进行研究,形成了面向特定医疗领域的知识服务平台,可应用于电子病例检索、处方开具、医疗知识问答等医疗服务中。
医疗知识图谱
医疗知识问答系统
● 论文检索场景。查阅论文时,检索的结果往往虽多,但不符合个人所需。借助语义搜索技术,只需简单描述一句话,即可准确检索到用户需要且有参考价值的论文。
● 论文查重场景。针对论文写作时将抄袭的中文论文先翻译成英语,再翻译成中文,或者是采用替换词语、改变表达的方式等规避查重等问题。借助语义搜索技术,可以对其进行准确检测,发现论文写作时的抄袭、剽窃乱象。
● 资料搜索场景。与论文搜索场景类似,通过语义搜索技术,只需简短的一句话,即可实现对资料的搜索,且命中率和准确率很高。
● 法律文献检索场景。语义搜索技术通过对历史上相似案件详细信息的查询和梳理,可便于律师开展有效辩护,司法人员开展高效工作等。
欢迎不同场景的用户单位与我们联系!如有合作意向,请联系:
15722710158(李先生,微信同号)