多方言音译文字搜索的运营探索

音译字母组成的文字中,除了英语外,很多音译文字均有很多的同义不同形的存在,除了拼写错误,基本上会有一些方言的存在,比如阿拉伯语。在阿拉伯语中,目前主要有6个大类方言,和28种以上的子分类。

印地语有5大方言,即西部印地语、东部印地语、比哈尔语、拉贾斯坦语和山地印地语。每种大方言里又各有若干方言。

发音不同,对音译语言的词汇构成也会有诸多的差异,因此这针对该语言的搜索查全率与查准率提出了更高的要求。

那么遇到这种情况,我们如何来整合我们的统一习性的搜索产品架构呢。先上一张图

多方言音形文字搜索如何进行语义归一.png

如果用运营的思维去思考,我们首先想到的就是同义词,但是收集这些同义词是需要耗费很多人力的,如果各个方言之间有词典描述或者与标准语之间有对应关系的话应该就很好办了,但是现在方言体系中很少有这种词典集合的。

那么从运营和产品的思路来讲,该如何处理输入端与召回端的统一性呢,同义词表当然是最有效方法

在输入端,进行统一对应或者翻译,在召回端翻译物品和品牌词

将输入端与召回端统一进行匹配后,得到一个核心词与类目的对应表,作为类目预测的基础。

当然算法也是其中的一个重要角色,但是有时候就是替代不了人工,必须要人工进行统计和整理,除非手上有足够准确全面的方言类词典。

世界上所有的语言,从语言学上来说是没有标准语这一种描述的,就相当于汉语发音一样,普通话只是政治概念。我们用的汉语词典其实就是普通话的发音词典,并没有方言什么事。英语中美式与英式同理。

因此我们界定好运营产品的逻辑后,就要开始进行实际的操作了。具体的操作步骤如下:

1,抽取所有后台类目中的子集类目的商品的10%商品的标题作为字段提取的内容素材提取物品,品牌,型号数字,人群词等。

2,抽取用户关键词并开始组织人员进行物品词和品牌词以及型号数字词等的提取与归一化

3,两两比对进行近义词和上下位词的统计与梳理并录入系统

起到的效果:提升查全率与查准率。减少无结果率。

为排序与类目预测算法提供训练素材

还有一种方法很简单粗暴,将高搜索量的关键词进行提取,统一进行归一化翻译,用归一化的语言方式进行召回但是这种方法存在人工效率低下的问题,但是可以在短期内取得查全率与查准率的好转,所以不妨一试

不过最好进行ab对照。这样更加容易形容产出。

王小命儿
搜索产品 · jolly
认可他