首页
新研究测试机器学习以检测世界语言中的借用单词
返回

新研究测试机器学习以检测世界语言中的借用单词

2022-12-19 科技信息 By:佚名
最佳答案秘鲁天主教大学和马克斯·普朗克人类历史科学研究所的研究人员研究了机器学习算法使用一种语言中的单词列表来识别词汇借用的能力。发表在《PLOS ONE》杂志上的结果表明,仅当前的机器学习方法不足以进行借位检测,这证明需要额外的数据和专家知识来应对历史语言学最紧迫的挑战之一。词汇借用...

秘鲁天主教大学和马克斯·普朗克人类历史科学研究所的研究人员研究了机器学习算法使用一种语言中的单词列表来识别词汇借用的能力。发表在《PLOS ONE》杂志上的结果表明,仅当前的机器学习方法不足以进行借位检测,这证明需要额外的数据和专家知识来应对历史语言学最紧迫的挑战之一。

词汇借用或单词从一种语言直接转移到另一种语言已经引起了几千年的学者的兴趣,这在柏拉图的Kratylos对话中得到了证明,苏格拉底在对话中讨论了借用单词对词源学研究带来的挑战。在历史语言学中,词汇借用可帮助研究人员追踪现代语言的发展,并指出不同语言群体之间的文化联系(无论是近期的还是古代的)。但是,用于识别借用单词的技术却难以形式化,要求研究人员依赖各种代理信息以及多种语言的比较。

主持这项研究的约翰·马蒂斯·李斯特说:“词汇借用的自动检测仍然是我们在计算历史语言学中面临的最困难的任务之一。”

在当前的研究中,来自PUCP和MPI-SHH的研究人员采用了不同的机器学习技术来训练语言模型,这些模型模仿了语言学家在仅考虑一种语言提供的证据时识别借用的方式:声音或声音的组合方式当将它们与同一种语言的其他单词进行比较时,形成单词是非典型的,这通常暗示了最近的借用。然后将模型应用于世界贷款数据库的修改版本,该数据库是世界各地不同语言家族的40种语言样本的借入信息目录,目的是查看给定语言中的单词将被分类为:是否借用了不同的技术。

在许多情况下,结果令人不满意,这表明借词检测对于最常用的机器学习方法来说太困难了。但是,在特定情况下,例如在外来词比例很高的列表中或外来词主要来自单一捐助者语言的语言中,团队的词汇语言模型显示出一定的希望。

该研究的主要作者,PUCP的约翰·米勒说:“在进行了单语词汇借用的第一个实验之后,我们可以着手解决问题的其他方面,转而采用多语和跨语言方法。”

MPI的另一位共同主要作者Tiago Tresoldi补充说:“我们的计算机辅助方法以及我们即将发布的数据集,将为计算机辅助方法对语言比较和历史语言学的重要性提供新的认识。” SHH。

该研究与正在进行的努力一起解决了历史语言学中最具挑战性的问题之一,表明借词检测不能仅依靠单语信息。将来,作者希望开发出更好的集成方法,以考虑多种语言的信息。

猜你喜欢
苏州蠡口家具城(苏州蠡口)

苏州蠡口家具城(苏州蠡口)

12-18 0 阅读
Fitbit的可穿戴新传闻被称为Versa

Fitbit的可穿戴新传闻被称为Versa

12-18 0 阅读
西甲录像全场回放(西甲国家德比录像回放)

西甲录像全场回放(西甲国家德比录像回放)

10-25 0 阅读
食品安全法实施时间(关于食品安全法实施时间的介绍)

食品安全法实施时间(关于食品安全法实施时间的介绍)

12-19 0 阅读
北京市牡丹卡有什么用(北京牡丹交通卡初始密码是多少)

北京市牡丹卡有什么用(北京牡丹交通卡初始密码是多少)

12-19 0 阅读
拼多多什么情况会降权(拼多多降权会通知吗)

拼多多什么情况会降权(拼多多降权会通知吗)

12-19 0 阅读
热门推荐
苏州蠡口家具城(苏州蠡口)

苏州蠡口家具城(苏州蠡口)

12-18 0 阅读
Fitbit的可穿戴新传闻被称为Versa

Fitbit的可穿戴新传闻被称为Versa

12-18 0 阅读
西甲录像全场回放(西甲国家德比录像回放)

西甲录像全场回放(西甲国家德比录像回放)

10-25 0 阅读
食品安全法实施时间(关于食品安全法实施时间的介绍)

食品安全法实施时间(关于食品安全法实施时间的介绍)

12-19 0 阅读
北京市牡丹卡有什么用(北京牡丹交通卡初始密码是多少)

北京市牡丹卡有什么用(北京牡丹交通卡初始密码是多少)

12-19 0 阅读
拼多多什么情况会降权(拼多多降权会通知吗)

拼多多什么情况会降权(拼多多降权会通知吗)

12-19 0 阅读
愿景光(关于愿景光的介绍)

愿景光(关于愿景光的介绍)

08-13 0 阅读
12岁的女孩子早恋怎么办(12岁学生早恋怎么办)

12岁的女孩子早恋怎么办(12岁学生早恋怎么办)

12-18 0 阅读
mywill(mywi)

mywill(mywi)

12-18 0 阅读
限牌令是什么(限牌)

限牌令是什么(限牌)

12-06 0 阅读