重新审视我们的语言根源

当今世界上几乎一半的人讲印欧语,这种语言的起源可以追溯到数千年前的单一母语。 英语、俄语、印度斯坦语、拉丁语和梵语等不同的语言都可以追溯到这种古老的语言。

在过去的几百年里,语言学家对第一种印欧语言有了很多了解,包括它使用的许多单词以及控制它的一些语法规则。 在此过程中,他们提出了关于该语言的原始使用者是谁、他们生活在哪里、如何生活以及他们的语言如何广泛传播的理论。

大多数语言学家认为,这些说话者是大约 6000 年前生活在乌克兰和俄罗斯西部草原上的游牧民族。 然而,少数人认为其起源早于 2,000 至 3,000 年前,发生在安纳托利亚(今土耳其境内)的一个农民社区。 现在,一项新的分析使用了进化生物学的技术,结果支持后者,尽管草原在后来发挥了重要作用。

新分析中使用的计算技术在语言学家中引起了激烈争议。 但其支持者表示,它有望为该领域带来更多的定量严谨性,并可能将关键日期推至更远的过去,就像考古学领域的放射性碳测年一样。

“我认为语言学可能会面临某种相当于放射性碳革命的局面,”利马天主教大学历史语言学家、《 新研究; 他描述了计算方法 2021年 语言学年度评论

揭示已消亡的语言

要了解正在发生的事情,了解印欧语言研究的发展过程会有所帮助。

16 世纪,随着旅行和贸易使欧洲人接触到更多的外语,学者们对语言之间的相互关系以及它们可能起源于何处越来越感兴趣。

18 世纪末,驻印度的英国法官威廉·琼斯爵士注意到梵语、拉丁语和希腊语在词汇和语法上的相似之处,这绝非巧合。

历史语言学家已经重建了印欧语言祖先的大部分语法和词汇,以至于我们可以拼凑出对话的声音。 打开隐藏式字幕即可查看此处呈现的重建的翻译。

图片来源:AB ALPHA BETA


例如,英语单词“父亲”在梵语中是“pitar”,在拉丁语和希腊语中是“pater”。 “兄弟”在梵语中是“bhratar”,在拉丁语中是“frater”。 尽管琼斯实际上并不是第一个注意到这些相似之处的人,但他关于必须有共同起源的声明有助于刺激比较语言和追踪它们之间关系的运动。

1882 年,雅各布·格林 (Jacob Grimm) 提出了后来被称为格林定律的重大进步。 格林如今最为人所知的是格林兄弟之一,他收集并出版了格林童话。 但雅各布·格林除了是一位民俗学家之外,还是一位重要的语言学家。

格林表明,随着语言的发展,声音会以有规律的方式发生变化,这有助于理解语言之间的关系。 例如,印欧语中表示“二”的词是“dwo”。 但“dwo”是许多词中的一个,当它成为英语和德语的共同祖先时,其首字母“d”变成了“t”。 后来,“t”音变成了现代德语祖先中的“ts”。 因此,印欧语单词“dwo”在英语中变成“two”,在现代德语中变成“zwei”(发音为“tsvai”)。 其他以“d”音开头的单词也有类似的表现。 学者们发现了许多这样的声音转换模式,当一种语言催生另一种语言时,每种声音转换模式都遵循不同的规则。

除了这些声音变化之外,语言学家还研究单词的形成方式,例如英语添加“s”以使单词复数的方式。 他们还研究单词的排列方式,例如英语将主语放在动词之前,将动词放在宾语之前的方式。 当然,他们也会关注共享词汇。 通过比较不同语言的所有这些特征,语言学家能够绘制语言如何相互传承的图谱,并将它们放置在显示它们关系的家谱中。

格林定律描述了语言中声音变化的规律性。 该图表显示了原始印欧语的一些发音如何在日耳曼语言(例如英语)中发生变化,而在非日耳曼语言(例如法语)中保持不变。

如今,语言学家对印欧语系的基础知识以及它们之间的相互关系达成了广泛的共识。 他们一致认为,被他们称为原始印欧语的原始语言分为 10 或 11 个主要分支,其中两个现已灭绝。

他们还普遍同意将语言放在主要分支中的位置。 例如,他们知道斜体分支给我们带来了拉丁语,而拉丁语本身又发展成了法语、西班牙语和意大利语等罗曼语系语言。 日耳曼语支发展成为德语、荷兰语和英语等语言。 印度-伊朗语支产生了印地语、孟加拉语、波斯语和库尔德语等语言。

祖先的生活方式

经过 追踪语言的变化 追溯其源头,语言学家推断出原始印欧语的许多基本特征,包括一些词汇、单词的形成方式以及它们如何发音的一些想法。 许多语言学家认为他们甚至发现了第一批原始印欧人可能如何生活的线索。

例如,原始印欧语中有一个词表示轴,两个词表示轮,一个词表示线束杆,还有一个动词表示“通过车辆运输”。 考古学家知道,轮轴技术大约在 6000 年前发明,这表明原始印欧语系的历史不可能比这更古老。 如果它更古老——换句话说,如果它在出现表示车轴和线束杆的单词之前就开始分裂成其他语言——那么它的子语言就必须为这些东西发明自己的单词。 他们使用相同的词语这一事实表明,分裂是在这些技术开发出来之后开始的。

该语言中的其他词表明,最早的印欧语使用者可能熟悉马、牛和牧羊业、乳制品、羊毛、蜂蜜和蜂蜜酒。 他们似乎有酋长(“reg”这个词给了我们英语单词“regal”),并且可能是父权制的(他们有“姻亲”的词,仅适用于家庭中的新娘一方,这表明丈夫的家庭被认为是主要的)。

许多语言学家认为这个词汇描绘了牧民(游牧民族)的形象,他们 二手马 和货车。 结合大约 5000 年前人类从草原迅速扩散到中欧的遗传证据,他们得出结论,印欧语言走出草原并与牧民一起传播。

根据一种理论,印欧语言可能是由乘坐马车传播的,就像这个来自安纳托利亚的青铜时代早期铜模型。 图片来源:伊迪丝·佩里·查普曼基金,1966 年/公共领域

然而在 1987 年, 剑桥考古学家科林·伦弗鲁 拒绝印欧语系的牧民起源。 伦弗鲁推断,印欧语言的急剧传播肯定需要比与游牧民族的乌合之众接触所提供的更大的推动力。 伦弗鲁认为,要实现单一语言在从爱尔兰到印度的地区占据主导地位的重大转变,就需要一支更强大的力量。

他在农业的传播中发现了这一点。 简而言之,当人们从事农业时,他们的人口增长速度比他们的狩猎和采集邻居的人口增长得更快。 随着农业的扩展,语言也随之变化。 考古证据表明,农业开始从安纳托利亚迁出,比牧民迁出草原早了大约 3000 年。 因此,伦弗鲁得出结论,农民是印欧语传播背后的真正力量。 当牧民开始迁移时,他们遇到的农民已经讲印欧语。

伦弗鲁在很大程度上驳斥了草原假说所依据的语言推理。 他说,“轮子”、“马车杆”等词语的共性可以通过平行变化来解释,即不同语言在创建新词时借鉴相同的基本含义。

例如,原始印欧语中“轮”这个词的原始含义似乎意味着圆形或转弯之类的东西。 不同的语言可能继承了这个基本含义,并在创建自己的“轮”词时独立地借鉴了它。

同样,如果表示马车杆的“thill”一词具有更一般的意思,即棍子或杆子,那么它可能会被不止一种语言用来表示马车杆。

寻找严谨

诸如此类的争论促使一些语言学家尝试采用更定量的方法来重建印欧语的历史。 为此,他们借用了生物学中常用的技术,根据可测量的特征构建进化树。 他们的方法被称为计算系统发育学,将语言视为不断进化的系统,类似于生物有机体。 但语言学技术并不像生物学中的计算系统发育学那样追踪 DNA 的变化,而是追踪单词。 具体来说,大多数分析都着眼于在不同语言中表示相同事物的单词模式,并且可以追溯到相同的原始印欧语根。 这些模式越相似,人们通常认为语言的相关性越密切。

虽然这听起来像是语言学家长期使用的语言树,但计算系统发生学产生的树远没有那么主观:该方法受到严格的算法和明确规定的规则的控制。

本质上,计算机程序的工作原理是绘制语言树并根据所有数据和假设估计其正确的概率。 然后程序对该树进行一次更改并比较概率分数,保留哪棵树的可能性更大。 这个过程会重复,有时会重复数百万次,从而产生一组最可能的树。

这些树显示了语言之间的关系有多么密切。 为了估计语言起源和相互分化的时间,研究人员还根据专家的最佳估计,向计算机程序提供了他们认为不同语言存在的日期。 例如,拉丁语存在于大约 2,050 年前,古冰岛语存在于大约 800 年前,迈锡尼希腊语存在于大约 3,350 年前。 计算机程序使用这些锚定日期来创建时间估计,包括印欧语最终起源的日期。

研究结果可以与语言使用地点的历史记录相结合,以帮助找出它们在地理上如何传播的可能地图。 这些日期可以与考古记录和古代人类 DNA 研究相结合,看看印欧语是否与早期农业起源或后来的草原起源相符。

矛盾的结果

一项这样的分析, 2012年出版指出印欧语起源于大约9000年前的安纳托利亚,支持了印欧语起源于农民的理论。 但仅仅三年后,另一个团队使用了几乎相同的数据 得出结论 起源于 6000 年前的草原,支持了相反的观点,即牧民是最早的印欧语使用者。 两个团队如何从如此相似的单词列表中得出如此不同的结论?

Heggarty 深入研究了这个问题,发现问题在于用于这两项早期分析的数据集,该数据集主要基于 20 世纪 60 年代最初整理的数据集 伊西多尔·戴恩,耶鲁大学语言学家。 Dyen 的数据集对于 Dyen 正在进行的研究来说并不是问题,但当用于新的计算技术时,它却偏离了研究结果。 当每个词根都有一个单词时,计算系统发育效果最好,这意味着研究人员有兴趣追踪。 但例如,“肮脏”的意思在英语中可以有许多同义词,包括“肮脏”和“不干净”。 Dyen 数据集包含某些语言中某些单词的同义词,但其他语言中则没有。

赫加蒂意识到,如果包含任何同义词,就会使数据集更难用于新的计算技术。 但同义词数量不一致——某些语言的同义词数量较多,而另一些语言的同义词数量较少——确实导致了计算的失败。 “我说,‘听着,我们必须从头开始彻底重新构建这个数据库。 我们必须做得更好,”赫加蒂说。

因此,他和他的同事选择了他们想要追踪的 170 个核心含义,即语言会保留的基本单词,例如用于计数的单词、身体部位、颜色以及房屋、山、笑声和夜晚等单词。 然后,他们召集了 80 多名语言学家组成的团队,让他们为 161 种印欧语言中的每一种语言确定每个概念的主要单词。 只有这个词,而不是任何同义词,都进入了分析。

“我们以前所未有的方式用它创建了一个高度一致的数据库,”赫加蒂说。 “我们做了很多分析,以确保我们选择了最合适的含义。 如果你不进行尽职调查,你的结果将无效。”

当赫加蒂的团队使用这个新数据库重新进行分析时,他们的发现与早期的农民起源理论基本一致,将起源准确地定位在大约 8,000 年前的安纳托利亚。 从那里,该语言的一些分支向东移动,并产生了包括波斯语和印度斯坦语在内的语言。 其他分支向西迁移,最终发展成希腊语和阿尔巴尼亚语。

但分析也承认,草原作为大多数欧洲语言的第二故乡发挥着重要作用:一支支系从安纳托利亚向北到达草原后,从那里辐射到北欧,诞生了日耳曼语、意大利语、盖尔语和其他语言。欧洲语系。

不相信

然而,主流历史语言学家仍然对计算系统发育学,特别是新结果持怀疑态度。 主要的批评是该方法主要依赖于词汇,而忽略了单词的发音和结构,例如组成单词的词干、前缀和后缀。 批评者表示,无论计算多么复杂,单词含义本身并不能提供足够的信息来得出明确的结论。

托马斯·奥兰德哥本哈根大学的历史语言学家表示,依赖相关单词的问题在于,语言之间一直在互相借用单词。 仅仅看到两种语言之间存在共同的单词并不意味着这些语言来自同一个母体。 例如,说英语的人现在使用“寿司”这个词,这一事实并不意味着英语和日语是相关语言。

相反,大多数语言学家倾向于相信声音的变化——例如“dwo”——“two”——“zwei”的变化——以及单词结构的相似性,这些相似性可以表明它们起源于哪种语言。单词含义也可以是奥兰德说,这种混合,但他们无法单独做到这一点。

赫加蒂的树还有其他问题。 例如,它显示凯尔特语言与日耳曼语言密切相关。 但奥兰德表示,大多数历史语言学家认为凯尔特语言与意大利语言的关系更为密切。

“这再次令人惊讶,”奥兰德说。 “我认为‘令人惊讶’可以翻译为‘这可能意味着他们的方法是错误的。’”

奥兰德认为,更有可能的是,凯尔特语和日耳曼语支长期紧密共存,并互相借用了词语。 他说,仅基于共同词义的分析表明它们的相关性比实际更为密切。

剑桥大学的语言学家詹姆斯·克拉克森 (James Clackson) 也发现原始印欧语的早期年代以及该树的其他细节并不令人信服。 但他认为计算系统发育学值得研究。 他说,如果不出意外的话,最新的研究创建了一个非常高质量的新数据集,这对于历史语言学家来说非常重要,因为他们寻求解决其领域中的许多未解决的问题。

与此同时,计算系统发育学的倡导者可能会继续推广他们的方法,并从更广泛的学科中寻求合法性。 赫加蒂认为,随着主流语言学家对这种方法及其使用的高质量数据越来越满意,他们可能会更多地倾听它。

克拉克森就是其中之一,他表示他愿意被说服。 “这是一个正在发展的领域,值得关注,”他说。


10.1146/可知-021224-1

库尔特·克莱纳 (Kurt Kleiner) 是一位居住在多伦多的自由撰稿人。

文章原文 出现在 可知杂志,年度评论的独立新闻事业。

2024-02-16 19:00:00
1708154917

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​