来源:https://mp.weixin.qq.com/s/euiziBV1tp5hmXZQeh6Lqw
摘 要:随着大语言模型与神经机器翻译技术的发展,探究二者在科技语篇翻译中的语言特征和差异,对于提升译文质量、优化机译应用具有重要意义。本文以信息与通讯(ICT)技术文本为语料,采用定性与定量方法,分别将大语言模型和传统神经机器翻译平台(如谷歌翻译)生成的汉英译文,与人工译文进行系统对比。研究发现,谷歌翻译在词汇、句法和语义方面的综合表现最优,ChatGPT在词汇的多样性选择方面有突出优势,DeepSeek在句法的灵活使用方面有一定的潜力。本研究为ICT领域翻译实践中合理选择机器翻译工具、提升译文质量提供了实证参考。
关键词:信息与通讯文本;神经机器翻译;大语言模型;语言特征
作者简介:郑雨萱:zyx2756233849@126.com;刘艳梅,lymcx@126.com;
文章原载于中国科技翻译,2025,38(04):17-20+39.
一、引言
随着计算机技术的发展和算力、算法的进步,机器翻译经历了从基于实例、统计方法到神经网络翻译(Neural Machine Translation, NMT,下文简称为NMT)技术的迭代发展,翻译质量显著提高。当前,基于海量语料训练的大语言模型(Large Language Model, LLM, 下文简称LLM)在翻译领域展现出新优势,为翻译实践提供了新的技术选择。已有研究表明,机器翻译技术尤其适用于以信息传递为核心的科技语篇翻译。根据2024年《中国翻译行业发展报告》,信息与通信技术(Information and Communication Technology, ICT)领域已占翻译市场37.5%的份额,其中超半数项目采用机器翻译,80%以上应用大模型技术,这印证了NMT与LLM在科技翻译中的重要性日益提升。
二、研究现状
近年来,学界围绕神经机器翻译(NMT)与大语言模型(LLM)在不同语篇类型中的翻译表现展开了多角度的探索。已有研究涵盖了文学、政治、经济等领域,并采用了多种翻译质量评估方法与语言分析手段,但对科技语篇,尤其是ICT专业文本语言特征的系统性分析仍显不足。该领域现有研究大多聚焦于译后评估或个别特征分析,缺乏LLM、NMT与人工译文之间多维语言特征对比的综合研究,定性与定量方法结合使用的案例亦较有限。鉴于此,本文将定量与定性方法结合,选取三大主流LLM(ChatGPT、DeepSeek、文心一言)和两个神经网络机器翻译平台(谷歌翻译、有道翻译)产出的ICT汉译英译文,对比分析LLM、NMT、人工翻译三者之间在词汇、句法、语义方面存在的特征差异,及LLM和NMT在表述ICT语篇风格方面具备的优势与不足。
三、研究方法和研究思路
本文采用语料库工具、python自然语言处理功能和可视化分析方法对人工译文、LLM和NMT译文的语言特征和差异进行系统统计和对比分析。
(一)文本来源为比较和分析国内外LLM、NMT和语言特征上的差异,在确保语境连贯性的同时,使语料最大程度地覆盖ICT行业的专业术语、关键概念和主要使用场景,本文选择ICT行业知名企业——中兴通讯的“2024年上半年核心技术创新”报告为语料。为使译文来源更加全面,本文选择三个LLM(ChatGPT、DeepSeek、文心一言)和两个NMT平台(谷歌翻译和有道翻译)作为译文来源。通过在LLM使用“汉译英”翻译指令,在NMT平台直接上传文本获取译文,自建ChatGPT语料库、文心一言语料库、DeepSeek语料库、有道翻译语料库和谷歌翻译语料库。下载中兴通讯官网英文版2024半年度报告的该章节作为人工译文语料库。
(二)语言特征分析语言特征主要分为形式特征和语义特征两大类。在语言形式特征方面,本文使用兰卡斯特大学的词性标注平台和Antconc4.3.1对上述自建语料库进行标注和统计分析。
本研究从词汇和句法两个维度探究译文形式特征。在词汇层面,通过形符数分析检测译文的完整性和流畅度,其与人工译文的差值反映机器译文的增译或漏译;STTR用于衡量译文词汇丰富度的关键指标;平均词长反映词汇复杂度;词汇密度用于评估译文的信息量。此外,本研究引入奇普夫定律对词汇多样性进行可视化分析。在句法层面,使用平均句长反映句式复杂度,从句和被动语态占比体现ICT语篇的典型特征,从句类型则揭示句式多样性。最后,采用Python自然语言处理工具计算BLEU值,综合评估各机译平台的语言形式得分。
在语义特征方面,本文使用BERTScore语义质量评估指标和实例分析探究译文语义特征。BERTScore利用预训练模型,计算词嵌入之间的余弦相似度,能发现细微的语义差异,弥补单从语言形式特征分析译文的不足。实例分析则从译文情感传达和术语准确性方面对BERTScore的评估进行补充。
四、研究结果及讨论
结合上述研究方法,本节从词汇特征、句法特征和语义特征方面对译文表现展开讨论。
(一)词汇特征通过考察形符数、词汇丰富度、词汇密度和平均词长等关键指标,本文发现NMT和LLM在词汇特征上呈现出明显差异:NMT,尤其是谷歌翻译,在保持译文流畅度和忠实度方面优势明显,各项词汇特征更接近人工译文,从而获得更高的BLEU得分;而LLM在词汇丰富度和信息量方面表现突出,但其流畅度和可读性有待提升。
在NMT领域,谷歌翻译和有道翻译展现出不同的词汇特征,其中谷歌翻译的综合表现占优。谷歌翻译的形符差值绝对值最小,表明其漏译最少,译文流畅度和忠实度最佳;词汇密度与人工译文最为接近,词长适中,词汇难度和词汇丰富度最低,阅读体验最佳。这与基于语言形式特征的质量评估得分(BLEU值)一致,谷歌翻译在形式特征上的得分最高,与人工译文最为接近。
LLM在词汇特征上的表现与NMT不同。从形符数来看,文心一言的形符差值绝对值在LLM中最小,DeepSeek最大,表明其漏译最多。这一结果与BLEU得分相符,DeepSeek得分最低,与人工译文的词汇形式特征差异最大。词汇密度方面,文心一言的词汇密度在所有机器翻译中最高,DeepSeek紧随其后,ChatGPT表现居中。平均词长方面,LLM普遍高于NMT,其中DeepSeek的词长最长,词汇难度最大。词汇丰富度方面,LLM整体表现突出,其STTR普遍高于NMT,ChatGPT的词汇丰富度最高,DeepSeek次之,文心一言最低,以上特征表明LLM能提供更丰富的词汇选择。下图使用奇普夫定律对ChatGPT的词汇丰富度进行可视化说明。
根据其奇普夫词频分布公式Pr=C·r-b,对6个自建语料库中词汇的频序和频率进行拟合(R2>0.9)。ChatGPT(图1)的曲线最平缓,斜率最小(|α|:ChatGPT=0.727,DeepSeek=0.733,文心一言=0.747,有道翻译=0.764,谷歌翻译=0.767,人工译文=0.772),说明其词汇多样性最丰富。通过观察ChatGPT的“长尾”部分即低频词部分,与人工译文(图2)相比,ChatGPT的长尾部分离散程度更高,破碎折线分布更加分散,长尾更厚,说明其低频词使用较多。该可视化结果与于蕾在ChatGPT词汇多样性上的潜力研究结果一致,说明ChatGPT在词汇选择的广度上具有优势。
结合语料库统计结果和可视化分析,谷歌翻译凭借较小的形符差异以及适当的词汇多样性、词汇密度和词汇难度,在流畅度和忠实度上表现最佳,从而获得最高的BLEU值;而LLM特别是ChatGPT在词汇丰富度上占优,使用低频词更多,但可能因词汇难度高影响可读性。
(二)句法特征科技英语中大量使用长难句、被动语态和定语从句。因此,本文统计了平均句长、被动句和从句相关数量,并结合具体案例进行分析。
根据表2句法特征统计结果,在平均句长方面,谷歌翻译领先,有道翻译次之;在被动语态使用上,谷歌翻译最为频繁,有道翻译次之,文心一言使用最少;从句使用占比的统计显示,各平台均低于人工译文,其中谷歌翻译的从句使用最多,DeepSeek最少。虽然DeepSeek的平均句长最短,从句使用最少,但在从句类型却与谷歌翻译相当,说明DeepSeek在从句灵活运用方面有显著优势。上述统计数据表明,NMT特别是谷歌翻译,在保持复杂句式结构方面表现最为突出,最符合ICT文本的句式特征。DeepSeek则在从句的灵活使用方面表现突出。以上特点在翻译案例中得以充分体现:
原文:数字经济作为经济高质量发展的核心支柱之一,已成为普遍共识。人工译文: First of all, that the digital economy is one of… has become a matter of general consensus.谷歌翻译: First, as one of… digital economy has become a general consensusDeepSeek: Firstly,it has become a widespread consensus that the digital economy serves as one of…
上述例句中,汉语体现出明显的逻辑先后顺序差异,是典型的竹节句,人工译文将第一个分句处理为第二个分句的主语从句,确定了主谓框架,将竹节句转换为葡萄串式,符合英语的句式特征,但主语略长,有头重脚轻之感。谷歌翻译使用as作状语,将其附着在主谓结构上,既保持了较长的句长,又体现了典型的“葡萄串式”句型特征。DeepSeek同样采用主语从句,但处理方式更加灵活,使用it作形式主语,从而避免了主语过长的问题,体现出其句式重构的灵活性。
综合量化统计和实例分析,NMT在保持原文句式复杂度方面具有明显优势,特别是谷歌翻译。LLM虽然在整体句法复杂度上的表现欠佳,但DeepSeek的从句灵活使用能力出众。
(三)语义特征
BERTScore通过计算词嵌入之间的余弦相似度,能够提供精确率、召回率和 F1得分三项语义质量评估指标。精确率高表示译文准确、忠实,但可能有信息遗漏;召回率高意味着译文能够更多地覆盖语义信息,但可能会有语义冗余。F1得分是精确率和召回率的调和平均值,是平衡精确率和召回率的综合得分。
基于图2的BERTScore的评估结果,NMT和LLM在语义特征方面的表现差异虽然相对较小,但谷歌翻译在语义评估中表现最优,其精确率和召回率均为最高值,表明其既能保证用词准确性,又能较好地覆盖原文语义信息。DeepSeek得分相对较低,在语义完整性和用词准确性方面均有提升空间。这一结果与前文词汇和句法特征的统计结果相互印证,共同揭示了准确的语义、适度的词汇丰富度、词汇密度、词汇难度和句法复杂度是影响ICT文本翻译质量的关键因素。
从具体的案例来看,在翻译“面对数据体量爆发式增长……等发展态势,数字基础设施也将面临更多融合极简的需求,而数智化能力则被赋予更加灵活、敏捷的期待”时,各个平台在语义传达和逻辑关系处理上具有明显的差异。谷歌翻译与人工译文均采用while连接前后分句,精确表达“而”所传递的递进对比的语义。有道翻译使用and构成并列句,忽视了语义和逻辑关系。ChatGPT、DeepSeek等LLM多使用meanwhile进行分句处理,虽然提升了可读性,但弱化了原文的逻辑关联,语义表达准确性不够,与其语义质量评估得分较低的现象吻合。
大量使用专业术语是科技语篇的特征之一,翻译时需要保证术语的专业性、准确性切。专业术语处理方面,LLM在专业术语识别和专业知识理解方面也存在局限性,此结果与顾文昊和冷冰冰的研究结果一致,印证了其研究中LLM在术语翻译中存在无法识别术语形态、无法判断术语语义、无法使用规范译名和无法使用惯用译名的问题。例如对“全栈全域(full-stack and allround)”的翻译中,ChatGPT和DeepSeek误译为comprehensive; 在翻译“东数西算(East Data, West Computing)”时,LLM也未能准确传达这一专业概念,错译为“East-to-West data transmission”。专业术语错译直接影响了译文的准确性,也从侧面说明LLM在语义质量评估中得分较低的原因。NMT,特别是谷歌翻译,在专业术语处理上表现更为稳定,印证了其在上述评估中的领先地位。
根据统计结果和实例分析,以谷歌翻译为代表的NMT在语义准确性和专业性方面保持优势;LLM在ICT文本翻译中,其语义传达的准确性和专业性仍有待提升。
五、结语
本文采用量化与质化相结合的方法,对人工译文、LLM和NMT译文的语言特征和语篇风格进行了系统的统计分析。根据本文的研究问题和研究结果,以谷歌翻译为代表的NMT在词汇、句法和语义各项语言特征指标与人工译文更加接近,在长难句、被动语态和专业术语方面能更好地体现ICT语篇风格,从而获得了较高的BLEU和BERTScore得分,而以ChatGPT和DeepSeek为代表的LLM能在词汇和句式方面提供多样化的选择。以上差异为翻译实践的工具选择提供了重要参考:当首要任务为确保译文准确性和体现ICT语篇风格时,NMT更为可靠,特别是谷歌翻译;而目的是提升译文词汇和句式的多样性时,LLM则更具优势。