荐读｜郑雨萱、刘艳梅：ICT文本汉英翻译语言特征及对比分析——以神经机器翻译和大语言模型为例

来源：https://mp.weixin.qq.com/s/euiziBV1tp5hmXZQeh6Lqw

摘要：随着大语言模型与神经机器翻译技术的发展，探究二者在科技语篇翻译中的语言特征和差异，对于提升译文质量、优化机译应用具有重要意义。本文以信息与通讯（ICT）技术文本为语料，采用定性与定量方法，分别将大语言模型和传统神经机器翻译平台（如谷歌翻译）生成的汉英译文，与人工译文进行系统对比。研究发现，谷歌翻译在词汇、句法和语义方面的综合表现最优，ChatGPT在词汇的多样性选择方面有突出优势，DeepSeek在句法的灵活使用方面有一定的潜力。本研究为ICT领域翻译实践中合理选择机器翻译工具、提升译文质量提供了实证参考。

关键词：信息与通讯文本；神经机器翻译；大语言模型；语言特征

作者简介：郑雨萱：zyx2756233849@126.com；刘艳梅，lymcx@126.com；

文章原载于中国科技翻译,2025,38(04):17-20+39.

一、引言

随着计算机技术的发展和算力、算法的进步，机器翻译经历了从基于实例、统计方法到神经网络翻译（Neural Machine Translation, NMT，下文简称为NMT）技术的迭代发展，翻译质量显著提高。当前，基于海量语料训练的大语言模型（Large Language Model, LLM，下文简称LLM）在翻译领域展现出新优势，为翻译实践提供了新的技术选择。已有研究表明，机器翻译技术尤其适用于以信息传递为核心的科技语篇翻译。根据2024年《中国翻译行业发展报告》，信息与通信技术（Information and Communication Technology, ICT）领域已占翻译市场37.5%的份额，其中超半数项目采用机器翻译，80%以上应用大模型技术，这印证了NMT与LLM在科技翻译中的重要性日益提升。

二、研究现状

近年来，学界围绕神经机器翻译（NMT）与大语言模型（LLM）在不同语篇类型中的翻译表现展开了多角度的探索。已有研究涵盖了文学、政治、经济等领域，并采用了多种翻译质量评估方法与语言分析手段，但对科技语篇，尤其是ICT专业文本语言特征的系统性分析仍显不足。该领域现有研究大多聚焦于译后评估或个别特征分析，缺乏LLM、NMT与人工译文之间多维语言特征对比的综合研究，定性与定量方法结合使用的案例亦较有限。鉴于此，本文将定量与定性方法结合，选取三大主流LLM（ChatGPT、DeepSeek、文心一言）和两个神经网络机器翻译平台（谷歌翻译、有道翻译）产出的ICT汉译英译文，对比分析LLM、NMT、人工翻译三者之间在词汇、句法、语义方面存在的特征差异，及LLM和NMT在表述ICT语篇风格方面具备的优势与不足。

三、研究方法和研究思路

本文采用语料库工具、python自然语言处理功能和可视化分析方法对人工译文、LLM和NMT译文的语言特征和差异进行系统统计和对比分析。

（一）文本来源为比较和分析国内外LLM、NMT和语言特征上的差异，在确保语境连贯性的同时，使语料最大程度地覆盖ICT行业的专业术语、关键概念和主要使用场景，本文选择ICT行业知名企业——中兴通讯的“2024年上半年核心技术创新”报告为语料。为使译文来源更加全面，本文选择三个LLM（ChatGPT、DeepSeek、文心一言）和两个NMT平台（谷歌翻译和有道翻译）作为译文来源。通过在LLM使用“汉译英”翻译指令，在NMT平台直接上传文本获取译文，自建ChatGPT语料库、文心一言语料库、DeepSeek语料库、有道翻译语料库和谷歌翻译语料库。下载中兴通讯官网英文版2024半年度报告的该章节作为人工译文语料库。

（二）语言特征分析语言特征主要分为形式特征和语义特征两大类。在语言形式特征方面，本文使用兰卡斯特大学的词性标注平台和Antconc4.3.1对上述自建语料库进行标注和统计分析。
本研究从词汇和句法两个维度探究译文形式特征。在词汇层面，通过形符数分析检测译文的完整性和流畅度，其与人工译文的差值反映机器译文的增译或漏译；STTR用于衡量译文词汇丰富度的关键指标；平均词长反映词汇复杂度；词汇密度用于评估译文的信息量。此外，本研究引入奇普夫定律对词汇多样性进行可视化分析。在句法层面，使用平均句长反映句式复杂度，从句和被动语态占比体现ICT语篇的典型特征，从句类型则揭示句式多样性。最后，采用Python自然语言处理工具计算BLEU值，综合评估各机译平台的语言形式得分。
在语义特征方面，本文使用BERTScore语义质量评估指标和实例分析探究译文语义特征。BERTScore利用预训练模型，计算词嵌入之间的余弦相似度，能发现细微的语义差异，弥补单从语言形式特征分析译文的不足。实例分析则从译文情感传达和术语准确性方面对BERTScore的评估进行补充。

四、研究结果及讨论

结合上述研究方法，本节从词汇特征、句法特征和语义特征方面对译文表现展开讨论。

（一）词汇特征通过考察形符数、词汇丰富度、词汇密度和平均词长等关键指标，本文发现NMT和LLM在词汇特征上呈现出明显差异：NMT，尤其是谷歌翻译，在保持译文流畅度和忠实度方面优势明显，各项词汇特征更接近人工译文，从而获得更高的BLEU得分；而LLM在词汇丰富度和信息量方面表现突出，但其流畅度和可读性有待提升。

在NMT领域，谷歌翻译和有道翻译展现出不同的词汇特征，其中谷歌翻译的综合表现占优。谷歌翻译的形符差值绝对值最小，表明其漏译最少，译文流畅度和忠实度最佳；词汇密度与人工译文最为接近，词长适中，词汇难度和词汇丰富度最低，阅读体验最佳。这与基于语言形式特征的质量评估得分（BLEU值）一致，谷歌翻译在形式特征上的得分最高，与人工译文最为接近。
LLM在词汇特征上的表现与NMT不同。从形符数来看，文心一言的形符差值绝对值在LLM中最小，DeepSeek最大，表明其漏译最多。这一结果与BLEU得分相符，DeepSeek得分最低，与人工译文的词汇形式特征差异最大。词汇密度方面，文心一言的词汇密度在所有机器翻译中最高，DeepSeek紧随其后，ChatGPT表现居中。平均词长方面，LLM普遍高于NMT，其中DeepSeek的词长最长，词汇难度最大。词汇丰富度方面，LLM整体表现突出，其STTR普遍高于NMT,ChatGPT的词汇丰富度最高，DeepSeek次之，文心一言最低，以上特征表明LLM能提供更丰富的词汇选择。下图使用奇普夫定律对ChatGPT的词汇丰富度进行可视化说明。

根据其奇普夫词频分布公式Pr=C·r-b，对6个自建语料库中词汇的频序和频率进行拟合（R2>0.9）。ChatGPT（图1）的曲线最平缓，斜率最小（|α|:ChatGPT=0.727，DeepSeek=0.733，文心一言=0.747，有道翻译=0.764，谷歌翻译=0.767，人工译文=0.772），说明其词汇多样性最丰富。通过观察ChatGPT的“长尾”部分即低频词部分，与人工译文（图2）相比，ChatGPT的长尾部分离散程度更高，破碎折线分布更加分散，长尾更厚，说明其低频词使用较多。该可视化结果与于蕾在ChatGPT词汇多样性上的潜力研究结果一致，说明ChatGPT在词汇选择的广度上具有优势。
结合语料库统计结果和可视化分析，谷歌翻译凭借较小的形符差异以及适当的词汇多样性、词汇密度和词汇难度，在流畅度和忠实度上表现最佳，从而获得最高的BLEU值；而LLM特别是ChatGPT在词汇丰富度上占优，使用低频词更多，但可能因词汇难度高影响可读性。

（二）句法特征科技英语中大量使用长难句、被动语态和定语从句。因此，本文统计了平均句长、被动句和从句相关数量，并结合具体案例进行分析。
根据表2句法特征统计结果，在平均句长方面，谷歌翻译领先，有道翻译次之；在被动语态使用上，谷歌翻译最为频繁，有道翻译次之，文心一言使用最少；从句使用占比的统计显示，各平台均低于人工译文，其中谷歌翻译的从句使用最多，DeepSeek最少。虽然DeepSeek的平均句长最短，从句使用最少，但在从句类型却与谷歌翻译相当，说明DeepSeek在从句灵活运用方面有显著优势。上述统计数据表明，NMT特别是谷歌翻译，在保持复杂句式结构方面表现最为突出，最符合ICT文本的句式特征。DeepSeek则在从句的灵活使用方面表现突出。以上特点在翻译案例中得以充分体现：
原文：数字经济作为经济高质量发展的核心支柱之一，已成为普遍共识。人工译文: First of all, that the digital economy is one of… has become a matter of general consensus.谷歌翻译: First, as one of… digital economy has become a general consensusDeepSeek: Firstly,it has become a widespread consensus that the digital economy serves as one of…

上述例句中，汉语体现出明显的逻辑先后顺序差异，是典型的竹节句，人工译文将第一个分句处理为第二个分句的主语从句，确定了主谓框架，将竹节句转换为葡萄串式，符合英语的句式特征，但主语略长，有头重脚轻之感。谷歌翻译使用as作状语，将其附着在主谓结构上，既保持了较长的句长，又体现了典型的“葡萄串式”句型特征。DeepSeek同样采用主语从句，但处理方式更加灵活，使用it作形式主语，从而避免了主语过长的问题，体现出其句式重构的灵活性。
综合量化统计和实例分析，NMT在保持原文句式复杂度方面具有明显优势，特别是谷歌翻译。LLM虽然在整体句法复杂度上的表现欠佳，但DeepSeek的从句灵活使用能力出众。
（三）语义特征
BERTScore通过计算词嵌入之间的余弦相似度，能够提供精确率、召回率和 F1得分三项语义质量评估指标。精确率高表示译文准确、忠实，但可能有信息遗漏；召回率高意味着译文能够更多地覆盖语义信息，但可能会有语义冗余。F1得分是精确率和召回率的调和平均值，是平衡精确率和召回率的综合得分。

基于图2的BERTScore的评估结果，NMT和LLM在语义特征方面的表现差异虽然相对较小，但谷歌翻译在语义评估中表现最优，其精确率和召回率均为最高值，表明其既能保证用词准确性，又能较好地覆盖原文语义信息。DeepSeek得分相对较低，在语义完整性和用词准确性方面均有提升空间。这一结果与前文词汇和句法特征的统计结果相互印证，共同揭示了准确的语义、适度的词汇丰富度、词汇密度、词汇难度和句法复杂度是影响ICT文本翻译质量的关键因素。
从具体的案例来看，在翻译“面对数据体量爆发式增长……等发展态势，数字基础设施也将面临更多融合极简的需求，而数智化能力则被赋予更加灵活、敏捷的期待”时，各个平台在语义传达和逻辑关系处理上具有明显的差异。谷歌翻译与人工译文均采用while连接前后分句，精确表达“而”所传递的递进对比的语义。有道翻译使用and构成并列句，忽视了语义和逻辑关系。ChatGPT、DeepSeek等LLM多使用meanwhile进行分句处理，虽然提升了可读性，但弱化了原文的逻辑关联，语义表达准确性不够，与其语义质量评估得分较低的现象吻合。
大量使用专业术语是科技语篇的特征之一，翻译时需要保证术语的专业性、准确性切。专业术语处理方面，LLM在专业术语识别和专业知识理解方面也存在局限性，此结果与顾文昊和冷冰冰的研究结果一致，印证了其研究中LLM在术语翻译中存在无法识别术语形态、无法判断术语语义、无法使用规范译名和无法使用惯用译名的问题。例如对“全栈全域（full-stack and allround）”的翻译中，ChatGPT和DeepSeek误译为comprehensive；在翻译“东数西算（East Data, West Computing）”时，LLM也未能准确传达这一专业概念，错译为“East-to-West data transmission”。专业术语错译直接影响了译文的准确性，也从侧面说明LLM在语义质量评估中得分较低的原因。NMT，特别是谷歌翻译，在专业术语处理上表现更为稳定，印证了其在上述评估中的领先地位。
根据统计结果和实例分析，以谷歌翻译为代表的NMT在语义准确性和专业性方面保持优势；LLM在ICT文本翻译中，其语义传达的准确性和专业性仍有待提升。

五、结语

本文采用量化与质化相结合的方法，对人工译文、LLM和NMT译文的语言特征和语篇风格进行了系统的统计分析。根据本文的研究问题和研究结果，以谷歌翻译为代表的NMT在词汇、句法和语义各项语言特征指标与人工译文更加接近，在长难句、被动语态和专业术语方面能更好地体现ICT语篇风格，从而获得了较高的BLEU和BERTScore得分，而以ChatGPT和DeepSeek为代表的LLM能在词汇和句式方面提供多样化的选择。以上差异为翻译实践的工具选择提供了重要参考：当首要任务为确保译文准确性和体现ICT语篇风格时，NMT更为可靠，特别是谷歌翻译；而目的是提升译文词汇和句式的多样性时，LLM则更具优势。

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31