“快笔小新”:新华社第一位机器人记者

来源:新华网      时间:2019-07-24

快笔小新”两年多时间不眠不休,尽职尽责,“撰写”了大量体育和财经报道,差错为零;捕捉、发现网络热点,成绩颇佳。如今它又有了新的“爱好”,文本复述、语音交互、看图写话、智能生成模板等都是它正在涉足的工作。

  “快笔小新” 机器人写稿 人工智能

  2015年11月7日,在新华社84岁生日之际,新华社的编辑记者们迎来了一位特别的同事,名字叫“快笔小新”,这是新华社第一位机器人记者。经过两年多的不断迭代开发,“快笔小新”具备了更强大的“写稿”能力。

  “快笔小新”上线运行后,7×24小时不间断工作。每逢重要体育赛事,或股市开收盘、突破整数关口,或国债开收盘,或是上市公司年报季报等金融信息发布之时,它会自动根据所公布的信息快速生成新闻稿件。编辑在编辑系统对“快笔小新”生成的稿件进行核对后正式签发。

  “快笔小新”是如何工作的?

  在财经和体育报道中,“快笔小新”可以同时完成多项任务。“快笔小新”的写稿可以分为“采集清洗”“计算分析”和“模板匹配”三个流程。依托大数据技术对数据进行实时采集、清洗和标准化处理,再根据业务需求定制相应的算法模型,对数据进行实时计算和分析,最后,根据计算和分析结果选取合适的模板生成CNML中文新闻置标语言标准的稿件,自动进入到待编稿库,供编辑审核后签发。

  机器人“快笔小新”有一套能和技术人员交流的“语言”,技术人员会告诉小新按照什么样的规则和样式生成什么样的稿件。这个过程我们称之为“模板定制”。有了定制好的模板,机器人就会自动采集数据,进行进一步清洗、分析、加工后,再根据计算和分析的结果按照定义好的格式自动生成新闻稿件。

  “快笔小新”虽然是根据固定格式模板写稿,但写出来的稿件并非是一成不变的。一方面我们可以在模板定制的过程中,通过为每个报道场景建立领域知识库,针对不同的场景赋予其丰富的稿件样式,在具体运用模板的过程中,对每个知识点对应的模板赋予不同的权重,利用规则库的信息计算出权值,最后根据权值自动匹配出最佳的稿件。这其实就是建立模板库和规则库的过程。另一方面,通过建立完善的历史数据库,例如财经类的季报、年报、历史报价等数据库,体育类的赛事等基础数据库,并针对业务报道需求,研发计算同比、环比、指数、累计进球数、积分排名等各种指标的历史统计模型和趋势分析模型等,提高“快笔小新”新闻报道内容的丰富性。

  “快笔小新”能为编辑记者提供什么?

  体育、财经类相关稿件是“快笔小新”的强项。面对互联网公布的大量纷繁冗杂的数据,比如失业经济数据、股价报盘、人民币汇率报价、上市公司公告和财报、个股资金净流入流出、融资融券数据、中超比赛结果和积分公报、CBA比赛结果和积分公报等,“快笔小新”能迅速采集整理相关数据,准确编写新闻稿件。其中也包括国外的相关数据,如英国CPI、英国失业率情况、欧元区失业率数据、全球主要股票市场开收盘情况,都可以迅速处理,生成相应的稿件。

  “快笔小新”运用文本摘要技术实现上市公司公告摘要。上市公司每天都要发布大量上市公司公告,编辑记者很难对每篇公告都进行详细阅读和跟踪。通过使用文本摘要技术,对于原文中的句子分析、评估和抽取,根据已经设计好的算法模型,自动分析和摘取其中的要点和知识点,输出短小的摘要,为编辑记者提供素材服务。这极大地降低了编辑记者的工作量。

  “快笔小新”能够实时关注网上的热点新闻。网络用户既是内容的消费者,也是内容的生产者。自媒体时代,人人都可以写稿,人人都可以发声,微博、微信等UGC平台正在变成一个巨大的信息汇聚场所,一些热点事件往往首先从微博和微信平台发布出来。机器人从微博、微信等UGC平台上获取并整理这些信息,提醒编辑记者发现热点。目前,“快笔小新”通过采集新浪微博上多位在金融领域有权威和声望的专家微博,动态关注并采集其发在微博的相关言论,对其相关内容进行关联分析,分析结果作为素材供编辑记者参考。

  “快笔小新”的实际工作成效怎样?

  上线两年多,“快笔小新”在工作岗位上不眠不休,尽职尽责,是一位名副其实的“业务能手”。在擅长的体育和财经领域,无论是CBA和中超的体育比赛,还是诸如财经领域的股市行情触发、年报等财报的实时分析,原来需要编辑记者用15~30分钟时间完成的稿件,“快笔小新”只需要3~5秒钟就能完成,极大地降低了编辑记者的工作强度,提升了新闻信息的生成能力和发稿时效性,让编辑记者从基础数据信息的采写中解放出来,将更多时间用于采写深度分析稿件。

  在2016年的里约奥运会期间,“快笔小新”全程跟踪赛程中的所有比赛,在赛事结束的第一时间迅速生成新闻稿件,实时跟踪报道了所有比赛的结果,共有500多篇稿件被正式签发,实现了零差错。在今年2月的平昌冬奥会期间,“快笔小新”不辱使命,以零差错服务于整个冬奥会的成绩播报和奖牌榜发布,采写了大量稿件。与往届奥运报道相比,因为有了“快笔小新”的参与,编辑记者第一次能如此轻松地播发奥运会所有比赛的成绩公报,使奥运赛事报道时效有了极大提升。

  在做好体育和财经这些“主业”的同时,“快笔小新”正在不断地学习新的业务技能。例如,“快笔小新”可以实时跟踪重要部委发布的信息,一旦外交部、国防部等部门发布了重要信息,“快笔小新”可以实时采集并生产稿件,为我们的编辑和记者提供参考。“快笔小新”可以实时接收中央气象局发送的天气预报数据,自动生成符合要求的中英文天气预报稿件,编辑记者只需进行简单校对,就可以签发了。

  “快笔小新”的成长和发展空间如何?

  随着近年来机器学习技术的不断发展,国内外纷纷推出机器人写稿产品,写稿机器人智能化水平不断提高。美联社、路透社、腾讯、百度等国内外新闻机构或技术公司都在开发和应用机器人写稿技术,“快笔小新”将进一步学习和借鉴新技术、新应用,加强与外界的合作,互通有无,共同进步。当下,“快笔小新”也在不断尝试将智能语言处理、人工智能的技术应用到发稿中,进一步提高“快笔小新”的智能化水平。下面几项是“快笔小新”重点探索的方向:

  文本复述。就是通过对原有文本进行改写,生成新的文本描述。在所生成的文本和原文本的比对过程中,会发现要表达的意思基本一致,但是可能会加入一些立场等,添加更多的表述风格,使复述出来的稿件更加生动,观点更全面,更有可读性。

  语音交互。语音技术主要包括语音识别和语音合成两个主要应用方向。语音识别简单地说就是机器将人的语音转换为文字。语音合成,又称“文语转换”(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。“快笔小新”已具备了一些简单的语音交互能力。目前编辑记者只要口述股票的名称和所需查询的内容,小新就可以自动获取生成的股市行情、股市公告、股市财报、体育赛事结果等消息,并进行实时播报。未来,我们的“快笔小新”在智能问答、人机交互等领域还有很大的成长空间。

  看图写话。探索图片、视频的自动生成。根据给定的图片或者视频,自动生成可以描述图片或者视频内容的稿件,类似于“看图写话”或是“看视频写话”。首先,需要从图片或者视频文件中抽取出诸如人物、时间、事件等信息,然后根据这些信息找出其表述的重要概念,最后运用自然语言处理技术将上述概念等,根据该事件的实际场景和实际语境整理成一句或者一小段合乎逻辑的文本。未来,我们的“快笔小新”将探索在该技术领域的文本编写,从体育实况比赛开始进行尝试,相信它能写出更加符合语法习惯、符合实际场景的完美表述。

  智能模板生成。目前,“快笔小新”所采用的模板,多为技术人员将以往的稿件采集、分析后入库,从技术角度挑选最合适的模板来匹配实际场景。通过应用机器学习技术,让机器学习编辑记者曾经发过的稿件,根据不同的报道要求,自动生成最合适的模板。

  丰富数据库,拓展新行业。扩展信息来源、丰富数据库资源是“快笔小新”向前迈步的“第二条腿”,目前,“快笔小新”具有规模可观的数据库和新闻线索来源,已经建立了奥运、篮球、足球、沪深股市、国内期货债券、外汇等近20多个不同类型的数据库。“巧妇难为无米之炊”,丰富广泛的数据库资源是“快笔小新”写稿创作的源泉,不断完善扩充新的数据库是加强“快笔小新”写稿能力的重要手段,完备、丰富、准确的数据库是“快笔小新”写稿质量的强有力保证。承上所言,在体育、财经领域之外,“快笔小新”目前已经具备了地震快报、天气预报的写稿能力,随着数据来源的不断丰富,“快笔小新”会涉足更多行业的新闻写稿。

  “快笔小新”对媒体有怎样的意义?

  科学技术是第一生产力,每一次新技术的应用都给新华社新闻信息的生产方式带来翻天覆地的变化。

  新华社经历了三次重要的技术变革。第一次重大技术变革是摩尔斯电报和短波通信技术的应用,改变了原来主要靠信件传递的通信方式。第二次重大技术变革是电传机、汉字模写机、照片传真机的应用,取代了莫尔斯收发电报机,电缆通信、微波通信也得到了应用,极大地提高了新华社的信息收发和处理能力。第三次重大技术变革是计算机处理和数字通信技术的应用,取代了传统的电传机和传真机,使新华社迎来了多媒体新闻信息生产的时代。

  当前,我们正处在一个新的十字路口,这是一个“互联网+”和云计算、大数据、人工智能、机器学习等新技术广泛应用的时代。“快笔小新”,是科技和新闻不断融合发展的产物,从诞生之初发展到今天,代替人工完成一些辅助性工作已经成为趋势,未来新闻信息的生产加工和传播,必将随着技术的发展发生更大的变化。

  “快笔小新”作为新华社一员,将以服务新闻采编工作、提升现代化报道水平为宗旨,一步一个脚印地向更高目标迈进。

  (作者钟盈炯系新华社技术局工程师,张寒系新华社体育部主任编辑)