穿越:2014_第126章 不碰专业软件的坑 首页

字体:      护眼 关灯

上一页 目录 下一页

   第126章 不碰专业软件的坑 (第4/5页)

模型评估文本和摘要之间的语义相关性,最后为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。

    虽然为了避免教会徒弟饿死师傅,林灰在这几个步骤之间故意遗漏了一些琐屑的步骤。

    不过这种东西对于科研工作者来说,就像堑壕之于坦克。

    虽然会有一些影响,但问题应该不大。

    真的把所有的技术细节全部公布出来。

    那也不能叫做公布技术路线了,那叫编教科书。

    对于林灰提到的“运用语言模型来评估算法生成语言的流畅度”

    伊芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的?

    这个问题往后几年的话还真不是问题。

    因为现成的语料库就一大堆。

    仅仅是简体中文方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。

    不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。

    毕竟一些现成的语料库基本都是16年左右才问世的。

    尽管如此,如何解释语料库来源的问题难不倒林灰。

    事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。

    最简单的方式——借助互联网可以自动构建文本语料库。

    当利用这种方法构
加入书签 我的书架

上一页 目录 下一页