读芯术|从零构建摘要:摘要的正确打开方式是什么?( 二 )


每个句子中的单词数量:

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

为所有文档中的每个单词创建频率列表:

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

此处创建一个列表 , 其中存储了文档中每个单词的频率 。
计算TF和IDF值:

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

第一个功能计算每个文档(此处指句子)中单词的词频 , 第二个功能计算句子中每个单词的逆文档频率 。
记算TF-IDF值:

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

计算每个术语的TF-IDF值 。
将所有文档分级:

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

阈值根据句子中每个单词的TF-IDF值来计算每个句子的分数 。
生成摘要:
读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

阈值是通过线性函数计算TF-IDF值的平均值得出 。 注意 , 平均值阈值可通过与标志相乘调整 , 以增减摘录规模 。
是时候运行所有的功能啦!
读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

确保文档是在格式为(*.txt)的一个文件中 , 并和Python脚本在同一个目录中 。
测试:

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

完成啦!不过这不是总结文本的唯一方式 , 除此之外还有很多技巧可以完成摘要 。
一次美妙旅途的结束了 , 笔者感受到了很多乐趣 , 也希望你享受一起编程、学习文本摘要的过程 。

读芯术|从零构建摘要:摘要的正确打开方式是什么?
本文插图

留言点赞关注
我们一起分享AI学习与发展的干货
如转载 , 请后台留言 , 遵守转载规范
【读芯术|从零构建摘要:摘要的正确打开方式是什么?】本文为***作者原创 , 未经授权不得转载


推荐阅读