读芯术|从零构建摘要:摘要的正确打开方式是什么?( 二 )
每个句子中的单词数量:
本文插图
为所有文档中的每个单词创建频率列表:
本文插图
此处创建一个列表 , 其中存储了文档中每个单词的频率 。
计算TF和IDF值:
本文插图
第一个功能计算每个文档(此处指句子)中单词的词频 , 第二个功能计算句子中每个单词的逆文档频率 。
记算TF-IDF值:
本文插图
计算每个术语的TF-IDF值 。
将所有文档分级:
本文插图
阈值根据句子中每个单词的TF-IDF值来计算每个句子的分数 。
生成摘要:
本文插图
阈值是通过线性函数计算TF-IDF值的平均值得出 。 注意 , 平均值阈值可通过与标志相乘调整 , 以增减摘录规模 。
是时候运行所有的功能啦!
本文插图
确保文档是在格式为(*.txt)的一个文件中 , 并和Python脚本在同一个目录中 。
测试:
本文插图
完成啦!不过这不是总结文本的唯一方式 , 除此之外还有很多技巧可以完成摘要 。
一次美妙旅途的结束了 , 笔者感受到了很多乐趣 , 也希望你享受一起编程、学习文本摘要的过程 。
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
如转载 , 请后台留言 , 遵守转载规范
【读芯术|从零构建摘要:摘要的正确打开方式是什么?】本文为***作者原创 , 未经授权不得转载
推荐阅读
- 行业互联网|英国运输技术论坛发布网络安全标准和指南摘要
- |门罗币是什么?一文读懂匿名币霸主XMR
- 服务|京东健康与辉瑞中国签署战略合作备忘录 携手构建医药险闭环生态圈
- |以太坊2.0是什么?
- |什么是原子交换?
- |构建标准化车载接口 梧桐车联推OpenOS技术底座
- 中华美食集|欧巴智能售酒机掌握终端消费市场,构建O2O闭环消费新模式
- |应用商店适配程序超1500款!国产信创生态在黄埔构建
- 新京报|康婷 以科研破局构建创新产品体系
- 迪信通|强强联手打造行业标杆 京东通讯11.11联手迪信通构建全渠道生态