文章插图
如果你想知道2020年文档相似性任务的最佳算法,你来对了地方 。
在33914篇《纽约时报》文章中,我测试了5种常见的文档相似性算法 。从传统的统计方法到现代的深度学习方法 。
每个实现少于50行代码 。所有使用的模型都来自互联网 。因此,你可以在没有数据科学知识的情况下,开箱即用,并且得到类似的结果 。
在这篇文章中,你将学习如何实现每种算法以及如何选择最佳算法 。内容如下:
- 最佳的定义
- 实验目标陈述
- 数据设置
- 比较标准
- 算法设置
- 选出赢家
- 对初学者的建议
数据科学家主张绝对最好你可能会搜索术语“最佳文档相似性算法”(best document similarity algorithms) 。
然后你将从学术论文,博客,问答中得到搜索结果 。一些侧重于特定算法的教程,而另一些则侧重于理论概述 。
在学术论文中,一个标题说,这种算法的准确率达到了80%,而其他算法的准确率仅为75% 。好啊 。但是,这种差异是否足以让我们的眼睛注意到它呢?增加2%怎么样?实现这个算法有多容易?科学家倾向于在给定的测试集中追求最好,而忽略了实际意义 。
文章插图
在相关的问题问答中,狂热的支持者占据了整个话题 。有人说现在最好的算法是BERT 。这个算法概念是如此具有革命性,它打败了一切 。另一方面,愤世嫉俗者称一切都取决于工作 。有些答案早在深度学习之前就有了 。看看这个Stackoverflow(https://stackoverflow.com/questions/8897593/how-to-compute-the-similarity-between-two-text-documents) 。2012年是投票最多的一年,很难判断它对我们到底意味着什么 。
谷歌会很乐意投入数百万美元购买工程师的能力和最新的计算能力,仅仅是为了将他们的搜索能力提高1% 。这对我们来说可能既不现实也没有意义 。
性能增益和实现所需的技术专业知识之间有什么权衡?它需要多少内存?它以最少的预处理可以运行多快?
你想知道的是一种算法在实际意义上是如何优于另一种算法的 。
这篇文章将为你提供一个指导方针,指导你在文档相似性问题应该实现哪种算法 。
各种算法,通篇流行文章,预训练模型本实验有4个目标:
- 通过在同一个数据集上运行多个算法,你将看到算法与另一个算法的公平性以及公平程度 。
- 通过使用来自流行媒体的全文文章作为我们的数据集,你将发现实际应用程序的有效性 。
- 通过访问文章url,你将能够比较结果质量的差异 。
- 通过只使用公开可用的预训练模型,你将能够设置自己的文档相似性并得到类似的输出 。
“预训练模型是你的朋友 。-Cathal Horan”数据设置-5篇基础文章本实验选取了33914篇《纽约时报》的文章 。从2018年到2020年6月 。数据主要是从RSS中收集的,文章的平均长度是6500个字符 。
从这些文章中选择5个作为相似性搜索的基础文章 。每一个代表一个不同的类别 。
在语义类别的基础上,我们还将度量书面格式 。更多的描述在下面 。
- Lifestyle, Human Interest:How My Worst Date Ever Became My Best(https://www.nytimes.com/2020/02/14/style/modern-love-worst-date-of-my-life-became-best.html)
- Science, Informational:A Deep-Sea Magma Monster Gets a Body Scan(https://www.nytimes.com/2019/12/03/science/axial-volcano-mApping.html)
- Business, News:Renault and Nissan Try a New Way After Years When Carlos Ghosn Ruled(https://www.nytimes.com/2019/11/29/business/renault-nissan-mitsubishi-alliance.html)
- Sports, News:Dominic Thiem Beats Rafael Nadal in Australian Open Quarterfinal(https://www.nytimes.com/2020/01/29/sports/tennis/thiem-nadal-australian-open.html)
- Politics, News:2020 Democrats Seek Voters in an Unusual Spot: Fox News(https://www.nytimes.com/2019/04/17/us/politics/fox-news-democrats-2020.html)
- 标签的重叠
- 节
- 小节
- 文风
- 主题
推荐阅读
- 2020年中国搜索引擎行业市场现状及发展前景分析
- 2020年中考语文阅读答题技巧六招
- 西安全运会时间是何时?
- 2020年人气最高的十大NLP库推荐
- 谷歌软件工程师是怎样写设计文档的?
- 如何把表格做成文档?
- 2020年8月程序员工资最新统计:这些岗位月薪可达6万以上
- 进销存软件十大排名
- 文档智能:数字化转型的技术基石
- 如何用手机将pdf转换成word文档?具体怎么转?