「埃尔法哥哥」python爬虫的出路有哪些?NLP算法工程师算一个

文/IT可达鸭
图/IT可达鸭、网络
前言
小编在很久以前是做Java爬虫的 , 在身边同事的鼓励下 , 慢慢转向了NLP算法工程师 。 以前做爬虫的时候 , 每天就接任务 , 爬网站 , 抓取信息(有文本信息、图片信息) 。 虽然 , 经手的数据也有上百G了 , 但是从来没去想过该怎么去分析这些数据 。
如果仅仅干一份爬虫的工作 , 那也仅仅只是一个爬虫工程师 , 只是一个数据的采集者 。 而且 , 随着科技的不断进步 , 很多智能化的爬虫工具相继出现 , 很多网站对爬虫越来越不友好 , 爬虫工程师的出路也越来越窄了 。 同时地 , 企业在招爬虫工程师的时候 , 要求也越来越多 , 不仅要会抓取数据 , 还要有一定的数据分析能力 。
那么 , 作为一个不想时代淘汰的爬虫工程师 , 该如何在技术上寻找出路呢?答案是:NLP算法工程师 。
「埃尔法哥哥」python爬虫的出路有哪些?NLP算法工程师算一个
文章图片
什么是NLP
自然语言处理 , NaturalLanguageProcessing下文简称NLP , 是计算机科学领域以及人工智能领域的一个重要的研究方向 。 简单的说 , 自然语言处理技术 , 就是可以帮用户使用自然语言与机器交流 。 为了方便计算机处理 , 自然语言通常被定义为一组规则或者符号的集合 。
从大方向上看 , 自然语言分为两个部分:自然语言处理和自然语言生成 , 对应任务是自然语言理解和生成文本 。
「埃尔法哥哥」python爬虫的出路有哪些?NLP算法工程师算一个
文章图片
NLP的研究任务
NLP可以被应用与很多领域 , 这里大概总结出一下几种通用的应用:
2.1机器翻译
机器翻译是NLP中最为人熟知的场景 , 国内外有很多比较成熟的机器翻译产品 , 比如有道翻译、google翻译、科大讯飞翻译机(语音类翻译) 。
「埃尔法哥哥」python爬虫的出路有哪些?NLP算法工程师算一个
文章图片
2.2情感分析
情感分析在NLP工程师的日常工作中 , 经常会用到 。 主要业务场景是 , 例如想了解某电商网站中某一个商品是否被用户所喜欢 , 可以采集该商品下的所有评论 , 通过NLP技术进行情感分析 , 分析出积极和消极的评论占比是多少、分析出哪些是水军的评论 。
「埃尔法哥哥」python爬虫的出路有哪些?NLP算法工程师算一个
文章图片
2.3智能问答
在一些电商网站有非常实用的价值 , 比如代替人工充当客服角色 , 有很多很基本而且重复的问题 , 其实并不需要人工客服来解决 , 通过智能问答系统就能处理大量重复问题 , 使得人工客服能更好的服务客户 。
目前这块在市场上需求很大 , 针对智能问答这块 , 有一个非常不错的开发框架Rasa , 它是基于tensorflow开发的 。 适用于模板问答、多轮对话、闲聊等多种会话场景 。 感兴趣的小伙伴 , 可以研究一下这个框架 。
「埃尔法哥哥」python爬虫的出路有哪些?NLP算法工程师算一个
文章图片
我之前也有一篇介绍智能对话的文章《我用了100行Python代码 , 实现了与女神尬聊微信(附代码)》 , 不过 , 这是一个简单的问题模版匹配 , 索引答案进行回答 。 可以说是初学版的智能对话 , 但是距离真正的智能对话还很远很远 。 刚入门的小伙伴可以先看一下 , 再回过头来研究上面的智能对话开源框架 。
2.4文本摘要生成
利用NLP技术从原始文章中摘取文摘 , 全面准确地翻译某一文章的中心内容 。 这个算法可以帮助人们在阅读大量文章的时候 , 节约时间成本 , 从而提升工作效率 。
2.5文本分类
利用NLP技术 , 按照一定的分类体系自动标注类别 。 像在今日头条发图文 , 它是有一个自动类的算法 , 根据文章的关键词、主题以及作者所擅长的领域给文章进行分类 。


推荐阅读