趣投稿破局传统算法痛点，腾讯安全首提基于跨模态检索的二进制代码-源代码匹配( 二 )

CodeCMR框架中，字符级源代码使用DPCNN模型，二进制控制流图使用端到端的GNN模型。
在函数级别，字符级源代码的输入通常在4096以上， DPCNN的效果远优于TextCNN和LSTM 。另外，在语义特征识别中，端到端的GNN模型表现出更强的健壮性，可帮助破解传统算法高专家经验的痛点。

本文插图
图3 - 源代码与二进制代码的语义模型
立即数、字符串模型
源代码和二进制代码的字符串和立即数不完全相同，需要设计模型进行匹配。

本文插图
对于立即数，科恩实验室设计了Integer-LSTM ，其输入有integer token和integer number两个。 integer number作用在LSTM的输入门和输出门，以控制信息流动。
对于字符串，其采用分层模型，先通过LSTM模型得到每个字符串的向量，再使用sum pooling方法得到字符串集合的向量。
Norm weighted sampling
在两大模块的向量采样阶段， Norm weighted sampling 与随机采样和distance weighted采样方法相比，表现出更好的匹配效果。
distance weighted sampling采样方法可解决hard样本在训练早期收敛到局部极小值的问题，在分布中选择各个概率的样本。

本文插图
在此基础上，科恩实验室又提出改进，增加超参数s ，帮助调整概率的分布，从而适应不同的任务和数据集。

本文插图
这种融合训练的方法可大幅提升二进制代码/源代码的匹配准确率，从而提升工业部署效率。

本文插图
实验结果
与传统算法仅提取字符串、立即数特征进行匹配的做法不同， CodeCMR模型能够实现对代码间隐藏语义特征的自动提取，从而达到提升二进制代码-源代码跨模态检索匹配效率的目的。
从实验结果中可以看出，在语义模型中， DPCNN+HBMP取得最优效果，表示在二进制侧采用端到端训练优于预训练的node embedding；此外，与随机采样、distance weighted采样相比， norm weighted的采样效果更好。

本文插图
表1 - 实验结果
train/valid loss曲线也证明了这一点，当s=5时， norm weighted sampling的train loss更高， valid loss更低。

本文插图
图4 - 训练与验证的损失函数曲线
论文链接：
https://keenlab.tencent.com/zh/whitepapers/neurips-2020-cameraready.pdf

本文插图

本文插图

趣投稿破局传统算法痛点，腾讯安全首提基于跨模态检索的二进制代码-源代码匹配( 二 )

推荐阅读

末言雨|胡歌难得正经一回，白衬衫配西装头出席小聚会，变清新花艺师

[]文艺北欧风四居室，把家装成了诗的远方，特别是长长的玄关好美！

小学生幽默笑话精选小学生幽默笑话

【华为手机】信息社会导致华为品牌手机的进货价格瞒不住了，看“哭”手机商！

新华网客户端|亚美尼亚新冠确诊病例超2.8万例

ZAKER|到现在，才知道他的做法有多明智！，俄国历史上主动退位的总统

朝鲜发现新冠疑似病例开城实施紧急状态

梦见牛发疯攻击别人流血死了梦见牛发疯攻击别人一群

【】“天才少年”刚毕业就年薪201万！全球仅4人！

求职|为什么找工作时，有些企业只看第一学历？

手机科技园谁说iPhone没有游戏模式？教你如何开启，这一招连果粉都不知道

嘻哈飞车族|所有游戏将接入“金融级”人脸识别技术，腾讯升级防沉迷举措

蓝鳍金枪鱼价格多少钱一斤?蓝鳍金枪鱼和黄鳍金枪鱼的区别是什么?

为何有的智齿有三个脚

#1号海外观察#不料哥哥当场被保安刺死，女子被要求戴口罩后喊来哥哥出气

工资都给你算好啦！元旦加班工资怎么算

微软Surface|微软Surface商用版首次上线京东，包括Laptop 3/Pro X等

老鼠尸体能起到驱鼠作用吗

社交|年轻人越来越不喜欢用微信发语音了，如何看待这一现象？

家里坐垫怎么清洗最干净家里坐垫如何清洗