自动生成代码：TensorFlow工具TF-Coder开源谷歌TensorFlow开源了一个帮助开

机器之心报道
编辑：魔王、陈萍
如何使编程更加便捷？最近，谷歌TensorFlow开源了一个帮助开发者写TensorFlow代码的程序合成工具TF-Coder 。
项目地址：https://github.com/google-research/tensorflow-coder
GoogleColab试用地址：https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb
论文地址：https://arxiv.org/pdf/2003.09040.pdf
用过TensorFlow框架的应该都知道，在操纵张量时，需要跟踪多个维度、张量形状和数据类型兼容性，当然还需要考虑数学正确性。此外， TensorFlow有数百种操作，找到要使用的正确操作也是一项挑战。
那么，除了直接对张量操纵进行编码以外，如果仅通过一个说明性示例进行演示，就能自动获取相应的代码呢？这个想法听起来很诱人，而TensorFlowCoder（TF-Coder）使这成为可能！
TF-Coder的原理是：给出期望张量变换的输入-输出示例， TF-Coder运行组合搜索，找出能够执行此变换的TensorFlow表达式，并最终输出对应的TensorFlow代码。

文章图片
给出输入-输出示例， TF-Coder在1.3秒内找出解决方案。
TF-Coder的合成算法如下所示：

文章图片
下面的动图展示了使用TF-Coder解决张量操纵问题的过程：
那么， TF-Coder工具可以在哪些场景中起到作用呢？
TF-Coder：通过示例进行TensorFlow编程
假如你想将包含M个元素的向量（下例中指‘rows’）和包含N个元素的向量（下例中指‘cols’）依次进行相加，生成一个包含所有成对和的MxN矩阵。
使用TF-Coder ，你只需提供一个输入-输出示例（M=3 ， N=4）即可完成该操作，无需逐行进行编程。
例如输入张量为：
inputs={
'rows':[10,20,30],
'cols':[1,2,3,4],
}
对应的输出张量为：
output=[[11,12,13,14],
【自动生成代码：TensorFlow工具TF-Coder开源】[21,22,23,24],
[31,32,33,34]]
基于以上输入-输出信息（默认情况下已经输入到TF-CoderColab中）， TF-Coder工具将在一秒内自动找到合适的TensorFlow代码：
tf.add(cols,tf.expand_dims(rows,1))
这个简单的例子旨在说明TF-Coder利用示例进行编程的思想。而TF-Coder的功能不止于此，它还可用于更难的编程问题中。
TF-Coder帮你找到正确的函数
假设你正在处理数值特征，如某个物品的价格。数据集中的价格范围很广，例如从低于10美元到超出1000美元不等。如果这些价格被直接用作特征，则模型可能出现过拟合，在模型评估阶段可能难以处理异常价格。
为了解决上述问题，你可能需要使用bucketing ，来将数字价格转换为类别特征。例如，使用bucket边界[10,50,100,1000]意味着低于10美元的价格应归入bucket0 ， 10美元至50美元的价格应归入bucket1 ，依此类推。
在选择bucket边界之后，如何使用TensorFlow将数值价格映射到bucket索引呢？例如，给出以下bucket边界和物品价格：
#Inputtensors
boundaries=[10,50,100,1000]
prices=[15,3,50,90,100,1001]
计算每个项的bucket编号：
#Outputtensor
bucketed_prices=[1,0,2,2,3,4]
尽管TensorFlow具备多种bucketing操作，但要弄清楚哪种操作适合执行这种bucketing ，也是比较棘手的事情。由于TF-Coder可以通过行为识别数百个Tensor操作，因此你可以通过提供输入-输出示例来查找正确的操作：
#Input-outputexample
inputs={
'boundaries':[10,50,100,1000],
'prices':[15,3,50,90,100,1001],
}
output=[1,0,2,2,3,4]
只需几秒钟， TF-Coder就能输出以下解决方案：
tf.searchsorted(boundaries,prices,side='right')
TF-Coder：用聪明的方式结合函数
现在我们来看另一个问题：计算一个0-1张量，它可以找出输入张量每一行中的最大元素。
#Inputtensor
scores=[[0.7,0.2,0.1],
[0.4,0.5,0.1],
[0.4,0.4,0.2],
[0.3,0.4,0.3],
[0.0,0.0,1.0]]
#Outputtensor
top_scores=[[1,0,0],
[0,1,0],
[1,0,0],
[0,1,0],
[0,0,1]]
注意，如果一行内相同的最大元素重复出现（如scores中的第三行），则标记第一次出现的最大元素，这样top_scores的每一行都只有一个1 。
与上一个问题不同，这里不存在可执行该计算的TensorFlow函数。在文档中搜索「max」，你可能找到tf.reduce_max、tf.argmax和tf.maximum ，但也不清楚到底该用哪一个？tf.reduce_max输出[0.7,0.5,0.4,0.4,1.0] ， tf.argmax输出[0,1,0,1,2] ， tf.maximum不合适，因为它只能容纳两个参数。这些函数似乎都与该示例的期望输出关联不大。
而TF-Coder可以帮你解决这类棘手问题。你可以将这个问题写成输入-输出示例的形式：
#Input-outputexample
inputs={
'scores':[[0.7,0.2,0.1],
[0.4,0.5,0.1],
[0.4,0.4,0.2],
[0.3,0.4,0.3],
[0.0,0.0,1.0]],
}
output=[[1,0,0],
[0,1,0],
[1,0,0],
[0,1,0],
[0,0,1]]
TF-Coder结合使用tf.one_hot和tf.argmax ，得到问题的解：
tf.cast(tf.one_hot(tf.argmax(scores,axis=1),3),tf.int32)
通过对TensorFlow操作组合进行详细搜索， TF-Coder通常能够发现优雅的解决方案，从而简化步骤，加速TensorFlow程序。
TF-Coder：用更少的debug ，写出准确的代码
考虑通过将每一行除以该行之和，把整数出现次数列表归一化为概率分布。例如：
#Inputtensor
counts=[[0,1,0,0],
[0,1,1,0],
[1,1,1,1]]
#Outputtensor
normalized=[[0.0,1.0,0.0,0.0],
[0.0,0.5,0.5,0.0],
[0.25,0.25,0.25,0.25]]
即使你知道可用的函数（tf.reduce_sumfollowedbytf.divide），写出正确的代码也并非易事。第一次尝试可能是这样的：
#Firstattempt
normalized=tf.divide(counts,tf.reduce_sum(counts,axis=1))
但是以上代码是正确吗？我们需要考虑许多潜在的问题：
代码中axis的值正确吗？是否应改为axis=0？
counts和tf.reduce_sum(counts,axis=1)的形状与除法兼容吗？需要改变形状或执行转置操作吗？
counts和tf.reduce_sum(counts,axis=1)都是tf.int32张量。 tf.int32张量可以被除吗？是否需要先将其转换为float数据类型？
两个参数的顺序对吗？是否需要调换位置？
输出的类型是tf.int32、tf.float32 ，还是别的什么？
是否存在更简单或更好的方式？
而使用TF-Coder ，你只需要给出以下输入-输出示例：
#Input-outputexample
inputs={
'counts':[[0,1,0,0],
[0,1,1,0],
[1,1,1,1]],
}
output=[[0.0,1.0,0.0,0.0],
[0.0,0.5,0.5,0.0],
[0.25,0.25,0.25,0.25]]
TF-Coder给出解决方案：
tf.cast(tf.divide(counts,tf.expand_dims(tf.reduce_sum(counts,axis=1),axis=1)),tf.float32)
TF-Coder生成以上解决方案时，可以确保代码在示例输入上运行时能够准确生成示例输出。 TF-Coder的解决方案避免了不必要的步骤。你可以快速找出以上潜在问题的答案：需要采用额外的tf.expand_dims步骤，使张量形状与除法兼容；tf.divide的答案必须是tf.float32类型。
通过这种方式， TF-Coder可以帮助开发者编写简单准确的代码，且无需痛苦的debug过程。
局限性
不过， TF-Coder也有其局限性。目前它可以在一分钟内找到涉及3到4种运算的解决方案，但短时间内找到涉及6种及以上操作的解决方案，对它来说还是太过复杂。此外， TF-Coder尚不支持复张量、字符串张量或RaggedTensor 。
TF-Coder支持操作的完整列表，参见：https://colab.research.google.com/github/google-research/tensorflow-coder/blob/master/TF-Coder_Colab.ipynb#scrollTo=Q6uRr4x9WHRC
此外， TF-Coder只能保证解决方案对给出的输入-输出示例有效。该工具会搜索一个与给定输入-输出示例相匹配的简单TensorFlow表达式，但有时候「过于简单」，不能按预期进行泛化。尽可能让示例无歧义会有所帮助，这一般可以通过向输入和输出张量添加更多数值来实现。

自动生成代码：TensorFlow工具TF-Coder开源

推荐阅读

青出于蓝胜于蓝下一句青出于蓝胜于蓝

#尚雯婕#厉娜再谈许飞尚雯婕互撕内幕被疑炒作，本尊霸气否认：没剧没唱片没综艺炒毛线！

徐水吧|保定来了一群陌生人，不买他的东西就死磕！

在转转上买东西都遇到过怎么样的卖家呢

对朋友太过精明咋办

『兔子』兔子到底有多可怕？

肉身|（法治）福建三明中院判令荷兰收藏家归还“章公祖师”肉身坐佛像

趣头条|谈一谈爱车博越，【用车感受】舒适性和操控性我很满意

扎扎|NBA史上五大垫脚惨案：扎扎垫脚伦纳德不算啥，榜首三垫UFO

|欧青赛MVP面临职业生涯艰难抉择：回归皇马还是继续外租？

初做银行客户经理的童鞋曾哭诉：每天陪客户喝酒很痛苦。不知这是实情吗做女生有没有啥解决之道

梦见自己的孩子从高处坠落预示着什么梦见自己的孩子丢了是什么意思

用 Python 监控知乎和微博的热门话题

齐鲁晚报日照生活资讯|防汛Ⅳ级预警！莒县发布暴雨红色预警信号

奇葩笑坊身体却把妳出卖了，搞笑GIF：虽然嘴上说着不要

一品星者|说刘昊然丑也就算了，这次竟还嫌黄渤老！，宋祖儿的情商真够低的

车家号1.5T/1.8T可选，吉利豪越到店，尺寸媲美汉兰达，后排放倒成床，配

新华网|美国日增新冠确诊病例近20万连续5天刷新全球纪录

眼镜为啥总是有灰尘

罗马是现在的那个国家罗马是哪国的港口