对于在一个有各种角色的团队中工作的数据科学家来说,编写干净的代码是一项必备的技能,因为:
- 清晰的代码增强了可读性,使团队成员更容易理解和贡献于代码库 。
- 清晰的代码提高了可维护性,简化了调试、修改和扩展现有代码等任务 。
- 小型
- 只做一项任务
- 没有重复
- 有一个层次的抽象性
- 有一个描述性的名字
- 有少于四个参数
import xml.etree.ElementTree as ETimport zipfilefrom pathlib import Pathimport gdowndef get_data(url: str,zip_path: str,raw_trAIn_path: str,raw_test_path: str,processed_train_path: str,processed_test_path: str,):# Download data from google Drivezip_path = "Twitter.zip"gdown.download(url, zip_path, quiet=False)# Unzip datawith zipfile.ZipFile(zip_path, "r") as zip_ref:zip_ref.extractall(".")# Extract texts from files in the train directoryt_train = []for file_path in Path(raw_train_path).glob("*.xml"):list_train_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]train_doc_1 = " ".join(t for t in list_train_doc_1)t_train.Append(train_doc_1)t_train_docs = " ".join(t_train)# Extract texts from files in the test directoryt_test = []for file_path in Path(raw_test_path).glob("*.xml"):list_test_doc_1 = [r.text for r in ET.parse(file_path).getroot()[0]]test_doc_1 = " ".join(t for t in list_test_doc_1)t_test.append(test_doc_1)t_test_docs = " ".join(t_test)# Write processed data to a train filewith open(processed_train_path, "w") as f:f.write(t_train_docs)# Write processed data to a test filewith open(processed_test_path, "w") as f:f.write(t_test_docs)if __name__ == "__main__":get_data(url="https://drive.google.com/uc?id=1jI1cmxqnwsmC-vbl8dNY6b4aNBtBbKy3",zip_path="Twitter.zip",raw_train_path="Data/train/en",raw_test_path="Data/test/en",processed_train_path="Data/train/en.txt",processed_test_path="Data/test/en.txt",)
尽管在这个函数中有许多注释,但很难理解这个函数的作用,因为:- 该函数很长 。
- 该函数试图完成多项任务 。
- 函数内的代码处于不同的抽象层次 。
- 该函数有许多参数 。
- 有多个代码重复 。
- 该函数缺少一个描述性的名称 。
小型一个函数应该保持很小,以提高其可读性 。理想情况下,一个函数的代码不应超过20行 。此外,一个函数的缩进程度不应超过1或2 。
import zipfileimport gdowndef get_raw_data(url: str, zip_path: str) -> None:gdown.download(url, zip_path, quiet=False)with zipfile.ZipFile(zip_path, "r") as zip_ref:zip_ref.extractall(".")
只做一个任务函数应该有一个单一的重点,并执行单一的任务 。函数get_data试图完成多项任务,包括从Google Drive检索数据,执行文本提取,并保存提取的文本 。因此,这个函数应该被分成几个小的函数,如下图所示:
def main(url: str,zip_path: str,raw_train_path: str,raw_test_path: str,processed_train_path: str,processed_test_path: str,) -> None:get_raw_data(url, zip_path)t_train, t_test = get_train_test_docs(raw_train_path, raw_test_path)save_train_test_docs(processed_train_path, processed_test_path, t_train, t_test)
这些功能中的每一个都应该有一个单一的目的:def get_raw_data(url: str, zip_path: str) -> None:gdown.download(url, zip_path, quiet=False)with zipfile.ZipFile(zip_path, "r") as zip_ref:zip_ref.extractall(".")
函数get_raw_data只执行一个动作,那就是获取原始数据 。重复性我们应该避免重复,因为:
- 重复的代码削弱了代码的可读性 。
- 重复的代码使代码修改更加复杂 。如果需要修改,需要在多个地方进行修改,增加了出错的可能性 。
推荐阅读
- 手把手将Visual Studio Code变成Python开发神器
- OpenHarmony组件复用示例
- AI可以读取人心了 心中的小秘密还能藏多久?
- 将 Pandas 换为交互式表格的 Python 库
- Django和Flask:Python Web开发的不同选择
- 肉松面包可以加热吗 肉松面包能加热吗
- 微信网名女生小清新好听 微信网名女生小清新可爱
- 《披荆斩棘》大爆三宝,赵丽颖的可靠,高启盛的后劲,林志颖的脸
- 秋葵切开后可以放冰箱第二天煮吗 秋葵切开了可以放多久
- 粉丝可以不泡水直接煮吗