浏览

设置

深色模式

GitHub Copilot和Codex用于科研：密集使用后的诚实评估

2024年10月4日 AI科研

科研编码与软件工程不同。目标不是可维护的系统，而是你信任的结果。这决定了AI编码工具对研究人员的作用方式。

科研编码实际涉及什么

数据清洗、统计分析脚本、预处理流程、可视化、模拟代码、从论文实现模型，这些是典型的科研编程任务。它们通常用Python、R或MATLAB编写。代码运行一次或几次，输出结果，可能再也不会被维护。

GitHub Copilot对研究人员的优势

Copilot在你打字时在编辑器中自动补全。对于科研代码，它最擅长：标准库调用（NumPy、pandas、scikit-learn操作），样板设置（加载CSV文件、设置图表样式、写文件循环），以及将伪代码注释转化为实现。写”# 从数据目录加载所有CSV文件到单个DataFrame”然后让Copilot生成正确的pandas实现确实很快。

关键失败模式

Copilot的统计代码存在看似合理但错误的问题。它会建议正确的函数名但参数不对，在你需要双尾检验时使用单尾检验，或者未经警告地对你的偏态数据应用假设正态分布的检验。不核实这些错误的研究人员将发表错误的结果。来自Copilot的每个统计实现都需要手动与文档核对。

Codex和Claude用于更长的代码任务

对于超过几行的任务，使用Claude（而不是Copilot的内联建议）更可靠。描述完整任务：”我有一个DataFrame，列是[描述它们]。写代码来[具体任务]。使用[具体库]。我需要[输出格式]。” Claude生成完整的、可审查的代码，而不是部分内联建议。运行之前检查代码。

正确的态度

AI生成的代码是你的专业知识必须核实的草稿，而不是产生正确结果的神谕。用它生成机械性的60%的代码，将你的全部注意力用于涉及统计判断、方法论选择或科学解释的40%。AI辅助科研代码的输出只有在你核实它的情况下才可信。

版权声明：

作者：

链接：https://www.sunqi.org/post-4126.html

文章版权归作者所有，未经允许请勿转载。