别再手动敲公式了!一套流程搞定Word试卷图片公式转可编辑
从网上搜集来的中考真题Word文档打开一看——公式全是图片想改个数字、换个符号只能删掉重敲想把几份试卷拼成一份却发现同一套题在不同文件夹里出现了七八次光去重就耗掉大半天。接下来我将一步步拆解整理流程并分享每个环节的经验和选择理由。无论你是想批量整理历年真题还是只是偶尔需要修一份试卷里的公式这套方法都能帮你节省大量时间。一、试卷去重用代码代替肉眼问题有多烦人从网上下载的“中考真题大全”压缩包解压后往往是这样的景象中考数学/ ├── 2025北京卷(1).docx ├── 2025北京卷.docx ├── 2025北京卷最终版.docx ├── 2025北京卷_副本.docx ├── 2024北京卷.docx ├── 2024北京卷(1).docx ├── 2024北京卷 - 副本.docx └── ...同一个文件被反复复制、重命名、存档占据空间不说更重要的是——你根本不知道哪个版本是最新的、最完整的。手动逐个打开比对几十份试卷还能勉强应付上百份呢解决思路基于内容的智能去重去重的核心思想是比较文件的实际内容而非文件名。因为同一份试卷可能被命名为“北京卷”“北京卷(1)”“北京卷最终版”等多个版本但内容几乎一致。我的去重脚本采用了两层过滤策略第一层内容哈希比对。提取Word文档中所有段落文本和表格内容拼接成一个完整字符串后计算MD5哈希值。哈希值相同的文件内容必然完全相同可以直接判定为重复。defget_docx_hash(filepath): doc Document(filepath) # 提取所有段落文本 text \n.join([paragraph.text for paragraph in doc.paragraphs]) # 提取所有表格内容 for table in doc.tables: for row in table.rows: for cell in row.cells: text \n cell.text return hashlib.md5(text.encode(utf-8)).hexdigest()第二层优先级保留策略。当多个文件内容完全一致时保留哪个我的策略是优先保留不带括号标记的原始文件删除带有(1)、(2)、1等括号数字标记的重复副本。defis_duplicate_filename(filename): 判断文件名是否包含重复标记如 (1)、(2)、1等 name_without_ext os.path.splitext(filename)[0] pattern r[\(]\s*\d\s*[\)] returnbool(re.search(pattern, name_without_ext)) defget_file_priority(filepath): 优先级无括号标记的文件优先级更高 filename os.path.basename(filepath) return0ifnot is_duplicate_filename(filename) else1# 0为最高优先级额外支持脚本同时支持PDF文件的去重通过PyPDF2或pdfplumber提取文本内容方便处理那些以PDF格式保存的试卷。运行效果 正在扫描目录: ./中考真题 找到 156 个文件 正在计算文件哈希值... 进度: 156/156 - 2025上海卷.docx (DOCX) 扫描结果 发现 23 组重复文件 【重复组 1】共 4 个文件 ✅ [保留] ./2025北京卷.docx (245.3 KB) [DOCX] ← 原始文件 ❌ [删除] ./2025北京卷(1).docx (245.1 KB) [DOCX] ❌ [删除] ./2025北京卷_副本.docx (245.5 KB) [DOCX] ❌ [删除] ./2025北京卷最终版.docx (246.0 KB) [DOCX] 建议删除 89 个重复文件 预计可释放空间: 156.78 MB【下载】2025年全国各省市中考真题卷已整理https://wxaiway.com/#/downloads/zhongkao-2025-docx【下载】2015-2024年全国各省市中考真题卷已整理https://wxaiway.com/#/downloads/zhongkao-2015-2024-docx实践建议运行去重脚本前务必备份原始文件夹防止误删PDF去重需要额外安装依赖库pip install PyPDF2或pip install pdfplumber如果试卷中包含大量图片而非文字哈希去重效果会下降此时可结合文件名相似度做辅助判断二、公式识别让大模型“看懂”数学图片混战的困境打开一份从网上下载的Word试卷你会发现里面的图片远不止公式一种——有几何图形、函数图像、表格截图、题目标志甚至还有水印和装饰性图标。真正的挑战在于这些图片和题干文字混在一起你需要精确地识别出哪些是公式图片需要转换哪些是几何图形需要保留原样。一份典型的中考数学试卷往往包含以下几种图片图片类型示例是否需要转换处理方式数学公式✅ 需要识别为LaTeX几何图形三角形、圆、函数图像❌ 不需要保留为图片表格截图数据统计表❌ 不需要转为Markdown表格或保留图片题目标志校徽、水印❌ 不需要丢弃或忽略坐标系图像抛物线、直线图❌ 不需要保留为图片典型场景一张图里既有公式又有图形最让人头疼的是那种公式与图形混合的图片比如一道几何题中图形旁边标注了角度或边长公式[三角形图片] ∠A 30°AB 5cmAC 7cm 求BC的长度这张图片里既有几何图形需要保留又有公式标注需要识别为LaTeX。如果直接整张图丢给大模型识别可能会把图形也尝试转换成LaTeX产生一堆无意义的符号。解决思路分而治之 智能筛选第一步批量提取所有图片将docx文件后缀改为.zip解压后进入word/media/目录所有图片按顺序排列media/ ├── image1.png ← 可能是公式 ├── image2.png ← 可能是几何图形 ├── image3.png ← 可能是公式 ├── image4.png ← 可能是表格截图 ├── image5.png ← 可能是函数图像 └── ...第二步根据图片特征智能分类图片本身携带了一些可用于分类的线索尺寸特征公式图片通常较小宽高比接近黄金比例几何图形通常较大且方正颜色特征公式大多是黑白或灰度几何图形可能包含彩色内容特征通过快速OCR扫描检测是否包含数学符号如、∑、√、∫等或纯几何描述一个简单的分类策略defclassify_image(image_path): 初步判断图片类型 # 1. 尺寸判断 width, height get_image_size(image_path) aspect_ratio width / height # 公式图片通常宽高比在1.5~3之间 if1.5 aspect_ratio 3and width 300: returnlikely_formula # 2. 内容检测快速OCR识别关键词 text quick_ocr(image_path) if re.search(r[√∫∑∂∆], text): returnlikely_formula if re.search(r三角形|圆|正方形|平行|垂直, text): returnlikely_geometry returnunknown第三步分类型处理图片类型处理方式明确为公式送大模型识别替换为LaTeX代码明确为几何图形保留原图插入Markdown的不确定公式图形混合送大模型并附上特殊指令“识别图中公式部分转为LaTeX图形部分保留描述”表格截图人工判断转Markdown表格或保留图片第四步人工复核与校正自动分类不可能100%准确建议采用“批量处理抽检复核”的策略对分类为“公式”的图片随机抽检10%确认识别质量对分类为“几何图形”的图片抽检确保没有漏掉的公式对不确定的图片逐张人工判断大模型识别的提示词技巧对于需要识别为LaTeX的公式图片提示词的设计直接影响输出质量基础提示词适用于纯公式图片请将这张公式图片转换为LaTeX代码。要求 1. 仅返回LaTeX代码不要任何额外解释 2. 使用行内公式格式 $...$ 或独立公式格式 $$...$$ 3. 保留所有上下标、分式、根号等结构进阶提示词适用于公式图形混合图片这张图片包含几何图形和数学标注。请 1. 识别图中的数学公式和符号转换为LaTeX代码 2. 对图形部分用文字描述其几何特征 3. 输出格式[LaTeX代码] [图形描述]实际操作中的经验批量处理效率使用API批量发送图片时注意速率限制建议每次10-20张为一组间隔几秒再发下一组成本控制大模型API按token计费LaTeX代码通常比图片占用的token少得多建议先用低成本模型做初步识别再用高精度模型复核疑难图片保留原始图片即使识别为公式也建议在Markdown中保留图片链接作为备份万一LaTeX有误可以回退效果对比处理前[image1.png] ← 公式 Emc² 的截图 [image2.png] ← 三角形ABC的图形 [image3.png] ← 分式 \frac{a}{b} 的截图处理后公式$E mc^2$  分式$\frac{a}{b}$原本混杂在题干中的各种图片现在被精准分类处理——公式变成了可编辑的LaTeX代码几何图形保留了清晰的图片整个文档既保留了结构信息又实现了公式的可编辑性。三、整理为Markdown格式为什么选择Markdown作为中间格式很多人会问为什么不直接从Word转Word原因是——Markdown是当前最“干净”的文档中间格式。纯文本版本控制友好可以放在Git里追踪每次修改公式用LaTeX书写本身就是可编辑的文本可以方便地拆解、合并、批量替换内容几乎所有文档转换工具都支持Markdown作为输入转换规范一份规范的试卷Markdown应遵循以下结构# 2025年北京市中考数学试卷 **考试时间120分钟 满分120分** ## 一、选择题每题3分共24分 1. 计算 $2^{-2} \times 4$ 的结果是 A. $\frac{1}{4}$ B. 1 C. 2 D. 4 2. 如图在 $\triangle ABC$ 中$AB AC$$\angle A 40^\circ$则 $\angle B $ A. $40^\circ$ B. $70^\circ$ C. $80^\circ$ D. $140^\circ$ ## 二、填空题每题3分共24分 9. 分解因式$x^3 - 4x \_\_\_\_\_\_$ ## 三、解答题共72分 17. 5分计算$\sqrt{18} - 4\sqrt{\frac{1}{2}} \sqrt{2}$重点注意事项行内公式用$...$包裹独立公式用$$...$$包裹不要混用选择题的选项对齐保持一致推荐用四个空格或Tab分隔填空题的横线用\_\_\_\_\_\_表示图片如几何图形保留为待后续处理处理流程中的顺序安排在整理为Markdown的过程中建议遵循以下操作顺序先整体后局部先把整份试卷的文本框架搭建起来标题、题型、题号再逐题填充内容公式优先替换在所有内容中优先将识别好的LaTeX代码填入对应位置图片最后处理几何图形等非公式图片在文本和公式都整理好之后再插入到对应位置统一校验完成全部转换后通读一遍检查公式是否正确渲染、图片位置是否合理四、通过MD2EXAM实现一键导出MD2EXAM 是专门为教育场景设计的Markdown转Word工具它解决了试卷转换中的核心痛点。【已整理好 2025年中考试卷的Markdown】https://wxaiway.com/md2exam/转换后的Word文档所有公式均可在Word公式编辑器中修改。原本需要数百次手动录入的工作现在只需一次上传、一次点击即可完成。当然也可以使用 md2wd也可正确导出word文档。https://wxaiway.com/md2wd/工作流闭环Word图片公式→ 去重 → 大模型识别 → Markdown → MD2EXAM/MD2WD → Word可编辑公式小结如果你也经常被试卷整理折磨不妨试试这套方法——第一次搭建可能需要一些时间但从第二份试卷开始你会感谢自己今天的选择。其它分享原创分享MD2EXAM——AI时代的智能组卷工具原创分享EduDraw——专为教育场景打造的矢量绘图工具AI生成公式复制到Word乱码彻底搞懂原因和解决办法分享图片水印去不掉证件照背景不会换一个网页全搞定原创分享把你的Markdown笔记一键变成高级卡片排版不用一点点调为什么网页上复制的公式粘贴到WPS就变成乱码了用 Markdown 写毕业论文一键导出符合格式要求的 Word