当前状态:
作为80初的中年人,工作年限早已超过10年。不过在2016年才转向了 NLP 开发,编程语言也从 C# 变为 Python,到现在刚好是10+年。
已经离职有些日子了,现在重整旗鼓继续工作。
经历过从传统机器学习到大模型(LLM)时代的数次技术迭代,因此熟悉不同的技术栈。
技术栈与经验:
-
深度 NLP 背景: 从经典的文本分类、NER(如基于 BERT 类模型的微调)到现代 LLM(如基于 OpenAI、Gemini、Ollama 的集成与调优)。
-
文档智能解析: 曾负责过大量的简历、论文等异构文档的解析,擅长处理各种复杂的 PDF/Office 文档,其中会结合使用纯 PDF 库(如 PyMuPDF)、布局分析工具(PaddleOCR)、多模态模型等工具,实现较为精确的布局分析与结构化提取,解决 RAG 系统中“数据入库质量”的瓶颈问题。
-
数据分析与经典机器学习: 熟练使用 Pandas、NumPy 进行大规模数据探索性分析(EDA)。不仅能处理结构化数据,还能通过 Scikit-learn 实现回归、聚类及分类任务。
-
熟悉后端开发: 熟悉 Python 生态(FastAPI、Flask),也熟悉 PostgreSQL、MySQL 及 Elasticsearch 复杂查询。
-
工程化能力: 熟悉 Docker 容器,有主流云平台的(AWS、阿里云等)的实际运维和部署经验。
我能做什么:
-
垂直领域 RAG 系统: 针对招聘、医疗等行业,构建本地化、零隐私泄露的结构化知识库。
-
复杂数据清洗与后端开发: Python 后端架构设计、大规模数据采集与清洗。
补充信息:
独立负责过数个中型以上的项目,有较强的 Ownership。习惯主动跟进项目进度,坚持通过详尽的文档和清晰的代码来沟通。



6

