孙晶
自然语言处理工程师
6年经验
2024-12-27
个人介绍:对于文本处理相关工作都较为熟练
编程语言:python,java
数据库:mysql,mongodb,neo4j
掌握常见机器学习算法、深度学习算法
主要工作方向为nlp方面
熟悉知识图谱相关技能
熟悉Django
熟悉python爬虫
项目经验:表单分类、营业执照字段分类、单样本构造分类模型
项目主要技术:Bilstm,Attention,NER,transformer
项目职责:
表单分类:
1)完成数据预处理:取图片上面1/3并由tif格式转为png格式,优图全文识别后只保留汉字,日期,转为训练所需数据形式存入csv
2)构建tag-to-id,id-to-tag,char-to-id,id-to-char字典
3)构建embedding-bilstm-attention模型并训练
4)模型优化(调整批次大小,学习率,加入attention,句子最小粒度可选char,word,char+word三种模式等等)
5)完成表单分类,使用规则提取表中组合名称及日期
文本分词模型构建
实体识别模型构建
机器翻译模型构建
知识图谱构建
技 能:
其他