ID:22794
黄明 爬虫工程师 14年经验
2025-03-13
个人介绍:网络协议和页面解析:了解HTTP/HTTPS协议和网页HTML结构,能够利用网络请求库发送请求并解析返回的页面内容。 数据抓取与存储:熟练使用Python编程语言,能够编写爬虫代码实现数据的自动抓取,并灵活运用正则表达式或解析库(如Beautiful Soup)提取所需数据。同时,对于大规模数据的处理和存储也具备相关能力。 动态页面处理:熟悉浏览器自动化工具(如Selenium),能够模拟用户行为、加载动态页面、执行JavaScript脚本,实现对JavaScript生成内容的抓取。 反爬技术应对:了解常见的反爬机制,如验证码、IP封禁、限制访问频率等,能够运用代理、用户代理池、随机请求头等技术绕过反爬手段,提高爬取效率和稳定性。 分布式爬虫与调度:具备分布式爬虫框架(如Scrapy)的使用经验,能够设计和搭建分布式爬虫系统,并进行任务调度、数据去重、分布式存储等工作。 数据清洗与预处理:具备数据清洗和预处理的能力,能够针对爬取的数据进行去重、格式转换、缺失值处理等操作,确保数据的准确性和一致性。 爬虫策略优化:能够分析网站结构和爬虫需求,制定合理的爬取策略,包括请求频率控制、代理IP的选择、登录验证处理等,提高爬虫效率和稳定性。
项目经验:爬取网易新闻并保存数据 全权负责可公开数据爬取 会使用js逆向技术 运用fillder软件 运用postman软件 字体解密操作 专业,负责
技      能: 其他  
¥900 / 8小时
立即预约
ID:22650
雷刚 算法工程师 2年经验
2025-03-08
个人介绍:(1)熟悉常用的LR、FM、GBDT等机器学习算法 (2)熟悉常用的MLP、CNN、RNN、word2vec、doc2vec等深度学习算法 (3)熟练使用tensorflow深度学习平台,有MLP、CNN等深度模型研发、落地实践经验 (4)熟练掌握hadoop、spark等大数据处理工具,处理过亿级别的分布式大数据 (5)精通python、shell等编程语言 (6)熟悉linux开发环境、git代码管理工具
项目经验:项目一:死链研判系统迭代升级 (1)工作内容:使用深度学习算法提升死链系统研判精度 (2)主要职责:基于深度学习算法textCNN训练文本分类模型,配合工程部署上上线 (3)工作成果:死链系统研判精度提升3个百分点,荣获百度2021-Q3死链业务卓越冲锋奖 项目二:推荐系统召回通路研发 (1)工作内容:基于Embedding技术,实现推荐推荐基于内容和基于用户协同过滤的召回服务 (2)工作职责:基于物品的标题、摘要和关键词等文本数据,使用doc2vec训练物品的语义向量;根据用户行为历史,制定用户向量表达公式;使用faiss近邻搜索工具,实现线上内容和用户协同过滤召回服务 (3)工作成果:推荐系统UV点击率绝对提升5个百分点,项目荣获A+等级评分 项目三:学术论文 已发表2篇推荐系统方向国际学术论文 项目四:专利 已公开发表1项推荐系统方向专利
技      能: 其他  
¥300 / 8小时
立即预约
ID:22683
刘丽华 软件工程师 2年经验
2025-03-02
个人介绍:1.爬取网页数据,数据分析,办公自动化等PYTHON相关技能。 2.WEB开发,数据库维护等JAVA相关技能。 3.深厚的数学功底,对算法较为擅长 4.近些年主攻PYTHON相关技术,对爬虫,JS逆向等较有经验。懂数据清洗,数据分析,乃至数据预测等。 5.能够读写excel、txt等格式的数据,了解数据清洗和数据分析常用的方法; 6.熟练掌握Python,基础扎实,熟悉常用的类库,精通numpy、pandas;掌握SQL/Mysql/Oracle/MongoDB/Redis等常用数据库7.相关知识;掌握数据核查,单据的整理,数据的归档等技术。熟悉主流数据库,熟悉SQL. java基础扎实,熟悉IO、多线程、集合等基础框架,熟悉分布式、缓存、消息、搜索等机制。 8.熟练使用 SpringBoot,SpringCloud,myBatis等开发框架,以及使用Spring Cloud Gateway、Netflix Hystrix、Redis、Nacos和OAuth 2.0进行身份验证和授权的经验。熟悉常用设计模式,有大型分布式、高并发、高负载、高可用性系统设计开发经验。 9.有复杂sql的编写经验,并具备sql调优能力和redis缓存调优能力。 10.熟悉Linux操作系统和基本的shell命令,能够编写简单的shell脚本。
项目经验:爬取 某些大型WEB项目,上海某区的地下管道GIS系统的开发。1.爬取网页数据,数据分析,办公自动化等PYTHON相关技能。 2.WEB开发,数据库维护等JAVA相关技能。 3.深厚的数学功底,对算法较为擅长 4.近些年主攻PYTHON相关技术,对爬虫,JS逆向等较有经验。懂数据清洗,数据分析,乃至数据预测等。 5.能够读写excel、txt等格式的数据,了解数据清洗和数据分析常用的方法;
技      能: 其他  
¥700 / 8小时
立即预约
ID:22731
华鹏 算法工程师 5年经验
2025-02-11
个人介绍:编程语言:python 深度学习:熟悉分类、检测、分割等领域的主流算法,熟悉pytorch、mxnet训练框架,熟悉算法调研->数据准备->模型训练->模型评估->模型发布->模型部署等完整流程 性能优化:熟悉onnx、tensorrt、triton等推理部署开发工具 常用库:openmmlab、paddledet、opencv等 软技能:具备较强的分析解决实际问题的能力以及良好的沟通、学习和协作能力
项目经验:异源路网结点相似度计算 1. 基于规则的结点相似度计算只考虑与结点直接关联的信息,泛化性较差;基于图神经网络的结点相似度计算只考虑了结构相似性而丢失了空间信息;基于图像分类模型可以综合考虑结点的结构和空间位置信息,此外,鉴于传统CNN模型捕捉全局信息能力较差,而结点相似度计算需要建模长距离的依赖关系,因此选择vit模型,accuracy从90%提高至96.1% 2. 鉴于输入图片的通道为异源路网信息,其各通道重要性并不相同,通过添加通道注意力机制,accuracy从96.1%提高至96.5% 3. 鉴于正负样本分布不均衡的问题,通过动态采样、focal loss等方式将accuracy提高至97%,最终帮助线匹配accuracy从85%提高到91% 车牌识别算法落地 背景:丰富算法组人工智能平台的应用能力 1. 传统车牌识别需要预先将车牌中的字符分割、然后再对分割出的字符进行分类,鲁棒性较差,因此选用LPRNet 2. 鉴于实际场景下的车牌存在多种的形变情况,通过在LPRNet中加入STN模块,accuracy从92%提高到92.7% 3. 鉴于实际场景中多存在双行车牌的情况,通过将LPRNet分层并将上下层拼接以进行最后预测使其自适应单双行车牌识别,accuracy从92.7%提高到93.6% 表格重建算法落地 1. 目前业内表格重建解决方案主要分为1)基于分割网络提取表格线然后构建单元格 2)基于端到端的生成html/xml序列 这两种方案,而html/xml序列方案基于大量的表格数据,且目前主要为英文场景下的数据集,难以迁移到中文场景、中文识别率低,遂采用分割方案(基于unet模型) 2. 鉴于单元格合并频率较高而通过表格线之间的关系生成规则的方法较为复杂难以覆盖所有合并的情况,遂在常见场景下表格线提取准确率为99%的基础上应用轮廓提取方案以获得表格单元格坐标 3. 鉴于单元格内无字区域较多且常有多行文本现象而传统opencv方案鲁棒性较差,遂采用文字检测坐标与单元格坐标匹配方案提高了单元格内容accuracy15% 身份证信息识别算法落地 1. 独立解决图片中身份证位置不固定影响的文字识别准确率不高的问题,通过正倒分类、倾斜矫正等使文字识别accuracy提高5% 2. 参与解决图片质量不佳、模型误差导致的文字识别率下降问题,通过利用监督信息对结果校正,使文字识别accuracy提高4% 3. 参与解决身份证数据被水印污染的问题,通过加入gan网络去水印将文字检测mAP提高了3.7%
技      能: 其他  
¥200 / 8小时
立即预约
立即预约
意见反馈