ID:22402
陆凤兰 爬虫工程师 10年经验
2025-06-09
个人介绍:1. 熟练使用scrapy编写爬虫程序,熟悉国外中大型电商网站海量数据爬取,能够充分利用代 理ip资源进行高效爬取 2. 熟练构建分布式爬虫,增量爬虫、多线程爬虫、Linux下的定时启动爬虫 3. 掌握基本的数据结构与算法 4. 熟悉各个网站常见反爬策略,能根据网页分析出常见反爬手段 5. 熟悉从结构化与非结构化网页中提取所需内容 6. 熟悉html/csss/js,能简单使用bootstrap,vue搭建页面,可以通过前端代码分析目标网站 真实request地址和response内容 7. 熟练使用 PyV8,JS2PY 或直接手写 python 代码去解析 JS 代码 8.熟悉nodejs和puppeteer框架开发 8. 熟悉主流的验证码识别技术(tesseract、selenium+pillow、第三方打码平台)
项目经验:使用技术: 1. 使用Scrapy_Redis搭建分布式爬虫框架 2. 使用 Re+XPath+Jsopath提取数据 3. 使用js2py或者pyv8来执行js相关代码,获取数据。 4. js环境比较复杂,无法完全找到js包,那么可以使用selenium配合浏览器,使用driver执行js代码,获取相关数据 5. 使用 Selenium+Headless Chrome无头浏览器爬取页面数据 6. 使用nodejs实现淘宝的自动登录 7. 使用elasticsearch保存数据 便于搜索查询数据 项目一:淘宝系网站相关爬虫 爬取阿里系的各类商家服务网站的数据,需要商家的账号登录。 项目二:淘宝自动登录 使用puppeteer进行自动登录操作,批量登录淘宝商家账号,并获取淘宝商家后台、直通车、钻展、超级推荐等网站的登录信息,为数据爬取提供支持
技      能: 其他  
¥1100 / 8小时
立即预约
ID:22796
刘娜 RPA开发工程师 3年经验
2025-06-08
个人介绍:Python基础扎实 ,拥有良好的编码习惯; 掌握 Django 框架 ,flask框架 ,可以基于 MVC 进行 Python 开发; 熟练使用 numpy ,pandas模块进行数据分析,使用matplotlib,echarts可视化; 熟练使用Hua Wei AntRobot RPA工具进行机器人流程自动化开发;
项目经验:(1)项目:自动化商品信息解压提取工具 ·项目描述:批量解压大量不同客户的产品信息压缩包并筛选提取出符合要求的doc文件中的指定内容并且按照解压的文件名,提取项名称,doc文件名,客户批次号作为表头生成excel。 ·技术架构:bottle+celery+pandas+oracle+poetry ·负责职能: ①使用bottle框架实现mvc模式开发形成需要的不同接口 ②使用celery实现调用解析文档的接口的分布式操作 ③使用pandas 将所需要的各项数据进行整理生成excel ④使用oracle对客户的商品信息进行储存 ⑤使用poetry 建立稳定的Python虚拟环境 (2)项目:某大型公司某国考勤自动跟催RPA工具(涉及到公司保密协议,不便告知业务名) ·项目描述:自动下载某国指定考勤系统网站的当月考勤数据并做处理后,形成excel文件并发送给相应业务负责人。 ·技术架构:Hua Wei AntRobot+pandas+requests+openpyxl ·负责职能: ①使用Hua Wei AntRobot框架实现机器人流程自动化开发 ②使用pandas实现对下载的考勤报表数据进行加工和处理形成结果excel ③使用requests请求公司的综合网站通过公司员工的id号获取邮箱 ④使用openpyxl对Excel进行格式设置
技      能: 其他  
¥1300 / 8小时
立即预约
ID:22410
陈欣 数据采集工程师助理 9年经验
2025-05-25
个人介绍:1、基本的编码基础(python) 对于任何编程工作来说都是必须的。数据名字和值得对应(字典),对一些url进行处理(列表)等等。掌握牢固。熟悉python编程语言,熟悉相关的框架和库。我主要用Python写爬虫。 2、任务队列。 当爬虫任务很大的时候,写一个程序跑下来是不合适的: 所以我们需要一种任务队列,它的作用是:讲计划抓取的网页都放到任务队列里面去。然后从队列中拿出来一个一个执行,如果一个失败,记录一下,然后执行下一个。这样就可以一个接一个地执行下去。也增加了扩展性,几亿个任务放在队列里也没问题,有需要可以增加worker,就像多一双亏筷子吃饭一样。 3、数据库 数据保存肯定要会数据库的。不过有时候一些小数据也可以保存成json等。我有时想抓一些图片就直接按照文件夹保存文件。推荐使用NoSQL的数据库,比如mongodb,因为爬虫抓到的数据一般是都字段-值得对应,有些字段有的网站有有的网站没有,mongo在这方面比较灵活,况且爬虫爬到的数据关系非常非常弱,很少会用到表与表的关系。 4、HTTP知识 HTTP知识是必备技能。因为要爬的是网页,所以必须要了解网页。首先html文档的解析方法要懂,比如子节点父节点,属性这些。我们看到的网页是五彩斑斓的,只不过是被浏览器处理了而已,原始的网页是由很多标签组成的。处理最好使用html的解析器,如果自己用正则匹配的话坑会很多。 5、运维 实际工作中运维和开发的时间差不多甚至更多一些。维护已经在工作的爬虫是一个繁重的工作。随着工作时间增加,一般我们都会学着让写出来的爬虫更好维护一些。
项目经验:爬百度贴吧的评论 爬京东的商品名和价格包括图片评论,保存到excel 爬取豆瓣电影的评分,详细介绍报保存成文件 爬取斗图网的图片保存文件
技      能: 其他  
¥1500 / 8小时
立即预约
立即预约
意见反馈