ID:22746
田强 etl工程师 1年经验
2025-05-14
个人介绍:1.熟练mysql关系型数据库,熟练掌握 mysql的各种常用函数; 2.熟练掌握ETL工具,使用Kettle对不同数据库平台数据进行数据的抽取,清洗,转化等调度; 3.熟练SQL 的性能调优,能够对 SQL 进行多方面的优化,实现数据同步; 4.熟悉Linux的基本常用命令、vi文本编辑器,shell脚本编程; 5.熟悉FineReport 进行普通报表、聚合报表、决策报表的开发; 6.熟练编写对数据进行查询、统计等数据操作; 7.了解hadoop生态框架,mr原理,hdfs读写机制,yarn的资源调度机制;
项目经验:众安保险项目-车险可视化平台 etl工程师 项目介绍:车险市场关乎于公司在市场的经营状况,本着不断做大原则,公司目标对产品市场通过统计车险各种数据,分析数据,辅助决策,制定相应的策略,推出满足市场需要的产品,抢占市场份额。 开发工具: hadoop+hive+Oracle+kettle+sqoop+finereport等 岗位职责: 1.确定和分析业务需求,客户的分类,会员和非会员;客户的来源,线上,线下等。客户的支付方式:付现,刷卡,积分,优惠券等,客户的支付渠道:微信支付,支付宝支付,银行卡支付,信用卡支付等,并将其编写成文档。 2.确定数据的来源,流向,设计表及其属性,设计存储过程等编写成文档。 3.使用Sqoop和Kettle完成数据的导出导入工作,写存储过程实现数据的抽取,加载,转换。 4.完成业务报表的开发工作,实现业务销量明细、存销比数据、销量库存数据、价格及地区月度数据等需求的数据。 1)数据表进行优化语句,查询速率整体优化了20% 2)ODS层:使用kettle工具连接生产Oracle数据库进行抽取 3)DW层:使用kettle工具,对元数据进行清洗,做去除脏数据、转换无效字符、值映射等操作后,把数据存入hive数据库中 4)根据需求,通过FineReport报表工具进行可视化展示
技      能: 其他  
¥900 / 8小时
立即预约
ID:22750
司浩 爬虫工程师 15年经验
2025-05-13
个人介绍:1. 熟练使用 Python 语言和常见的第三方库;有良好的代码风格及编程能力 2. 熟悉使用正则表达式、Xpath 和 BeautifulSoup 等相关网页提取技术 3. 熟悉 Scrapy 框架的使用,同时有过 Scrapy-redis 分布式爬虫经验 4. 熟悉 Fiddler、AirtextIDE 等 app 爬虫工具 5. 熟悉 MySQL、redis 等数据库 6. .熟悉常见的反爬机制,如验证码识别、IP 封禁、UA 监测和 cookie 认证等;了解加密数据的处理 7. 了解 web 框架 Django 和 Flask 8. 了解多进程多线程和协程的相关使用 9. 了解代码管理工具 git 10. 了解多进程多线程和协程的相关使用 11. 了解前端 HTML,CSS,JS,AJAX 等相关前端知识 12. 了解 Linux 操作系统,熟悉其基本操作 13. 了解数据清洗,能够使用 NumPy、Pandas 等工具进行数据处理
项目经验:航空机票信息查询 项目描述: 应客户需求,对某国外航空公司网站进行机票信息爬取,然后把数据交给用户,供用户平台使用。 责任描述: 使用 Scrapy 框架,主要进行页面分析、 数据采集、数据清洗、数据保存等处理 1. 登录验证码的处理-该网站验证码比较简单,采用 Scrapy 自带的验证码处理模块 2. 由于只能使用国外 IP,使用代理 IP,并添加 user-agent 和延时规避反爬 3. 使用 Xpath、正则和 lxml 的 etree 模块进行页面解析与数据提取 4. 使用 Mongodb 数据库保存爬取数据
技      能: 其他  
¥200 / 8小时
立即预约
立即预约
意见反馈