1. 对接运营/产品的需求,快速理解需求,利用SQL进行数据开发,产出报表。 2. 熟练掌握大数据技术的应用,DataX,spark,hive,flink,kafka等。 3. 掌握数据仓库建模和分层,能搭建高质量数据模型。 4. Python处理数据,包含json,excel等。 5. 有一定的SpringBoot开发能力,有UDF函数开发经验。
个人介绍
项目经验
项目描述: (携程大住宿数据分析平台) 数据源为携程海内外各渠道母子酒店的订单信息,对数据进行清洗入仓 之后, 追踪酒店间夜数计算业务指标,并进行可视化报表展示。 项目职责: 数据研发: 计算携程酒店业务指标, 开发极速查询 BI 报表。 基于 Spark(Java)实现随机抽取算法计算指标,并设计 DQC 任务监控数据浮动, 保证数据质量。 基于 Spark Streaming + Redis 生成实时动态黑名单, 并从 Redis 中获取黑名单过滤数据。 将数据写入 StarRocks,根据需求设计 StarRocks 模型,并创建物化视图,索引优化来加快查询。 建立抽象数据模型,并设置人酒权限, 开发 ArtNova BI 报表。 任务优化: 优化批处理和报表任务,保证集群稳定。 对 Spark 进行内存调优(JVM) , 优化占用集群资源多和执行速度慢的 Spark 任务。 对 StarRocks 和 Hive 数据集进行分布式 SQL 调优,加快报表查询速度。 涉及技术: Spark, StarRocks, Hive, Presto, Datax, Redis 项目描述: 为了区分不同的本体关系在计算相似度时的特征,进行相关性分析。为了对海量文本进行自动分 类,结合大数据引擎设计了相似度并行算法,提高计算效率并具有很强扩展性。 项目职责: 相似度算法 (DIF): 基于相关性分析不同语义链接, 设计特征相似度计算方法, 结果准确度达到 94% 。 文本并行算法: 基于 MapReduce 引擎, 设计文本相似度并行算法。 结合 DIF 预先计算本体所有特征间的相似度。 将点对点相似度转化成特征对文本相似度,然后聚合得到文本间相似度,结果计算效率提升 70 倍。 涉及技术: Hive, Hadoop, Sklearn, Spss
接单发单客服

添加客服微信,接单发单快人一步!
相关程序员推荐
dqzboy 高级运维工程师 7年经验
我是一名拥有超过7年运维经验的工程师,专注于容器技术、K8s集群管理以及DevOps流程。在互联网企业中,我负责过多个项目的方案规划和搭建维护,具备丰富的技术敏感度和故障排查经验。我熟悉阿里云、腾讯云、AWS等主流云服务平台,并对新兴技术保持浓厚兴趣,成功在多个项目中实现技术落地。
杭州紫冰科技有限公司 AI、前后端开发 4年经验
我们是一支来自阿里、美团由软件高级工程师、算法工程师组成的高端软件研发团队。团队小而精,自2022年成立以来,为客户提供十几个软件解决方案。设计领域为门户网站、CRM系统、智能化系统、AI大模型、计算机视觉领域。已经有大量的项目开发经验。
接外包 0年经验
本人已经工作五年
1.熟练使用U3d引擎
2.熟练使用c#、xLua、Shader Graph
3.各种插件
4.熟悉数据结构与算法
5.熟练使用设计模式
少风 视觉工程师 4年经验
应用类视觉需求可联系我