winmaxfit
本站致力于IT相关技术的分享
多技术栈环境下基于XState与事件驱动的复杂工作流架构权衡 多技术栈环境下基于XState与事件驱动的复杂工作流架构权衡
摆在面前的问题是一个复杂的、长周期的文档处理工作流。一个文档从上传开始,需要经过多个异步处理阶段:光学字符识别(OCR)、内容校验、风险规则匹配、人工审核,最终归档或驳回。整个过程可能耗时数分钟到数天,其中“人工审核”是一个阻塞步骤,需要等
2023-10-27
构建基于Kubeflow的分布式SciPy计算组件以处理海量数据湖特征工程 构建基于Kubeflow的分布式SciPy计算组件以处理海量数据湖特征工程
我们的特征工程管道遇到了一个无法回避的物理瓶颈。最初为GB级数据集设计的、基于SciPy和Pandas的信号处理脚本,在面对数据湖中TB级的时序数据时,单机执行时间从几小时飙升到数天。简单地垂直扩展实例(使用内存和CPU更大的机器)很快就触
2023-10-27
在GKE上利用自定义Kong插件为OpenFaaS函数构建分布式GraphQL聚合层 在GKE上利用自定义Kong插件为OpenFaaS函数构建分布式GraphQL聚合层
我们面临一个典型的Serverless架构演进后的困境:几十个细粒度的OpenFaaS函数部署在Google Kubernetes Engine (GKE)上,每个函数负责一个独立的业务领域,例如查询用户信息、获取订单列表、检查库存状态。前
2023-10-27
为Hadoop生态构建具备ACID特性的数据依赖扫描与血缘追踪系统 为Hadoop生态构建具备ACID特性的数据依赖扫描与血缘追踪系统
一个线上突发的Log4j高危漏洞,将整个技术团队拖入了长达数周的应急响应。问题不在于修复Java应用本身,真正的梦魇来自于数据平台。成千上万的Hadoop任务,每天处理着PB级的数据,它们运行时依赖了各式各样的JAR包。现在,一个无法回避的
2023-10-27
构建从 Apache Flink 到 React 的端到端流式数据一致性测试框架 构建从 Apache Flink 到 React 的端到端流式数据一致性测试框架
团队接手了一个实时用户行为分析仪表盘。后端是 Apache Flink,负责处理海量的用户点击事件流,进行复杂的状态计算,比如会话窗口(Session Window)分析;前端是一个 React 应用,通过 WebSocket 接收 Fli
2023-10-27
构建基于OIDC与MySQL的实时特征存储元数据服务及Storybook组件化前端 构建基于OIDC与MySQL的实时特征存储元数据服务及Storybook组件化前端
当团队的机器学习模型从个位数增长到几十个时,特征管理混乱是必然会引爆的第一个问题。最初,特征逻辑散落在各个数据处理脚本和模型训练代码中,不仅重复计算,更严重的是线上线下特征不一致导致的灾难性后果。我们决定构建一个内部的Feature Sto
2023-10-27
3 / 5