LLM-based GenBI从探索到实践
随着LLM-based Generative AI的火热,这个浪潮也席卷到了数据库领域。DB for AI和AI for DB的概念更多地进入了人们的视野。首先看DB for AI,数据库与ML training和inference的集成产品化已久,比如AWS RedShift和SageMaker的集成思想[1] move model to the data rather than vice versa;这两年基于向量检索 + LLM的RAG更让各大数据库全面拥抱AI。再看AI for DB,基于ML智能调优数据库的想法,很早就被Andy Pavlo提出,其推动的self-driving da[……]
从MySQL InnoDB物理文件格式深入理解索引
1. InnoDB物理文件的基本结构
从服务和存储角度看异地多活的高可用架构
1. 前言
广告系统的平台架构与交互流程
阿里云第一届PolarDB数据库性能大赛Java排名第一分享
参加天池大赛-阿里云第一届PolarDB数据库性能大赛,比赛以NVME Optane SSD为背景,在此之上开发单机存储引擎比拼性能,支持C++和Java语言。我的完赛成绩是Java语言排名第一,总排名20(共1653人参赛,队伍名称:neoremind),与C++第一差距在2.1%(<9s)。众所周知,类似的系统如果想榨干硬件,那么越贴近底层越好,Java存在一些天然的劣势,但是作为这么多年的资深JAVAer,还是想挑战一把。
消息队列技术点梳理(思维导图版)
Nesto – Hulu用户分析平台的OLAP引擎
本文主要介绍Hulu用户分析平台使用的OLAP引擎——Nesto(Nested Store),是一个提供近实时数据导入,嵌套结构、TB级数据量、秒级查询延迟的分布式OLAP解决方案,包括一个交互式查询引擎和数据处理基础设施。
1. 项目背景
使用火焰图做性能分析
系统性能的评估维度可能很多,包括应用的吞吐量、响应时间、任务完成时间和资源利用率等。但是这些指标(metrics)仅仅是表象,一旦发现异常,如何从代码级别定位性能问题才是解决问题的关键,本文介绍了一种使用火焰图(Flame Graph)来做性能分析的方法,在实战中具备很高的可操作性和快速pinpoint问题的能力。
下面按照1. 发现问题,2. 分析问题,3. 解决问题三个章节展开,最后是4. Lesson Learned。
1. 发现问题
最近公司完成大数据集群的迁移,应用大多是Spark开发的,但是仍然存在一个老的每日运行的Hadoop任务突然发现指标异常,主要体现在[……]
浅谈从Google Mesa到百度PALO
1. Mesa
JAVA并发编程实战笔记
第二次认真读了Doug Lea的Java Concurrency In Practice这本大作,记录笔记在此链接。
[……]
Easy-mapper – 一个灵活可扩展的高性能Bean mapping类库
1 背景
ElementConf ef = new ElementConf(); ef.setTplConfId(tplConfModel.getTplConfIdKey()); ef.setTemplateId(tplConfModel.getTemplateId[......]<p class="read-more"><a href="https://neoremind.com/2016/08/easy-mapper-%e4%b8%80%e4%b8%aa%e7%81%b5%e6%b4%bb%e5%8f%af%e6%89%a9%e5%b1%95%e7%9a%84%e9%ab%98%e6%80%a7%e8%83%bdbean-mapping%e7%b1%bb%e5%ba%93/">继续阅读</a></p> |
从JVM说起到初探Scala应用实践
最近在公司组内分享了一次关于JVM、Scala以及Spark介绍性质浅析的议题,这种形式的分享可以鞭策自己主动、自驱的完成一些既定目标,还能和有经验的人士一起交流,共享与学习是每一个做技术的同胞都应该拥抱的价值观。
PPT见连接,请点此。
[……]
大塞车游戏活动的算法解
最近在公司组织的培训上,遇到了一个很有意思的算法题,这篇文章就借这个为题提供一个解。
Flume+Kafka收集Docker容器内分布式日志应用实践
1 背景和问题
使用Scala开发一个DSL来做远程调用
问题背景
如何快速的来进行远程RPC调用,来进行测试、排查问题?