讨论关于千万行GB级MySQL表的查询性能问题，有牛人来帮忙解答一下吗？

白玉虎383阅读37评论超过 2 年前

Update 20240216
最终使用了Clickhouse彻底一劳永逸解决统计问题，不过是用了一个比较笨的方法。RAW数据还是按行存到MySQL方便按id、datetime之类的方式按行查询。一些需要统计的数据塞进Clickhouse。浪费了磁盘空间（和一些Clickhouse的后台消耗），省了我的生命……

感谢大家给与的回复和建议！Case closed!

因为项目需要，用PHP/MySQL作了一个简易数据管理工具来存储和查询一些数据。开始的时候没觉得什么，结果当数据量变成6300多万条，6.8G的大表（MyISAM）后，事情就变得烦躁了起来……

大概来说，这个数据库存储了多个项目（project）的往来资料，表结构：

CREATE TABLE `records` (
  `serial_finance` bigint unsigned NOT NULL,
  `product_name` mediumint unsigned DEFAULT NULL,
  `trade_time` datetime DEFAULT NULL,
  `account` mediumint unsigned DEFAULT NULL,
  `amount_in` decimal(7,2) NOT NULL DEFAULT '0.00',
  `memo_project` smallint unsigned DEFAULT NULL,
  `memo_shopname` mediumint unsigned DEFAULT NULL,
  KEY `memo_shopname` (`memo_shopname`),
  KEY `product_name` (`product_name`),
  KEY `project_account_search` (`memo_project`,`account`) USING BTREE,
  KEY `trade_time` (`trade_time`),
  KEY `account` (`account`),
  KEY `serial_finance` (`serial_finance`),
  KEY `memo_project` (`memo_project`,`trade_time`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8mb3

因为所有数据都是从一个个CSV文件里导入的，这还是把所有TEXT类字段都放到别的表排重建立ID后再引用回来后的结果，所以相关字段都是INT类了，否则表应该已经超过20G了。之所以没有使用InnoDB也是考虑到没有频繁的INSERT/UPDATE操作，大多是SELECT。

如果根据索引来检索，在数据量没有很大的情况下尚可容忍，可是因为要经常进行整表计算，没有办法使用索引，又或者纯粹因为数据量太大，只能全表遍历，查询就变成了400多秒。比如：

SELECT memo_project, max(trade_time) as lasttime, sum(amount_in) as sum, avg(amount_in) as avg, max(amount_in) as max, min(amount_in) as min, count(*) AS num FROM records GROUP BY memo_project;

目前我尝试过PARTITIONING来分区，也试过把每个不同的memo_project使用MRG_MYISAM来分表，如下：

CREATE TABLE `records` (
  `serial_finance` bigint unsigned NOT NULL,
  `product_name` mediumint unsigned DEFAULT NULL,
  `trade_time` datetime DEFAULT NULL,
  `account` mediumint unsigned DEFAULT NULL,
  `amount_in` decimal(7,2) NOT NULL DEFAULT '0.00',
  `memo_project` smallint unsigned DEFAULT NULL,
  `memo_shopname` mediumint unsigned DEFAULT NULL,
  KEY `memo_shopname` (`memo_shopname`),
  KEY `product_name` (`product_name`),
  KEY `project_account_search` (`memo_project`,`account`) USING BTREE,
  KEY `trade_time` (`trade_time`),
  KEY `account` (`account`),
  KEY `serial_finance` (`serial_finance`),
  KEY `memo_project` (`memo_project`,`trade_time`)
) ENGINE=MRG_MyISAM DEFAULT CHARSET=utf8mb3 INSERT_METHOD=LAST UNION=(`record_p1`,`record_p2`,`record_p3`,`record_p4`,`record_p5`,`record_p6`,`record_p7`,`record_p8`,`record_p9`,`record_p10`,`record_p11`,`record_p12`,`record_p13`,`record_p14`,`record_p15`,`record_p16`,`record_p17`,`record_p18`,`record_p19`,`record_p20`,`record_p21`)

这样把每个项目分表后单独查询，然后通过PHP进行数据总和排序。

SELECT max(trade_time) as lasttime, sum(amount_in) as sum, avg(amount_in) as avg, max(amount_in) as max, min(amount_in) as min, count(*) AS num FROM record_p1;

分表后，甚至也尝试过用mysqli_poll做成并发处理，不过后来发现因为等待reap_async_query()的所有结果才能聚合数据，实际性能并没有提升，反而因为增加了CPU线程和磁盘IO，性能有所下降。

所以目前看来，无论分区、分表、异步，因为COUNT/SUM/AVG/MAX/MIN都需要对大范围数据进行整个遍历，无论如何性能都没办法再提升了。

当然，我肯定是做了结果缓存的，但有没有什么更好的办法从根本上提升查询速度呢？

最后修改于超过 1 年前

讨论话题:

行业&时事

城市:

北京

顶

踩