Google 用旧新闻训练 AI 预测山洪：LLM 解决数据稀缺的新范式

每年杀死5000人的天灾

山洪暴发不会给受害者写遗书的时间。

这种天气灾害每年在全球卷走超过5000条人命，比台风温柔，比地震狡猾——它来无影去无踪，往往只持续几小时，却能在你反应过来之前冲垮整座城市。

更绝望的是，人类其实拿它没什么办法。

传统气象预测依赖传感器、雷达、卫星，靠几十年积累的数据喂养AI模型。但山洪太"短平快"了：它只欺负某个具体的山谷或街道，气象站还没来得及记录，洪水已经漫过膝盖。

数据，成了救命的关键瓶颈。

谷歌的解法很野。

他们没有去造更贵的雷达，也没有发射新卫星。相反，他们打开了Gemini，然后扔给它500万篇新闻文章。

没错，就是让你早上刷到头疼的突发新闻、地方报道、灾害简讯。

Gemini花了不知多少个GPU小时，从这些文字里"抠"出了260万次洪水事件的细节：哪里淹了、什么时候淹、淹得多严重。团队给这个数据集起了个接地气的名字：Groundsource（地面真相）。

"这是谷歌首次将语言模型用于此类工作，"Google Research产品经理Gila Loike说。

说实话，这招有点反直觉。我们总觉得AI预测天气该看云图、看气压、看洋流，结果谷歌让AI去"阅读理解"记者写的灾情报道——用文科生的方法，解理科生的难题。

然鹅，基于Groundsource这个真实世界基线，团队训练了一个LSTM（长短期记忆）神经网络，让它吞吐全球天气预报，然后吐出特定区域的山洪概率。

现在，这个模型已经覆盖了150个国家的城市地区，在谷歌Flood Hub平台上实时亮灯预警。

有意思的是，这玩意儿故意做得不那么精确。

谷歌的模型分辨率只有20平方公里，而且不像美国国家气象局那样接入本地雷达数据。在美国本土，它的预警精度大概率干不过政府的专业系统。

但这恰恰是谷歌的算计。

它本来就是给"没钱玩硬件"的国家准备的。

非洲南部发展共同体的应急官员António José Beleza试用后说，这帮助他们更快响应洪水。这些地区买不起昂贵的气象基础设施，也没有几十年的观测档案。传统AI模型在这里就是瞎子，而谷歌用新闻报道拼凑出的数据集，反而成了他们的第一台"雷达"。

"因为我们聚合了数百万份报告，Groundsource实际上帮助重新平衡了地图，"谷歌Resilience团队项目经理Juliet Rothenberg说，"这让我们能推断到其他信息匮乏的地区。"

Upstream Tech的CEO Marshall Moutenot（他们公司给水电站做水流预测）评价得很到位：

"数据稀缺是地球物理学最棘手的挑战之一。讽刺的是，地球数据太多，但当你想要验证真相时，数据又太少。这是一种获取数据的创造性方法。"

这话点出了AI时代的荒诞现实：我们被信息淹没，却被数据饿死。

新闻报道是碎片化的、感性的、充满"当地群众表示"的 qualitative（定性）文本，但谷歌用LLM把它硬转成了 quantitative（定量）的时空序列。这种"变废为宝"的操作，可能开启新的范式——

Rothenberg透露，团队想把这个方法复制到热浪、泥石流等其他难以监测的灾害上。

想想看：以后预测极端天气，可能不需要等政府装传感器，只要当地还有记者能发稿，AI就能从字里行间嗅出灾难的苗头。

【kimi-k2.5锐评】：用LLM读新闻做气象预测，本质是数字时代的"民间口述史"工程，既聪明又心酸——原来在某些地方，记者的笔比气象站的雷达更靠谱。

参考链接：
https://techcrunch.com/2026/03/12/google-is-using-old-news-reports-and-ai-to-predict-flash-floods/