В ерата на големите данни правителствата и международните организации, включително ООН, все по-често разчитат на цифрови модели за вземане на критични решения. От разпределението на ваксини до планирането на спасителни операции при бедствия – приема се, че сателитното наблюдение предоставя прецизна „топлинна карта“ на човешкото присъствие на Земята. Ново мащабно проучване, публикувано в авторитетното списание Nature Communications, обаче разбива тази илюзия.
Екип от изследователи от университета Аалто във Финландия разкрива сериозен дефект в алгоритмите, използвани за глобално картографиране. Оказва се, че най-популярните демографски бази данни системно „изпускат“ стотици милиони жители на селските райони. Отклоненията са драстични – в някои случаи компютърните модели не отчитат между 50% и 80% от реалното население в тези зони.
В миналото държавите разчитаха на класически преброявания, при които служители физически посещаваха всяко домакинство. Този метод обаче е скъп, бавен и труден за изпълнение в развиващите се страни. Неговото място бе заето от глобални мрежи като WorldPop, LandScan и GHS-POP. Тези системи разделят планетата на малки клетки и използват изкуствен интелект, за да анализират сателитни снимки, пътна инфраструктура и нощна осветеност, генерирайки приблизителен брой жители.
Основният проблем пред учените досега беше липсата на надежден критерий за проверка на тези данни в отдалечените райони. Статистиката в развиващите се страни често е непълна или остаряла, което създава затворен кръг – алгоритмите се обучават върху неточни данни и произвеждат неточни резултати.
Авторите на новото изследване намират оригинален начин да преодолеят този проблем. Те използват изключително точните данни от документи за принудително разселване при строежа на 307 големи язовира в 35 държави. Тъй като тези проекти изискват стриктна регистрация на всеки жител за изплащане на компенсации, данните са много по-прецизни от стандартните преброявания. Сравнявайки реалния брой на изселените хора с прогнозите на сателитните модели за същите територии, учените откриват мащаба на грешката.
Резултатите са тревожни. Петте най-използвани световни бази данни показват една и съща слабост: те масово подценяват гъстотата на населението извън градовете. Моделът GHS-POP, разработен от Съвместния изследователски център на Европейската комисия, се представя особено слабо в райони с ниска гъстота, като на практика ги отчита като необитаеми.
Причините за тази „слепота“ на технологиите са чисто технически. Алгоритмите за машинно обучение са тренирани предимно с изображения от градска среда, където сградите имат ясни геометрични форми и контрастни покриви от бетон или метал. В селските райони на бедните държави къщите често са изградени от глина, дърво и слама. За оптичните сензори тези материали се сливат с околната почва и суха трева, правейки домовете невидими за софтуера.
Допълнителен проблем създава разчитането на нощното осветление като индикатор за живот. В много райони електрификацията е слаба или хората пестят енергия, оставяйки цели населени места тъмни на нощните сателитни снимки. В гористите местности пък гъстата растителност често скрива малките постройки от погледа на камерите.
Последиците от тези грешки не са само статистически, а засягат пряко човешкия живот. Когато при природно бедствие спасителните служби разчитат на тези карти, те могат да изпратят в пъти по-малко храна, вода и лекарства от необходимото. В здравеопазването това води до провал на ваксинационни кампании, тъй като цели общности остават извън плановете за доставки, превръщайки се в скрити огнища на зарази.
Учените подчертават, че решението не е в отказ от технологиите, а в промяна на подхода. Необходими са хибридни модели, които комбинират сателитни данни с микропреброявания на място, а институциите трябва да възприемат сегашните цифри за селските райони не като факт, а като силно занижена долна граница.
