"Программа, разработанная на основе теоретической базы ученых НИУ ВШЭ, уже используется полицией Амстердама", — говорится в пресс-релизе.
Исходными данными для анализа была большая коллекция текстов. Ее составлением, и другими прикладными вопросами (где взять данные, на каких языках, и т.д.) занимались эксперты криминальной полиции. Российские специалисты готовили теоретическую базу системы. "Мы должны были выявить признаки, которые с большой вероятностью указывали, что это чат с педофилом", — приводит пресс-служба слова старшего научного сотрудника Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа ВШЭ Алексея Незнанова.
Отбирались все возможные подозрительные слова и словосочетания. Помимо интересующего слова, как такового, в базу включались все варианты сокращенного написания, варианты с искажениями и ошибками.
В результате исследования были созданы программные средства, позволяющие автоматизировать процесс поиска педофилов. Работает это следующим образом: сначала вводится некоторая коллекция текстов, в которой ищутся ключевые слова. После строится объектно-признаковое описание этих данных и на его визуализации видно, какие темы поднимались в каждом сеансе общения между пользователями, что позволяет аналитику быстро делать выводы о потенциальной опасности пользователя.
Программное обеспечение было протестировано эмпирически, а результаты описаны в серии научных статей.