Facebook

Как я придумывал алгоритм определения тематики текста. У меня алгоритм получился такой: — взять все рубрики Яндекс-каталога (функция фреймворка) — по каждой рубрике спарсить сайты в этой рубрике (функция фреймворка) — по каждой спарсенной странице выделяет только значимый контент (функция фреймворка) — если на главной не удалось получить значимый контент, то тогда забираем 5-10 внутренних страниц, повторяет пока не получим значимый контент — проходимся по каждой странице, удаляем стоп слова (частицы, междометия, союзы) — считаем общее количество слов в массиве, сохраняем, оно нам пригодиться чтобы перерасчитывать частоту слово при расширении объема — по каждому слову считаем количество использований. Отдельно всего и отдельно в разделе каталога. — пытаемся найти общие фразы. У них будет большая частота и использование в большом количестве разделов — плюнуть на все, найти действующий созданный проект, списаться с создателем и купить этот проект. Миссия выполнена.