После того как я начал парсить таблицу с русскими символами в utf-8, увидел кучу странных символов, так называемых кракозябр.
После некоторого времени проведенного в раздумиях, стал понимать что проблема возникла во время анализа DOMDocument, и что мне нужно копать в эту сторону. Решение было небольшим кусочком кода, который уместился в одну строчку.
1 2 |
$doc = new DOMDocument(); $doc->loadHTML(mb_convert_encoding($content, 'HTML-ENTITIES', 'UTF-8')); |
После установки набора символов с mb_convert_encoding все стало как и нужно.