参见英文答案 > PHP DomDocument failing to handle utf-8 characters (☆) 3个
我试图从网站上抓取信息.
该网站有这样的
127 East Zhongshan No 2 Rd; 中山东二路127号
但是,当我试图废弃它&回声它然后会显示出来
127 East Zhongshan No 2 Rd; ä¸å±±ä¸äºè·¯127å·
我也尝试UTF-8
现在请帮我解决这个问题.
function GrabPage($site){
$ch = curl_init();
curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);
curl_setopt($ch, CURLOPT_TIMEOUT, 40);
curl_setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt");
curl_setopt($ch, CURLOPT_URL, $site);
ob_start();
return curl_exec ($ch);
ob_end_clean();
curl_close ($ch);
}
$GrabData = GrabPage($site);
$dom = new DOMDocument();
@$dom->loadHTML($GrabData);
$xpath = new DOMXpath($dom);
$mainElements = array();
$mainElements = $xpath->query("//div[@class='col--one-whole mv--col--one-half wv--col--one-whole'][1]/dl/dt");
foreach ($mainElements as $Names2) {
$Name2 = $Names2->nodeValue;
echo "$Name2";
}
解决方法:
首先,您需要在PHP文件之前的其他任何内容之前设置charset:
header('Content-Type: text/html; charset=utf-8');
你需要转换你用mb_convert_encoding获得的html标记:
@$dom->loadHTML(mb_convert_encoding($GrabData, 'HTML-ENTITIES', 'UTF-8'));
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。