Django过滤HTML标签

上回讲解了《Django 过滤Html指定标签》，过滤的的办法使用了Django的内置的fliter removetags函数，这个有它适合的使用场合；但如果想过滤由Web编辑器产生的HTML标签，用它就显得过于臃肿，效率有点低了。因为你要找出全部的html标签，作为参数传进函数，这么一来可能几十个html标签作为参数一起传到removetagd函数里，显然不是Pythonic的做法。今天利用正则表达式自定义个函数，旨在代码的简洁性和性能优化方面，将html标签过滤了，所以正则表达式可能没有想周全，但是过滤点Web编辑器产生的最常用的标签是够用了。废话少说了，看函数实现：

import re

def remove_html_tags(str_html):

return re.compile('</?\w+[^>]*>').sub('',str_html)

熟悉正则的同学，很清楚该函数过滤的只是<>和里面的字符；因为html正好大都由这些标签组成的，一般情况下，过滤掉了这些标签，html就只剩下文字了。适合的场合可能是过滤文章的正文，这些正文都是使用Web编辑器处理过的字符。若你想把一个完整的html页面，过滤掉html标签，那可能就不适合了，因为完整的html页面源码，包含有CDATA link script注释等等这些零碎的东西，短短的</?\w+[^>]*>正则表达式没有这么强大的功能；希望抛砖引玉吧..

在Django的模板中怎么使用该函数呢？下面附带简洁自定义我们的filter。在app中建立一个templatetags文件夹，在文件夹里建立一个空的__init__.py和base_filter.py文件，把下面的代码copy上去：

#coding=utf-8

import re

from django import template

@register.filter

def remove_html_tags(str_html):

return re.compile('</?\w+[^>]*>').sub('',str_html)

然后在模板中引用我们自定义的filter：

{%load base_filter%}

最后使用该filter即可，比如把资讯的正文，过滤掉html，转义后截取一部分出来，照猫画虎吧：

{{news.content|remove_html_tags|safe|escape|truncatewords_html:12}}

2012年补充：

striptags

随着Django 1.3的修正，其实它自身带有一个标签函数实现了以上的功能，具体参考：striptags吧！

（完）

Django过滤HTML标签

striptags

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本