- 博客(44)
- 收藏
- 关注
原创 数据提取之bs4(BeautifuSoup4)模块与Css选择器
(2)获取标签里面的文本内容, 可导航的字符串,数据类型是<class 'bs4.element.NavigableString'>对象,可以使用字符串的方法。stripped_strings: 依次获取所有的标签文本内容,去除多余的空行看, 返回的是一个生成器对象。# print(head.text) # 获取的是多个子级标签的文本内容,内容都拼接在一起。strings: 依次获取所有的标签文本内容,包含空行, 返回的是一个生成器对象。# 通过上一级标签,去获取子级的标签文本内容。
2025-07-10 22:59:09
687
原创 xpath练习—获取a标签下的href属性值以及文本内容,并且将内容保存到csv文件当中去
文章摘要: 本文介绍了使用Python的lxml和csv模块解析HTML数据并保存到CSV文件的方法。通过xpath定位获取a标签的href属性和文本内容,处理了空文本情况,采用字典存储每组数据,最后使用csv.DictWriter写入文件。关键点包括:1)在循环内创建字典避免数据覆盖;2)处理空文本时赋予默认值;3)正确使用相对xpath路径(./)从当前节点获取内容。代码实现了从HTML提取结构化数据并保存为CSV的完整流程。
2025-07-09 17:24:33
215
原创 数据提取之lxml模块与xpath工具
目标:了解xpath的定义了解lxml掌握xpath的语法lxml是一款高新能的python html/xml解析器,我们可以利用xpath,来快速的定位特定元素以及获取节点信息响应内容:json格式的,所有的响应内容都是json格式的吗?响应内容是html格式——json取值?响应内容是html格式——应该怎么取值,xpath数据提取。
2025-07-08 22:20:21
976
原创 爬虫实战—获取猎聘网前3页的职位名称、薪资、公司名称
{"flag":0,"code":"-1400","msg":"出错了(400)!选中请求头参数,ctrl+r输入下面的公式进行替换。dict格式:参数1=值&参数2=值&参数3=值。):(.*)中冒号后面就要加空格。说明反爬了,这时需要添加请求头参数。注意:如果:后面有空格(如果出现下面这种情况。则可以把该键值对删除。
2025-07-07 23:34:26
128
原创 请求模块—requests
requests模块是一个第三方模块,需要在你的python(虚 拟)环境中额外安装 win+r 输入cmd pip/pip3 install requests 源安装:pip install requests -i https://mirrors.aliyun.com/pypi/simple。在url地址中,很多参数是没有用的,比如百度搜索的 url地址,其中参数只有一个有用,其他的都可以删除,对应的,在后续的爬虫中,遇到很多参数的url地址,都可以尝试删除参数。观察上边代码运行结果发现,有好多乱码;
2025-07-07 20:39:50
521
原创 Josn模块的使用
python对象是指Python可操作的内置对象(如字典、列表等)从结果种可以看出设置sort_keys=True之后对键进行了排序。从运行结果中可以看出json格式字符串内部的引号一定是双引号。
2025-07-03 11:11:23
429
原创 HarmonyOS NEXT——DevEco Studio的使用(还没写完)
为保证DevEco Studio正常运行,建议电脑配置满足如下要求:操作系统:Windows10 64位、Windows11 64位内存:16GB及以上硬盘:100GB及以上分辨率:1280*800像素及以上1、下载完成后,双击下载的“deveco-studio-xxxx.exe”,进入DevEco Studio安装向导,点击Next安装2、在如下界面选择安装路径,默认安装于C:\Program Files路径下,也可以单击浏览(B)...指定其他安装路径,然后单击Next。3、在如下安装选项界面勾选Dev
2025-05-03 23:12:16
2109
原创 HarmonyOS NEXT第一课——HarmonyOS介绍
什么是HarmonyOS万物互联时代应用开发的机遇、挑战和趋势随着万物互联时代的开启,应用的设备底座将从几十亿手机扩展到数百亿IoT设备。全新的全场景设备体验,正深入改变消费者的使用习惯。同时应用开发者也面临设备底座从手机单设备到全场景多设备的转变,全场景多设备的全新底座,为消费者带来万物互联时代更为高效、便捷的体验。新的场景同时也带来了新的挑战。开发者不仅需要支持更加多样化的设备,还需要支持跨设备的协作。
2025-05-02 23:15:53
1416
1
原创 编程题练习——温度转换(2024.9.24)
给你一个四舍五入到两位小数的非负浮点数 celsius 来表示温度,以 摄氏度(Celsius)为单位。你需要将摄氏度转换为 开氏度(Kelvin)和 华氏度(Fahrenheit),并以数组 ans = [kelvin, fahrenheit] 的形式返回结果。解释:122.11 摄氏度:转换为开氏度是 395.26 ,转换为华氏度是 251.798。解释:36.50 摄氏度:转换为开氏度是 309.65 ,转换为华氏度是 97.70。输入:celsius = 122.11。
2024-09-24 00:04:48
300
原创 线程POSIX信号量
1.P0SIX信号量,用信号捕捉ctrl+c,去执行关闭信号量,删除信号。2.用线程改写jack和rose管道,做到同时双向通信。
2024-08-15 21:36:19
226
原创 C语言系统IO操作
3.实现diff命令(比较两个文件是否相同,如果相同就打印相同,如果不相同就打印不同)1.实现自己的cat命令例如cat 1.txt 2.txt 3.txt...2实现自己的cp命令。
2024-08-09 00:15:29
165
原创 指针习题2024.7.29
39.若有定义int x[4][3]={1,2,3,4,5,6,7,8,9,10,11,12};40.若有说明:char *language[]={“FORTRAN”,”BASIC”,”PASCAL”,”JAVA”,”C”};34.若有定义:int x[10]={0,1,2,3,4,5,6,7,8,9},*p1;24.若有程序段:int a[2][3],(*p)[3];30.若有定义:int b[4][6],*p,*q[4];s=”china”;
2024-08-01 11:31:15
1570
原创 使用anaconda虚拟环境管理深度学习框架,避免框架版本冲突
其中pytor是要创建的虚拟环境名称,python=3.11是已安装的python版本可以根据自己的需要更改,例如我的python版本是3.9.11,则可更改为python=3.9。那么有小伙伴可能会问怎么查看自己的python版本,此时此刻我知道屏幕前的小伙伴可能会很慌,我知道你很慌,但是你先不要慌,哈哈哈,废话不多说,我们可以通过Win+R打开终端输入。激活环境进行后续操作(此步骤很重要,之后的每一步都要在激活刚刚新建环境的条件下进行!根据自己的电脑配置选择对应的安装指令,在这里我选择cpu安装。
2024-07-24 23:25:45
1505
原创 C高级作业2024.7.24
题目3:从终端输入一串字符,判断字符a的个数。题目2:实现四则运算,终端输入4+2,得到结果为6.4*2,得到结果为8.…题目1:学生成绩管理:用case-in实现。从外部输入一个学习成绩,范围为0-100,成绩大于等于90分,则输出A,成绩大于等于80,则输出B,成绩大于等于60,则输出C,题目4:打印99乘法表。
2024-07-24 21:16:57
207
原创 C高级作业2024.7.23
1.将/etc/passwd中包含root的那一行数据保存到变量中,提示:grep "root"/etc/passwd。1.要求获取www.baidu.com。2.要求获取baidu。
2024-07-23 19:40:28
301
原创 C语言基础作业2024.7.18
b.mystrcpy mystrcmp mystrcat不需要返回值,因为指针没讲,无法返回数组。1、1、2、3、5、8、13、21、34、......,第一项和第二项 时候都是输出1。公式:f(n) = f(n-1)+f(n-2);例如第20项,6765。提示:当前数据 = 上一行的当前列 + 上一行的前一列。
2024-07-18 21:40:35
332
原创 C语言基础作业(2024.7.16)
猴子吃桃问题:猴子第一天摘下若干个桃子,当即吃了一半,还不瘾,又多吃了一个。第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃了前一天剩下的一半零一个。到第10天早上想再吃时,见只剩下一个桃子了。求第一天共摘了多少。结果:peach=1534。有 1 、 2 、 3 、 4 个数字,能组成多少个互不相同且无重复数字的三位数?思路:int a1=10, a2=20, a3=5;求1000以内所有的质数。质数:只能够1和它本身整除。定义一个无符号的整型数组,求数组中的最大值。
2024-07-16 21:48:40
292
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人